Stata统计分析命令

Stata统计分析命令
Stata统计分析命令

Stata统计分析常用命令汇总

一、winsorize极端值处理

范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。

1、Stata中的单变量极端值处理:

stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块

安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。winsor命令不能进行批量处理。

2、批量进行winsorize极端值处理:

打开链接:https://www.360docs.net/doc/3215875314.html,/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。

3、Excel中的极端值处理:(略)

winsor2 命令使用说明

简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones.

相比于winsor命令的改进:

(1) 可以批量处理多个变量;

(2) 不仅可以winsor,也可以trimming;

(3) 附加了by() 选项,可以分组winsor 或trimming;

(4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。

范例:

*- winsor at (p1 p99), get new variable "wage_w"

. sysuse nlsw88, clear

. winsor2 wage

*- left-trimming at 2th percentile

. winsor2 wage, cuts(2 100) trim

*- winsor variables by (industry south), overwrite the old variables

. winsor2 wage hours, replace by(industry south)

使用方法:

1. 请将winsor

2.ado 和winsor2.sthlp 放置于stata12\ado\base\w 文件夹下;

2. 输入help winsor2 可以查看帮助文件;

二、描述性统计

1、summarize

命令格式:su、sum或者summarize [varlist] [if] [in] [weight] [,options]

如果summarize或sum后不加任何变量,则默认对数据中的所有变量进行描述统计options 选项:detail 表示产生更加详细的统计变量

Separator(n)表示每n个变量画一条分界线,n=0表示禁止使用分界线

Summarize 描述统计输出表中包含:样本容量、平均数、标准差、最小值和最大值

2、tabstat

命令格式:tabstat [varlist] [if] [in] [weight] [,options]

options 选项:stat(statname) 表示设定所需要的统计量

col(stat)或c(s)表示将结果报表转置

统计量:

mean:平均数count/n:观测值数目sum:加总

max/min :最大值/最小值range :极差sd:标准差cv:变异系数semean :平均标准误差skewness:偏度var :方差

kurtosis :峰度median/p50:中位数p# :#%百分位数

例如:tabstat[varlist],stat(count mean sd median min max range) col(stat)

3、描述性统计结果输出到word或Excel

用sum做的描述性统计:logout, save(miaoshutongji) word replace:sum

用tabstat做的描述性统计:logout, save(miaoshutongji) word replace:tabstat [varlist] ,stat(count mean sd median min max range) col(stat)

分组描述:bysort var:

三、相关性分析

(一)相关性分析

1、Pearson相关系数命令格式:correlate(简写:cor或corr)[varlist] [if] [in] [weight] [,options]

2、spearman相关系数命令格式:spearman[varlist], stats(rho p)

3、在Stata中,命令corr用于计算一组变量间的协方差或相关系数矩阵;

4、命令pwcorr可用于计算一组变量中两两变量的相关系数,同时还可以对相关系数的显著性进行检验;option选项中加上sig可显示显著性水平:pwcorr[varlist] ,sig

5、命令pcorr 用于计算一组变量中两两变量的偏相关系数并进行显著性检验。

6、Spearman 和Pearson 检验同在一个表的命令:corrtbl[varlist] ,corrvars ([varlist])

输出结果中,上三角为Spearman相关系数和显著水平,下三角为Pearson系数和显著水平。(二)输出相关系数表到word或Excel中

例如:logout, save(mytable) word replace: pwcorr_a price mpg rep78 headroom trunk, star1(0.01) star5(0.05) star10(0.1)

四、截面数据单方程线性回归模型的Stata实现

命令格式:regress(简写:reg)depvar indepvars [if] [in] [weigh] [option]

(depvar表示因变量,indepvars表示自变量)

五、异方差的检验与处理

1、检验异方差命令格式:hettest

2、判断异方差的标准:

看P值的大小来判断,如果P值小于0.05,则不能排除异方差的可能,上图中P值等于0.4584>0.05,因此,可以排除异方差的可能性。

3、处理异方差命令格式:在reg命令后加上“,r”或者“,robust”即可。经异方差处理后的回归不显示调整后的R2(adj-R2),如果要查看调整后的R2,再输入命令:di e(r2_a)

六、多重共线性(自变量之间高度相关)命令格式:vif

(一)判断多重共线性的标准(两个标准必须同时满足):

1、最大的vif大于10;

2、平均的vif大于1 。

(二)多重共线性的修正

1、采用逐步回归进行修正,命令格式:sw reg depvar indepvar, pr(0.05)

2、对于含二次项的,使用“对中”的方法,既可以保留二次项,又可以在一定程度上克服多重共线性的问题:先定义两个变量,分别为该变量减去其均值和该变量的平方,命令如下:sum var

gen var1=var-r(mean)

gen var2=var^2

再用新变量代替原来的变量进行回归处理

七、内生性的检验与处理(内生性是指自变量与误差项之间有关系)

1、内生性的检验:ovtest

看P值的大小来判断,如果P值小于0.05,则不能排除内生性的可能,上图中P值等于0.4717>0.05,因此,可以排除内生性的可能。

2、内生性的处理:使用工具变量法:ivreg

内生性的三个来源:测量误差、遗漏变量和双向因果。

1、变量的内生性。

这个是没有办法单独检验的。当有合适工具变量时候,是可以检验的,就是hausman检验

2、工具变量的外生性。

这个也是没办法检验的。当有很多工具变量时候,可以检验是否有不是外生的,就是“过度识别”问题

3、工具变量的相关性。

这个可以说成是“弱工具变量”问题,检验可以通过一阶段的F值。还可以利用Partial R2。

4、估计方法

stata里面有这么几个2sls,2sls smal、liml、gmm,各自适用情况:small适合小样本;liml 适合弱工具变量;gmm适合异方差。

【例子】

webuse hsng2

*Fit a regression via 2SLS, requesting small-sample statistics

ivregress 2sls rent pcturban (hsngval = faminc iregion), small

*Fit a regression using the LIML estimator

ivregress liml rent pcturban (hsngval = faminc iregion)

*Fit a regression via GMM using the default heteroskedasticity-robust weight matrix

ivregress gmm rent pcturban (hsngval = faminc iregion)

*Fit a regression via GMM using a heteroskedasticity-robust weight matrix, requesting nonrobust standard errors

ivregress gmm rent pcturban (hsngval = faminc iregion), vce(unadjusted)

*检验

estata firststage ,all forcenonrobust \\\可以查看第一阶段F值,已经partial R2

estat overid \\\查看是否过度识别

estat endogenous \\\查看是否异方差

regress 2sls rent pcturban hsngval

est store m1

ivregress 2sls rent pcturban (hsngval = faminc iregion)

est store m2

hausman m1 m2 \\\内生检验

八、线性方程组的回归分析

命令格式:sureg(depvar1 varlist1)(depvar2 varlist2)…(depvarN varlistN) [if] [in] [weigh]

九、联立方程组

命令格式:reg3 (depvar1 varlist1)(depvar2 varlist2)…(depvarN varlistN) [if] [in] [weigh]

十、面板数据的固定效应和随机效应

Xtset

固定效应命令格式:xtreg depvar indepvars [if] [in] ,fe[FE_options]

随机效应命令格式:xtreg depvar indepvars [if] [in] ,re[FE_options]

hausman检验固定效应还是随机效应?

【例子】

xtreg y var1 var2 var3,fe

est store fe

xtreg y var1 var2 var3,re

est store re

hausman fe re,sigmamore

hausman fe re,sigmaless

*sigmamore利用有效估计量方差,即re

*sigmaless利用一致估计量方差,即fe

十一:Stata回归结果的导出

1、在命令窗口中输入:ssc install esttab,安装命令esttab

2、reg 回归

3、esttab using filename.rtf将以word形式输出回归结果,后缀改成.xls或者.csv则以Excel 格式输出,输出内容为变量名称和相应的回归系数,t值,显著性水平标识。系统默认显著性水平是0.001,0.01和0.05,若要改成0.01,0.05和0.1,则输出esttab m1 m2 using aaa.rtf, star(* 0.10 ** 0.05 *** 0.01)。

4、批量输出回归结果:每运行一个regression,存起来:est store m1。m1是你要改的,第一个model所以我叫m1,第二个的话指令就变成est store m2,依次类推,最后运行指令:esttab m1 m2 ... using test.rtf。

esttab m11111 using aaaaa.rtf, star(* 0.10 ** 0.05 *** 0.01)b(%6.4f)

5、outreg2可以将回归结果导入word、excle、latex等,而且可以根据自己需要改变格式:ssc install outreg2

use auto,clear

[varlist]

est store m1

outreg2 [m1] using test.doc,replace

十二、合并样本(将关键词相同的多个样本合并为一个)

命令格式:duplicates drop varlist ,force

例如将同一企业在同一天发生的多起并购合为一起,可根据证券代码和公告日期关键词,将其合并,命令:duplicates drop company_id event_date ,force

十三、均值t检验

命令格式:ttest CAR1 == CAR2, unpaired

十四、中位数Z检验(非参数Wilcoxon秩和检验)

命令格式:ranksum var, by(groupvar)

groupvar为分组变量

十五、检验两组均值的显著性差异,在t检验的后面数值上面加星号

可以用ttest 命令执行检验,它会直接报告星号。

亦可采用外部命令meantab 执行检验,自己根据t 值大小标注星号。

help meantab //这个最好用

sysuse nlsw88, clear

meantab collgrad wage hours ttl_exp tenure, ///

over(union) tstat diff noncells

另有一个李春涛老师编写的命令,可以直接标注星号:

findit ttable //多变量,两组差异

十六、删除有缺失值的样本

egen mis = rowmiss(_all)

drop if mis

条件语句:cond

例如:cond(missing(x), ., cond(x>2,50,70)) returns . if x is missing, returns 50 if x > 2, and returns 70 if x<2

十七、中心化处理与标准化处理

1、安装命令:findit center

2、中心化:

center varlist (注:生成的新变量默认加前置”c_”,可一次对多个变量进行处理)

或:center var, g (newvar) (注:只能对一个变量进行中心化,并生成给定名称的新变量)3、标准化:

center varlist, prefix(z_) standardize (注:生成的新变量加前置”z_”,可多个,可更改)

十八、恢复数据命令

preserve (处理数据前使用该命令,否则没有数据可恢复)

drop var1-var100 (处理数据)

restore (恢复数据)

十九、genicv产生交叉项

【问题】

有时候,想生成很多交叉项,但是又不愿意一个一个写。

有时候,想看一个交叉项,但是又不愿意生成。

【方法】

genicv可以一键生成很多交叉项

##可以直接表示交叉项。

【例子】

ssc install genicv

sysuse auto,clear

genicv length weight foreign //会生成4个交叉项,所有可能情况,并且有label

reg price length weight length_weight

*如果不愿意生成,直接用

reg price c.length##c.weight \\\和上面回归一样一样的

二十、用stata统计变量的个数,但是要去掉重复的部分

bys id:g n=_n

count if n==1

二十一、stata中的主成分分析法

1、首先,需要对变量进行哪些检验?KMO?还有什么?KMO检验结果符合什么条件才能继续进行主成分分析?

答:首先使用KMO检验和SMC检验。

KMO的判断为,Using the Kaiser (1974) characterization of KMO values,

0.00 to 0.49 unacceptable

0.50 to 0.59 miserable

0.60 to 0.69 mediocre

0.70 to 0.79 middling

0.80 to 0.89 meritorious

0.90 to 1.00 marvelous

SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

命令是

estat kmo

estat smc

确定是否需要进行主成分分析。如果有些KMO或者SMC值太小,则要考虑要不要将它们放入主成分中。

然后进行主成分回归。

使用命令为:

pca varlist (不清楚就help pca)

2、例如,对Y的5各指标执行了命令pca y1 y2 y3 y4 y5 得出结果方差贡献率(proportion)就是权重吗?

答:不是。假如设定方差贡献率为95%,那么,累积方差超过95%的那几个特征值、所对应的特征变量,就是权重。

3、看有的帖子上回复说,需要接着执行predict y1 y2 y3 y4 y5,score,这是为了得到每个指标的主成分得分吗?为什么我执行了一下,只生成了一个y1, 别y2、y3、y

4、y5都没生成呢答:直接“predict y1-y4”就可以。生成的四个就是得分。

4、不知道你要问什么?

总之,主成分的步骤为

1、先通过KMO检验和SMC检验确定是否需要主成分分析

2、进行主成分分析,通过累计贡献率确定需要的哪几个主成分

3、根据情况看是否需要rotate

4、通过predict进行得分。或者通过scoreplot看得分分布图。

二十二、将一般的数据转化为面板数据

原数据的形式(excel中)是:2008一张sheet,2009一张sheet。。。。。即:

然后改成这样的数据形式是:

粘贴在stata里就是这样的形式(注意:变量名字一定要改):其中Y为因变量,可以是很多个,X1、X2为自变量,也可以是很多个,stata中的变量名依次为:id、Y2008、Y2009、Y2010、X12008、X12009、X12010、X22008、X22009、X22010

在stata中输入命令:

reshape long Y X1 X2,i(id) j(year)回车即可,变为:

二十三、关于数值型转换为字符型的问题

1、股票代码导入STATA后都变成数值型,现想用tostring命令变回字符型,但长度小于6位的代码,在变回字符型后在前面补够不足6位的0。

方法:format variable %06s

这只是在显示上补充了0,没有在值上补充。以下可以改变x 的值:

replace x=substr("000000"+x,-6,6)

2、将一个12位的数值转换为字符,再从字符里提取前五个字符。转成字符后以科学计数法显示,提取前五位数是提取的科学计数法的前五位,如将110102002016转成字符后显示为1.10e+11,提取时提的是“1.10e”而不是我想要的“11010”

g y=substr(string(x,"%12.0f"),1,5)

3、将字符型转化为数值型命令为:destring var ,replace (转换后替换原来的值)

若字符型中含其他符号并要生成新变量则用:destring varlist, gen(newvarlist) ignore(“$ ,%”)

二十四、分组

均分四组:sort var

xtile prop=var, nq(x) (括号中的x 代表分成的group 数)

例如:

sort insto_ma

xtile prop=insto_ma, nq(4)// 以insto_ma 的四分位点分成四组

sort prop insto_msd

egen stdI=xtile(insto_msd),by(prop) nq(4)//按prop ,以insto_msd 的四分位点分成四组

二十五、估计残差

做完回归后,使用命令predict e ,r

排列组合计算6,32423==C C :di comb(3,2),di comb(4,2)

取整:

1.ceil(x),returns the unique integer n such that n-1 < x <=n. returns x (not “.”) if x is missing, meaning that ceil(.a) = .a

2.floor(x),returns the unique integer n such that n<= x < n + 1, returns x (not “.”) if x is missing, meaning that floor(.a) = .a

3.int(x), returns the integer obtained by truncating x toward 0; thus, int(5.2) = 5,int(-5.8) =-5,retur ns x (not “.”) if x is missing, meaning that int(.a) = .a 。One way to obtain the closest integer to x is int(x+sign(x)/2), which simplifies to int(x+0.5) for x 0. However, use of the round() function is preferred

任何两种软件之间的数据转换,有一种方法是人挡杀人,佛挡杀佛。那就是:

先在A软件里面将其另存为文本格式,然后在B软件里面里面以文本文件导入,再保存为B 软件的文件格式。文本格式,我一般习惯将其存为.csv格式,即变量数据间以逗号分隔,也可以以制表符分隔或、空格分隔或是固定列宽。

伍德里奇《横截面与面板数据的经济计量分析》

下面简要地分享一下安装步骤或过程(这里演示的是WIN7_32):

一、下载全部的安装文件包“Stata_SE_12.1.rar”,然后解压,再打开其中的文件夹

Stata12_Win,再“以管理员身份运行”其中的Setup.exe。

二、选择并点击next,再选择并点击“Iaccept the license agreement”,再选择并点击“anyone who uses this computer”或“only for me”,然后,就进入到以下界面,给你4个选择:32-bit MP, 32-bit SE, 32-bit IC, 32-bit Small。这里,注意,请选择32-bit SE(这里演示的是WIN7_32,若你的系统是64位的,则选择64-bit SE)。

说明一下,STATA的最高级的版本是MP。SE的版本级别仅次于MP。MP与SE的唯一区别在于,前者designed for parallel processing,而后者没有。言下之意,前者可以通过同时运行多处理器或内核来加快运算速度,两者在功能上完全没有区别,只是在大数据处理时,MP要占优。因此,我们通常的教学与科研使用,SE版本已经足够。目前网上释放出来的破解的最高版本仅限于SE版,MP版未有破解。我想,如果你真的需要以MP版进行大数据处理,那一定是相当高级别的用户了,购买一个正版的MP版就一点都不过分了。

三、然后再次点击“next”、“next”,然后选择点击“Use Each User’s Documents Folder”或“Use

a Fixed Folder for All users”(本人建议选择后者,并在非系统分区中建议一个文件夹,比如,我通常以C分区为系统盘,因此,我通常在D分区中建立一个工作文件夹即D:\data)。继续next,next, 则开始复制文件与安装软件,直到出现Finish,点击它,就安装完成了。

四、将crack文件夹中的文件“STATA.LIC”复制到安装文件夹中(通常为:

C:\ProgramFiles\Stata12)。

五、运行STATA,在command中输入“db update”并回车(注意,不能输入“update all”命令,这是自动升级的命令,一方面自动升级通常很慢,另一方面,自动升级往往不成功),在随后出现的“update–Check for official updates”对话框中,选择“From alternative location”,点击“browse”找到本人提供的安装文件中的文件夹“stata12update_win32”(若你是64位的系统,则为“stata12update_win64”),点击“确定”、“OK”。

六、按提示,或点击“install available update”,或在command中输入“update all”。

七、升级完成后,会提示,这是一个Special Edition, 点击help中的“About Stata”则显示版本为“Stata/SE12.1 for Windows (32-bit)”,其最新的更新日期为2013年3月20日。享用。

stata命令总结

stata11常用命令 注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk 检验刚好相反; dta为数据文件; gph为图文件; do为程序文件; 注意stata要区别大小写; 不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令: 读入数据一种方式 input x y 1 4 2 5.5 3 6.2 4 7.7 5 8.5 end su/summarise/sum x 或 su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max) %返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range, %% sd,var,cv(变易系数=标准差/均值),skewness,kurtosis,median,p1(1%分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 – p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π的数值。 list gen/generate %产生数列 egen wagemax=max(wage) clear use by(分组变量)

STATA最常用命令大全

stata save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。 STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2 encode 字符变量名,gen(新数值变量名) 作用:将字符型变量转化为数值变量。 STATA数据库的维护 保留变量或记录 keep in 10/20 /* 保留第10~20个记录,其余记录删除 keep x1-x5 /* 保留数据库中介于x1和x5间的所有变量(包括x1和x5),其余变量删除keep if x>0 /* 保留x>0的所有记录,其余记录删除

Stata命令整理教学内容

Stata 命令语句格式: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 1、[by varlist:] *如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得, sort foreign //按国产车和进口车排序 . by foreign: sum price weight *更简略的方式是把两个命令用一个组合命令来写。 . by foreign, sort: sum price weight 如果不想从小到大排序,而是从大到小排序,其命令为gsort。 . sort - price //按价格从高到低排序 . sort foreign -price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/ 2、[=exp]赋值运算 . gen nprice=price+10 //生成新变量nprice,其值为price+10 /*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为 nprice,新的价格在原价格的基础上均增加了10 元。 . replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice 调减后与price 变量取值相等*/ 3、[if exp]条件表达式 . list make price if foreign==0 *只查看价格超过1 万元的进口车(同时满足两个条件),则 . list make price if foreign==1 & price>10000 *查看价格超过1 万元或者进口车(两个条件任满足一个) . list make price if foreign==1 | price>10000 4、[in range]范围筛选 sum price in 1/5 注意“1/5”中,斜杠不是除号,而是从1 到 5 的意思,即1,2,3,4,5。 如果要计算前10 台车中的国产车的平均价格,则可将范围和条件筛选联合使用。 . sum price in 1/10 if foreign==0 5、[weight] 加权 sum score [weight=num] 其中,num为每个成绩所对应的人数 6、[, options]其他可选项 例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/ . sum score, detail . sum score, d //d 为detail 的略写,两个命令完全等价 . list price, nohead //不要表头 Stata 数据类型转换 1、字符型转化成数值型 destring, replace //全部转换为数值型,replace 表示将原来的变量(值)更新 destring date, replace ignore(“ ”) 将字符型数据转换为数值型数据:去掉字符间的空格destring price percent, gen(price2 percent2) ignore(“$ ,%”) 与date 变量类似,变量price 前面有美元符号,变量percent 后有百分号,换为数值型时需要忽略这些非数值型字符 2、数值型转化为字符型

(完整)stata命令总结,推荐文档

stata11 常用命令 注:JB统计量对应的p大于0.05 ,则表明非正态,这点跟sktest 和 swilk 检验刚好相反;dta 为数据文件;gph 为图文件;do 为程序文件;注 意stata 要区别大小写;不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令:读入数据一种方式 input x y 14 2 5.5 3 6.2 47.7 58.5 end su/summarise/sum x 或su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max)%返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总 和),max,min,range , %% sd ,var ,cv(变易系数=标准差/ 均值),skewness,kurtosis , median,p1(1 %分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 –p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π 的数值。 list gen/generate % 产生数列egen wagemax=max(wage) clear use by(分组变量)

stata常用命令

用help命令熟悉以下命令的功能: cd:(Change directory)改变stata的工作路径 用法:(cd changes the current working directory to the specified drive and directory.) ●指定全路径:cd e:\ ●指定相对路径(如果当前路径已经指向e:\那么下面命令将达到和上面全路 径命令同样效果): ●cd .. 返回上一级目录 dir:(Display filenames)显示当前目录下的文件信息 用法:(list the names of files in the specified,the names of the commands come from names popular on Unix and Windows,filespec may be any valid Mac, Unix, or Windows file path or file)工作列表文件中指定的名称目录,命令的名称来自名字流行的Unix和Windows文件规范可以是任何有效的Mac,Unix或Windows文件路径或文件。 . dir, w . dir *.dta . dir \mydata\*.dta List:(List values of variables)列出指定变量的取值 用法:(st displays the values of variables. If no varlist is specified, the values of all the variables are displayed)列表显示变量的值。如果没有指定varlist,所有的值显示的变量。list [varlist] [if] [in] [, options] . list in 1/10 . list mpg weight . list mpg weight in 1/20 . list if mpg>20 . list mpg weight if mpg>20 . list mpg weight if mpg>20 in 1/10 Describe:(Describe data in memory or in file)描述内存或者文件中的数 据(样本数、变量类型等信息) 用法:(describe produces a summary of the dataset in memory or of the data stored in a Stata-format dataset. For a compact listing of variable names, use describe, simple.) ●描述内存数据: ●描述文件数据:describe [varlist] using filename [, file_options] Use:(Load Stata dataset)调用数据,打开数据文件(以dta结尾)文 件名+.dta 数据读入stata 用法:(use loads into memory a Stata-format dataset previously saved by save. If filename is specified without an extension, .dta is assumed. If your

Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲 Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节 Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/ *如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel格式,需要用egen命令) egen year_new=group(year) xtset id year_new **保留变量或保留观测值 keep inv /*删除变量*/ **或 keep if year==2000 **排序 sort id year /*是以STATA面板数据格式出现 sort year id /*是以DEA格式出现 **长数据和宽数据的转换 *长>>>宽数据 reshape wide logy,i(id) j(year)

stata常用命令模板

stata 常用命令 (2012-07-29 17:22:25) 转载▼ 分类:stata 标签: 杂谈 save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个 3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2 encode 字符变量名,gen(新数值变量名) 作用:将字符型变量转化为数值变量。

STATA统计分析入门

STATA统计分析入门 STATA统计软件包是目前世界上最著名的统计软件之一,与SAS、SPSS一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、易学易用、运行速度极快,在许多方面别具一格。 STATA最为突出的特点是短小精悍、功能强大,整个系统一般在200M左右,但是已经包含了全部的统计分析。数据管理和绘图等功能,尤其是它的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。而且STATA在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。STATA的命令语句也极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。STATA语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。 STATA的另一个特点是他的许多高级统计模块均是编程人员用宏语言写成的程 序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到STATA 网站寻找并下载最新的升级文件。 课程简介: 该课程主要是为大家介绍STATA的基本用法和简单的统计分析。 课程大纲: 第一课:STATA简介 介绍STATA基本情况(统计编程及作图功能),软件窗口界面及基本数据处理的操作方法。 第二课:STATA中的图形制作 介绍图形制作的基本命令和一些基本图形的绘制(直方图、散点图、箱线图、饼图等) 第三课:假设检验与方差分析ANOVA STATA下单双因素方差分析的操作,及假设检验 第四课:简单与多元回归 介绍大小样本下的最小二乘法与多元线性回归,介绍如何用STATA做回归诊断 课程基础: 简单的英文基础,因为STATA是英文版的

Stata统计分析命令

Stata统计分析常用命令汇总 一、winsorize极端值处理 范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。 1、Stata中的单变量极端值处理: stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块 安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。winsor命令不能进行批量处理。 2、批量进行winsorize极端值处理: 打开链接:https://www.360docs.net/doc/3215875314.html,/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。 3、Excel中的极端值处理:(略) winsor2 命令使用说明 简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones. 相比于winsor命令的改进: (1) 可以批量处理多个变量; (2) 不仅可以winsor,也可以trimming; (3) 附加了by() 选项,可以分组winsor 或trimming; (4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。 范例: *- winsor at (p1 p99), get new variable "wage_w" . sysuse nlsw88, clear . winsor2 wage *- left-trimming at 2th percentile . winsor2 wage, cuts(2 100) trim *- winsor variables by (industry south), overwrite the old variables . winsor2 wage hours, replace by(industry south) 使用方法: 1. 请将winsor 2.ado 和winsor2.sthlp 放置于stata12\ado\base\w 文件夹下; 2. 输入help winsor2 可以查看帮助文件;

如何运用Stata完成统计数据汇总工作论文.doc

本加总在一起,合并后样本变量数目不变,样本数增加,也就是数据文件变长了。最常见的纵向合并情况是对一项调查在不同地区或者不同时间得来的数据进行合并。Stata 纵向合并数据文件的命令为“append”.比如,我们将调查得到的包含北京市调查数据的数据文件“bj.dta”和包含天津市调查数据的数据文件“tj.dta”纵向合并的Stata命 令为: use bj,clear append using tj 需要注意的是,在纵向合并两个数据文件前,两个文件中相同变量的变量名要一致,否则将会被当成两个变量处理,并产生无用的缺失值。同时,相同变量的变量类型要一致。 汇总问卷调查结果 问卷调查时效性较强,调查结果容易量化,便于统计处理与分析,是常用的统计调查方法。问卷调查结果用Stata 进行汇总非常方便,使用“tabulate”命令,可方便的生成列联表,根据变量的频数分布可以得到问卷回答情况的汇总结果。比如,对10000个样本企业开展问卷调查,涉及10 个问题,分别为:

WT1,WT2, ……,WT10(每个问题的答案均为A、B、C、D 四个选项)。汇总问题WT1 的回答情况时,只需输入命令:tabulateWT1,即可得到WT1 样本回答情况的频数(Freq)、百分比(Percent)及累计百分比(Cum)指标(Stata 输出结果见表1)。从Freq 输出结果可见,样本企业对WT1 的回答情况为:选择答案A、B、C、D 的企业数量分别为1000、3000、4000 和2000 个。Percent结果给出了选择答案1、2、3、4 的比重分别为10%,30%、40% 和20%. 同时,“tabulate”命令还可以生成2 维列联表,比如,需要对问题WT1 做分省回答结果的汇总时,只需对省代码(sf)和WT1 执行“tabulate”汇总。Stata 命令为:tabulate sf WT1,即可输出表 2 格式的汇总结果{ 假设调查只涉及北京市(代码11)、天津市(代码12)、河北省(代码13)}. 类似的,可以对每一个问题的调查结果分行业、分登记注册类型、分控股情况等做交叉分组汇总。 汇总生产经营情况调查结果 现行的统计报表制度更多的是对调查单位的生产经营情况开展年度、季度或者是月度调查。日常的数据汇总工作更多的是对生产经营指标做各种交叉分组汇总。 与问卷调查结果不同,生产经营情况的调查结果需要对调查指标数据加总或者通过计算生成新的指标,因此,我们首先要生成新的变量,来记录相应指标的汇总结果。Stata 生成新变量的命令为“generate”及其扩展命令“egen”.“generate”用来生

常用到的stata命令

常用到的sta命令 闲话不说了。help和search都是查找帮助文件的命令,它们之间的区别在于help用于查找精确的命令名,而search是模糊查找。如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在sta的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。如果你想知道在sta下做某个估计或某种计算,而不知道具体该如何实现,就需要用search命令了。使用的方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容。 下面该正式处理数据了。我的处理数据经验是最好能用sta的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在sta窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出现“bring do-file editor to front”,点击它就会出现do文件编辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。 /*(标签。简单记下文件的使命。)*/ capture clear(清空内存中的数据) capture log close(关闭所有打开的日志文件) set mem 128m(设置用于sta使用的内存容量) set more off(关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。) set matsize4000(设置矩阵的最大阶数。我用的是不是太大了?)

运用Stata做计量经济学

运用Stata做计量经济学 运用Stata建模的7步骤: 1、准备工作;目录、日志、读入数据、熟悉数据、时间变量、more、……; 2、探索数据:数据变换、描述统计量、相关系数、趋势图、散点图、……; 3、建立模型:regress、经济理论检验、实际经济问题要求、统计学检验、计量经济学检验:R2,T,t,残差; 4、诊断模型:异方差、序列相关、多重共线性、随机解释变量问题、……; 5、修正模型:WLS、GLS、工具变量法(ivregress),……; 6、应用模型:置信区间、预测、结构分析、边际分析、弹性分析、常用模型回归系数的意义、……; 7、整理:关闭日志、生成do文件备用 1、准备工作 让STATA处于初始状态,清除所有使用过的痕迹clear 指明版本号version11 设定并进入工作文件夹:cd D:\ (设定路径,将数据、程序和输出结果文件均存入该文件夹) 关闭以前的日志capture log close 建立日志:log using , replace 设定内存:set mem 20m

关闭more:set more off 读入数据:use .dta, clear 认识变量:describe 建立时间变量:tsset 2、用描述统计方法探索数据特征 必要的数据转换:gen、replace、……; 描述统计量:summarize, detail 相关系数矩阵:corr/pwcorr 散点图和拟合直线图:scatter y x || lfit y x 矩阵散点图:graph matrix y x1 x2 x3,half 线性趋势图:line y x 3、建立模型 OLS建立模型:regress y x1 x2 x3; 由方差分析表并用F和R2检验模型整体显著性; 依据p值对各系数进行t检验,一次只能剔出一个最不显著的变量,直到不包含不显著的变量; 估计参数,判别变量的相对重要性; 构造和估计约束模型,用以检验经济理论

Stata常用15条命令

【命令1】:导入数据 一般做实证分析使用的是excel中的数据,其后缀名为.xls,需要将其修改为.csv insheet using name.csv, clear 【命令2】:删除重复变量 sort var1 var2 duplicatesdrop var1 var2, force 【命令3】:合并数据 use data1, clear merge m:m var1 var2 using data2 drop if _merge==2 drop if _merge==1 drop _merge 【命令4】:描述性统计分析 tabstat var1var2, stat(n min mean median p25 p75 max sd), if groupvar==0 or 1 输出到word中: logout, save(name) word replace: tabstat var, stat(n min mean p50 max sd) col(stat)f(%9.2g) 【命令5】:结果输出 安装 ssc install estout, replace 单个回归 reg y x esttab using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01) 多个回归一起 reg y x1 est store m1 reg y x2 est store m2 esttab m1 m2 using name.rtf, compress nogap r2 ar2 star(* 0.1 ** 0.05 *** 0.01)

常用到的stata命令

安装estat: ssc install estout,replace\ 2010-10-14 11:38:15来自: 杨囡囡(all a woman lack is a wife) (转自人大论坛) 调整变量格式: format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位 format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位 format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法 format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符 format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐 合并数据: use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort) 建议采用第一种方法。 对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除 查看与编辑数据:

stata常用命令

面板数据估计 首先对面板数据进行声明: 前面是截面单元,后面是时间标识: tsset company year tsset industry year 产生新的变量:gen newvar=human*lnrd 产生滞后变量Gen fiscal(2)=L2.fiscal 产生差分变量Gen fiscal(D)=D.fiscal 描述性统计: xtdes :对Panel Data截面个数、时间跨度的整体描述 Xtsum:分组内、组间和样本整体计算各个变量的基本统计量 xttab 采用列表的方式显示某个变量的分布 Stata中用于估计面板模型的主要命令:xtreg xtreg depvar [varlist] [if exp] , model_type [level(#) ] Model type 模型 be Between-effects estimator fe Fixed-effects estimator re GLS Random-effects estimator pa GEE population-averaged estimator mle Maximum-likelihood Random-effects estimator 主要估计方法: xtreg: Fixed-, between- and random-effects, and population-averaged linear models xtregar:Fixed- and random-effects linear models with an AR(1) disturbance xtpcse :OLS or Prais-Winsten models with panel-corrected standard errors xtrchh :Hildreth-Houck random coefficients models

stata常用命令

stata常用命令 stata save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2

相关文档
最新文档