第九章 含虚拟变量的回归模型

第九章 含虚拟变量的回归模型
第九章 含虚拟变量的回归模型

第九章含虚拟变量的回归模型

目前为止,在已学习的线性回归模型中,解释变量X都是定量变量。但有时候,解释变量是定性变量。

9.1 虚拟变量的性质

通常在回归分析中,应变量不仅受一些定量变量的影响,还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。

如:

美国黑人的收入比相应的白人的收入低。

女学生的S.A.T.的数学平均分数比相应的男生低。

定性变量通常表明了具备或不具备某种性质,比如,男性或女性,黑人或白人,佛教徒或非佛教徒,本国公民或非本国公民。

把定性因素“定量化”的一个方法是建立人工变量,并赋值0和1,0表示变量不具备某种属性,1表示变量具备某种属性,该变量称为虚拟变量(dummy variable),用符号D表示。

虚拟变量一样可用于回归分析,一个回归模型的解释变量可以仅仅是虚拟变量,称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 )

其中Y = 初职年薪

Di =1,大学毕业

=0,非大学毕业

假定随机扰动项满足古典线性回归模型的基本假定,根据模型( 9 - 1 )得到:

非大学毕业生的初职年薪的期望为:

E(Yi|Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 )

大学毕业生的初职年薪的期望为:

E(Yi|Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 )

可以看出:

截距B1表示非大学毕业生的平均初职年薪,

“斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少;

(B1+B2)表示大学毕业生的平均初职年薪。

零假设:大学教育没有任何益处(即B2=0),可根据t检验值

判定b2是否是统计显著的。

例9.1 大学毕业生和非大学毕业生的初职年薪

模型( 9-1 ) OLS回归结果如下:

Yi = 18.00 + 3.28Di ( 9 - 4 ) se = (0.31) (0.44)

t = (57.74 ) (7.444)

p值= ( 0.000 ) (0.000)

r2=0.8737

估计的非大学毕业生的平均初职年薪为18000美元(=b1),大学毕业生的平均初职年薪为21280美元(b1+b2)。

根据括号中的t值,很容易验证b2是统计显著的,表明非大学毕业生和大学毕业生的初职年薪有差距。

图9-1描绘了回归结果,回归函数是一个分段函数。

在社会学、心理学、教育学领域,ANOVA模型用得很广泛,而经济学中很少。在许多经济研究中,回归模型中的解释变量有些是定量的,有些是定性的,称为协方差模型( ANCOVA )。

9.2 包含一个定量变量,一个定性变量的回归模型

Yi=B1 + B2Di + B3Xi + ui ( 9 - 6 )

其中 Yi —公司职员的年薪

Xi —工龄

Di =1,女职员

=0,男职员

模型( 9 - 6 )包含了一个定量的变量X(工龄)和一个定性变量(性别)。

假定E(ui) = 0,则,

男职员平均年薪:

E (Yi|Xi,Di= 0) = B1 + B3Xi ( 9 - 7 )

女职员平均年薪:

E (Yi|Xi,Di= 1) = (B1 + B2) + B3Xi ( 9 - 8 )

图9 - 2描绘了这两种不同的情况。(假定B1> 0 )

模型( 9 - 6 )表明男、女职员的平均年薪对工龄的函数具有相同的斜率(B3),但截距不同。即男职员的平均年薪水平与女职员不同(多了B2),但男、女职员平均年薪对工龄的变化率相同。

零假设:回归方程( 9 - 7 )和( 9 - 8 )有相同的截距(也即没有性别歧视)。再根据t检验结果判定b2的统计显著性。

考虑:能否引入关于性别的两个虚拟变量?

模型( 9 - 6 )可写为:

Yi=B1 + B2Xi + B3D1i + B4D2i + ui ( 9 - 9 )

D1i =1,男职员

=0,女职员

D2i =1,女职员

=0,男职员

无法估计模型( 9 - 9 ),因为D1i与D2i存在完全共线性(即完全的线性关系)。很容易验证:

D1= ( 1-D2)或D2= 1-D1,也即D1,D2完全共线性。

避免完全共线性问题的一般规则是:如果一个定性的变量有m类,则要引进(m-1 )个虚拟变量。如果不遵循这个规则,就会陷入虚拟变量陷阱(dummy variable trap),也即完全多重共线性情形。

虚拟变量的赋值是任意的。例子中令D= 1,代表女职员,D= 0,代表男职员;赋值可根据习惯而定。

赋值为0的一类常称为基准类,对比类;(共同的)截距B1是基准类的截距。同样,对于基准类的选择也是根据研究目的而定的。

虚拟变量D的系数称为差别截距系数,表明了取值为1的类的

截距值与基准类截距值的差距。

例9.3:职员年薪与工龄、性别的关系。

得到的OLS回归结果如下:

Yi = 17.969 + 1.3707Xi + 3.3336Di ( 9 - 10 )

Se = (0.191 9) (0.035 6) (0.155 4)

t= (93.612 0) (38.454) (21.455)

r2=0.9933

当性别变量为常量时,平均年薪将增加1371美元。当工龄变

第五章 虚拟变量模型和滞后变量模型

1. 表5.1中给出了中国1980—2001年以城乡储蓄存款新增额代表的居民当年储蓄及以GNP 代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。 表5.1 1980—2001年中国居民储蓄与收入数据 单位:亿元 年份 储蓄S GNP 年份 储蓄S GNP 1980 118.5 4517.8 1991 2072.8 21662.5 1981 124.2 4860.3 1992 2438.4 26651.9 1982 151.7 5301.8 1993 3217 34560.5 1983 217.1 5957.4 1994 6756.4 46670 1984 322.2 7206.7 1995 8143.5 57494.9 1985 407.9 8989.1 1996 8858.5 66850.5 1986 615 10201.4 1997 7759 73142.7 1987 835.7 11954.5 1998 7127.7 76967.2 1988 728.2 14922.3 1999 6214.3 80579.4 1989 1345.4 16917.8 2000 4710.6 88228.1 1990 1887.3 18598.4 2001 9430 94346.4 估计以下回归模型: 0123()i i i i i i Y X D D X u ββββ=++++ 其中i D 为引入的虚拟变量:1,19910,1991i D ?=?? 年前年后 对上面的模型进行估计,结果如下: 所以表达式为: 15350.0751981.90.032()i i i i i Y X D D X =+-+ (1.40) (4.45) (-1.38) (0.37)

虚拟变量回归模型

虚拟变量回归模型 以下是为大家整理的虚拟变量回归模型的相关范文,本文关键词为虚拟,变量,回归,模型,内蒙古,科技,大学,课程,计量经济学,您可以从右上方搜索框检索更多相关文章,如果您觉得有用,请继续关注我们并推荐给您的好友,您可以在综合文库中查看更多范文。 内蒙古科技大学

实验报告 课程名:计量经济学实验项目名称:单方程线性回归模型的扩展——虚拟变量回归模型 院(系):专业班级:姓名:学号: 1 内蒙古科技大学 实验地点:经管机房 实验日期:20XX年4月18日 实验目的:掌握虚拟变量回归模型的建立、参数估计和统计检验。实验内容: 1)生成趋势变量2)生成季节虚拟变量3)生成分段虚拟变量4)建立虚拟变量回归模型 5)虚拟变量回归模型的参数估计和统计检验实验方法、步骤和结果: 一、生成趋势变量 1、建立新的工作文件,导入数据并且重命名

2、点击quick,generateseries生成序列,t=@trend(1990:1)+1 2 并填写公式内蒙古科技大学 3、打开gDp,点击View,graph,line生成趋势图。 根据趋势图可以看出近似分段虚拟变量,需剔除季节的影响 3 内蒙古科技大学 二、生成季节虚拟变量 生成虚拟变量,点击quick----generateseries输入公式

D2=@seas(2)D3=@seas(3)D4=@seas(4) 三、生成分段虚拟变量 1、为了研究1997年金融危机对香港经济的影响,以1997年为分界点。设d5=0,将sample改为1990第一季度到1997年第四季度。 4 内蒙古科技大学 2、设d5=1,将sample改为1998年第一季度到20XX年第四季度。 四、建立虚拟变量回归模型 gDp^=?^1+?^2t+?^3d2t+?^4d3t+?^5d4t+?^6d5t+?^7d5t*t 五、虚拟变量回归模型的参数估计和统计检验点击quick,

虚拟变量案例

虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = 0 + 1 x t + 2D + u t , 其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为, + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D =0 (中学) -1 (小学)。 【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve) GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下: 年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

Eviews虚拟变量实验报告

实验四虚拟变量 【实验目的】 掌握虚拟变量的基本原理,对虚拟变量的设定和模型的估计与检验,以及相关的Eviews操作方法。 【实验内容】 试根据1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立 【实验步骤】 1、相关图分析 根据表中数据建立人均收入X与彩电拥有量Y的相关图(SCAT X Y)。从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,

因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 2、构造虚拟变量 构造虚拟变量 1D (DATA D1),并生成新变量序列: GENR XD=X*D1 3、估计虚拟变量模型 LS Y C X D1 XD 得到估计结果:

我国城镇居民彩电需求函数的估计结果为: XD D X Y 009.0873.31012.0611.571-++=∧ (16.25) (9.03) (8.32) (-6.59) 366,066.1..,9937.02===F e s R 再由t 检验值判断虚拟变量的引入方式,并写出各类家庭的需求函数。 虚拟变量的回归系数的t 检验都是显著的,且模型的拟合优度很高,说明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,所以以加法和乘法方式引入虚拟变量是合理的。 低收入家庭与中高收入家庭各自的需求函数为: 低收入家庭: X Y 012.0611.57+=∧ 中高收入家庭: X X Y 003.0484.89)009.0012.0()873.31611.57(+=-++=∧ 由此可见我国城镇居民家庭现阶段彩电消费需求的特点: 对于人均年收入在3300元以下的低收入家庭,需求量随着收入水平的提高而快速上升,人均年收入每增加1000元,百户拥有量将平均增加12台;对于人均年收入在4100元以上的中高收入家庭,虽然需求量随着收入水平的提高也在增加,但增速趋缓,人均年收入每增加1000元,百户拥有量只增加3台。

(精品)第五章-虚拟变量模型和滞后变量模型

第五章虚拟变量模型 1.表5.1中给出了中国1980—2001年以城乡储蓄存款新增额代表的居民当年储蓄及以GNP 代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。 年份储蓄S GNP 年份储蓄S GNP 1980 118.5 4517.8 1991 2072.8 21662.5 1981 124.2 4860.3 1992 2438.4 26651.9 1982 151.7 5301.8 1993 3217 34560.5 1983 217.1 5957.4 1994 6756.4 46670 1984 322.2 7206.7 1995 8143.5 57494.9 1985 407.9 8989.1 1996 8858.5 66850.5 1986 615 10201.4 1997 7759 73142.7 1987 835.7 11954.5 1998 7127.7 76967.2 1988 728.2 14922.3 1999 6214.3 80579.4 1989 1345.4 16917.8 2000 4710.6 88228.1 1990 1887.3 18598.4 2001 9430 94346.4 估计以下回归模型: 0123 () i i i i i i Y X D D X u ββββ =++++ 其中 i D为引入的虚拟变量: 1,1991 0,1991 i D ? =? ? 年前 年后 对上面的模型进行估计,结果如下: 所以表达式为:

15350.0751981.90.032()i i i i i Y X D D X =+-+ (1.40) (4.45) (-1.38) (0.37) 从2β和3β的t 检验值可以知道,这两个参数显著的为0,所以1991年前和1991年后两个时期的回归结果是相同的。 下面用邹式检验来验证上面对于两个时期的回归结果相同的结论是否正确。 过程如下: 输入要验证的突变点,本例为1991年。 输出结果如下:

计量经济学作用-虚拟变量回归

虚拟变量回归 实验目的:分析1965~1970年美国制造业利润和销售额,季度的关系。 实验要求:假定利润不仅与销售额有关,而且和季度因素有关 (1) 如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量? (2) 如果认为季度影响使利润对销售额的变化率发生变异,应如何引入虚拟变 量? (3) 如果认为上诉两种情况都存在,又当如何引入虚拟变量? (4) 对上述三种情况分别估计利润模型,进行对比分析。 实验原理:最小二乘法原理 实验步骤: 由于有四个季度,因此引入三个季度虚拟变量: 其它一季度???=012D 其它二季度???=013D 其它三季度? ??=014D 一、如果认为季度影响使利润平均值发生变异,应以加法类型引入三个虚拟变量,设其模型为:u X D D D Y t t t +++++=βαααα4433221 对模型进行回归,得到以下回归结果: Dependent Variable: Y Method: Least Squares Date: 11/26/10 Time: 15:02 Sample: 1965Q1 1970Q4 Included observations: 24 Variable Coefficien t Std. Error t-Statistic Prob. C 6910.449 1922.350 3.594792 0.0019 X 0.038008 0.011670 3.256914 0.0041 D2 -187.7317 660.1218 -0.284390 0.7792 D3 1169.320 637.0766 1.835446 0.0821 D4 -417.1182 640.8333 -0.650900 0.5229 R-squared 0.517642 Mean dependent var 12838.54 Adjusted R-squared 0.416093 S.D. dependent var 1433.284 S.E. of regression 1095.227 Akaike info criterion 17.01836 Sum squared resid 22790932 Schwarz criterion 17.26379 Log likelihood -199.2204 F-statistic 5.097454 Durbin-Watson stat 0.396350 Prob(F-statistic) 0.005810 Y t ^=6910.449-187.7317D 2+1169.320D 3-417.1182D 4+0.038008X t Se=(1922.350) (660.1218) (637.0766) (640.8333) (0.011670)

第五章-含虚拟变量的回归模型

Econometrics 第五章虚拟变量回归模型(教材第六章)

第五章虚拟变量回归模型 第一节虚拟变量的性质和引入的意义 第二节虚拟变量的引入 第三节交互作用效应 第四节含虚拟变量的回归模型 学习要点 虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义 虚拟变量的性质 f定性变量 性别(男,女) 婚姻状况(已婚,未婚) 受教育程度(高等教育,其他) 收入水平(高收入,中低收入) 肤色(白人,有色人种) 政治状况(和平时期,战争时期) f引入虚拟变量(Dummy Variables)

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。 2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。 3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。 5.1 虚拟变量的性质和引入的意义

5.2 虚拟变量的引入 虚变量引入的方式主要有两种 f加法方式 虚拟变量与其它解释变量在模型中是相加关系,称为虚拟 变量的加法引入方式。 加法引入方式引起截距变动

5.2 虚拟变量的引入 f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。 f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。 f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。 f 事实上,模型可以只包括虚拟变量(ANOVA 模型): 其中,0,1,i i D D ==男性;女性。 12i i i Y B B D u =++

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中,i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

带虚拟变量的回归模型

§5.5 含有虚拟变量的回归模型 1.带虚变量的回归预测 前述变量均是用某种意义明确的尺度加以定量的变数。 暂时性影响:经济行为受特定因素的影响,因而促使一期或数期变数与其他各期有明显的差异。 虚拟变量:用来表现暂时性影响的变量,或者说,表明某种“品质”或属性是否存在的的变量。 2.基本概念 (1)水平:当自变量以虚拟变量的形式出现时,虚拟变量的出现形式称为“水平”。 (2)反应:用 ()k j i ,δ表示第i 个样本第j 个自变量取第k 个水平的反应: ()k j i ,δ=? ? ?否则个水平时个自变量取第 个样本第当第01k j i (3)反应表:将各样本的资料排列得到的表格称为反应表。 (4)反应矩阵:把反应表中的反应()k j i ,δ写成矩阵形式,称为反应矩阵。记为 X= ( ()k j i ,δ) 。 3.基本方法 (1)建模原则: 如果一个属性变数有m 个类型,只引入m —1个虚拟变量。否则,会陷入所谓的虚拟变数陷阱之中,出现完全多重共线性的情况。 在解释采用虚拟变量的模型结果时,要弄清楚水平值是如何确定的。 指定取值为0的类型或组通常用来指明基础类型、控制类型、对比类型或被省略的类型。 附属于虚拟变量D 的系数 α1 称为不同的截距系数,它说明D 取值为1的那种类型的截距项 与基础类型的截距系数的数值差异有多大。 (2)建立数学模型:将虚拟变量视为普通变量,建立回归模型。 (3)对参数作出估计。 (4)进行预测。 (5)一般情况:指模型自变量中同时含有虚拟变量和普通变量。 4.应用实例 研究1958年第四季度到1971年第二季度期间英国的失业率和职务空缺率之间的关系。原始

虚拟变量案例-虚拟变量回归案例分析

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1. 截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 020 40 60 20 40 60 X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

第五章 离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归) 第一节虚拟变量的概念 一、问题的提出 计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如 1、属性(品质)因素的表达 在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。 2、异常值现象 当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。 3、季节因素的影响 有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑? 4、离散选择现象的描述 如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。 第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。 二、虚拟变量的定义 1、定义 设变量D表示某种属性,该属性有两种类型,即当属性存在时D取值为1;当属性不存在时D取值为0。记为

???=不具有该属性类型 具有某种属性类型0 1D 2、虚拟变量引入的规则 (1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?) (2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。 (3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况 D=0, 第一个类型; D=1, 第二个类型; …… D=m-1, 第m 个类型。 原因是上述情况没有反映出属性类型的相互排斥性。 第二节 虚拟解释变量的回归 一、加法引入规则 1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。 设模型为 123i i i i Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用 (1)模型中只有一个定性解释变量 设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 =

第五章虚拟变量模型和滞后变量模型

第五章虚拟变量模型和滞后变量模型 以下是为大家整理的第五章虚拟变量模型和滞后变量模型的相关范文,本文关键词为第五,虚拟,变量,模型,滞后,5.1,出了,中国,1980,,您可以从右上方搜索框检索更多相关文章,如果您觉得有用,请继续关注我们并推荐给您的好友,您可以在综合文库中查看更多范文。 1.表5.1中给出了中国1980—20XX年以城乡储蓄存款新增额代表的居民当年储蓄及以gnp代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。

表5.11980—20XX年中国居民储蓄与收入数据单位:亿元 年份储蓄sgnp年份储蓄s1980118.54517.819912072.81981124.24860.319922438.41982151.753 01.8199332171983217.15957.419946756.41984322.27206.719958143.5 1985407.98989.119968858.5198661510201.4199777591987835.711954 .519987127.71988728.214922.319996214.319891345.416917.82000471 0.61990 1887.3 18598.4 20XX 9430 估计以下回归模型: Yi??0??1xi??2Di??3(Dixi)?ui 其中D?i为引入的虚拟变量:Di??1,1991年前?0,1991年后 对上面的模型进行估计,结果如下: 所以表达式为: Yi?1535?0.075xi?1981.9Di?0.032(Dixi) (1.40)(4.45)(-1.38)(0.37) gnp21662.526651.934560.54667057494.966850.573142.776967.280579

实验五七虚拟变量回归分析

第七章虚拟变量回归分析 姓名:耿肃竹学号:20136878 班级:经济1302 【实验目的】目的在于学习基本的经济计量方法并利用Stata对经济中典型的数据,掌握虚拟变量的分析思路,掌握虚拟变量回归的基本操作方法,掌握虚拟变量回归的结果分析。 【实验软件】Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。该软件提供的功能包含线性混合模型、均衡重复反复及多项式普罗比模式。作为流行的计量经济学软件,Stata的功能十分地全面和强大。可以毫不夸张地说,凡是成熟的计量经济学方法,在Stata中都可以找到相应的命令,而这些命令都有许多选项以适应不同的环境或满足不同的需要。【实验要求】利用stata软件学习多元回归分析的应用问题,并在回归结果中学会以下命令的使用对类型变量B生成虚拟变量Atabulate B, gen(A);对包含虚拟变量的情况进行回归regress y x1 x2…A2 A3…等命令。学会虚拟变量在回归分析中的应用进行有效分析,学以致用。 【实验内容】教材P213——C2 题目【1】C2 (Ⅰ)输入命令“regress lwage educ exper tenure married black south urban”:

解: log(wage)=5.395497+0.0654307educ+0.014043exper+0.0117473tenure (0.113225) (0.0062504) (0.0031852) (0.002453) +0.1994171married-0.1883499black-0.0909036south+0.1839121urban (0.0390502) (0.0376666) (0.0262485) (0.0269583) n=935 R2=0.2526 保持其他因素不变,黑人和非黑人之间的月薪差异近似(约等于)为0.1883499,因为P=0,所以这个差异是统计显著的。 (Ⅱ)输入命令”g e n e rate e x pe r sq=e x p e r*e x p e r”“ge n e rate tenuresq=tenure*tenure”“regress lwage educ expertenure married black a o u t h u r b a n e x p e r a q”:

第九章 含虚拟变量的回归模型

第九章含虚拟变量的回归模型 目前为止,在已学习的线性回归模型中,解释变量X都是定量变量。但有时候,解释变量是定性变量。 9.1 虚拟变量的性质 通常在回归分析中,应变量不仅受一些定量变量的影响,还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。 如: 美国黑人的收入比相应的白人的收入低。 女学生的S.A.T.的数学平均分数比相应的男生低。 定性变量通常表明了具备或不具备某种性质,比如,男性或女性,黑人或白人,佛教徒或非佛教徒,本国公民或非本国公民。 把定性因素“定量化”的一个方法是建立人工变量,并赋值0和1,0表示变量不具备某种属性,1表示变量具备某种属性,该变量称为虚拟变量(dummy variable),用符号D表示。 虚拟变量一样可用于回归分析,一个回归模型的解释变量可以仅仅是虚拟变量,称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1,大学毕业 =0,非大学毕业 假定随机扰动项满足古典线性回归模型的基本假定,根据模型( 9 - 1 )得到: 非大学毕业生的初职年薪的期望为: E(Yi|Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为: E(Yi|Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出: 截距B1表示非大学毕业生的平均初职年薪, “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少; (B1+B2)表示大学毕业生的平均初职年薪。 零假设:大学教育没有任何益处(即B2=0),可根据t检验值

相关文档
最新文档