第五章-含虚拟变量的回归模型

Econometrics

第五章虚拟变量回归模型(教材第六章)

第五章虚拟变量回归模型

第一节虚拟变量的性质和引入的意义

第二节虚拟变量的引入

第三节交互作用效应

第四节含虚拟变量的回归模型

学习要点

虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义

虚拟变量的性质

f定性变量

性别(男,女)

婚姻状况(已婚,未婚)

受教育程度(高等教育,其他)

收入水平(高收入,中低收入)

肤色(白人,有色人种)

政治状况(和平时期,战争时期)

f引入虚拟变量(Dummy Variables)

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.1 虚拟变量的性质和引入的意义

5.2 虚拟变量的引入

虚变量引入的方式主要有两种

f加法方式

虚拟变量与其它解释变量在模型中是相加关系,称为虚拟

变量的加法引入方式。

加法引入方式引起截距变动

5.2 虚拟变量的引入

f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。

f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f 这类取值为0和1的变量称为虚拟变量(dummy

variables ),通常用符号D 表示。

f 事实上,模型可以只包括虚拟变量(ANOVA 模型):

其中,0,1,i i D D ==男性;女性。

12i i i

Y B B D u =++

5.2 虚拟变量的引入

虚拟变量的性质

f 假定随机扰动项满足男性的期望:

5.2 虚拟变量的引入

虚拟变量的性质

f 食品支出对性别虚拟变量(男=0,女=1)回归的结果:

f 结果怎么解释?

f 由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

f 通常把取值为0的一类称为基准类、参照类或比较类。此时,女性平均食物支出等于截距项加上D i 的系数值。f 哪类赋值为1,哪类赋值为0,并没有什么关系。

()()

()()2?3176.83503.17233.04 329.5713.63 1.53 0.1890

i i

Y D se t r =?==?=

5.2 虚拟变量的引入

虚拟变量的性质

f 既然有两种分类,为何不引入两个虚拟变量?如

之间的完全共线性,将导致模型无法估计!

5.2 虚拟变量的引入

虚拟变量的性质

f 很容易验证:D 2=1-D 3或D 3=1-D 2

f 我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。

f 一般的原则:如果模型有共同的截距项B 1,且定性变量

有m 种分类,则需引入(m-1)个虚拟变量。

f 如果不符合该原则,则会陷入虚拟变量陷阱,即完全共线性或多重共线性。f 上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。这种模型称为协方差分析模型(ANCOVA )。

5.3 交互作用效应

考虑这样一个模型:

其中表示衣着方面的年度开支

表示收入

该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。

12233i i i i i

Y a a D a D X u β=++++210D ?=??女性

男性310D ?

=??大学毕业

不然的话

这种假定显然是站不住脚的。显然上过大学的

男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。

5.3 交互作用效应

5.3 交互作用效应

模型修正为:

=女性的级差效应

=大学毕业的级差效应

=女大学毕业生的级差效应

交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。

12233423()i i i i i i i Y a a D a D a D D X u β=+++++2a 3a 4a

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f 把税收收入作为新的解释变量纳入模型:

式中,Y——食品支出,X——税收收入,

D——1(女性)和0(男性)。

f 回归结果如下,怎么解释?

()()()

()()()()()()2?1506.244228.98680.0589188.0096 107.0582 0.00618.0115 2.1388 9.6417

0.000 0.0611 0.000 0.9284

i i i

Y D X se t p R =?+==?==123i i i i

Y B B D B X u =+++

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f 女性平均食品消费支出:男性平均食品消费支出:f 进一步的问题:男女的食品边际消费倾向有差异吗?

?1277.25740.0589i i Y X =+?1506.2440.0589i i

Y X =

+

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f “一个多分定性变量”,如中国的东部,中部、西部。f 又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。

f 考虑:美国大学研究生接受率是否存在地区差异?

其中,D 2——1(东北和中北部),0(其他地区)

D 3——1(西部),0(其他地区)

f 根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。这里南部是基准类。f 根据模型,三个地区的平均接受率分别等于?

12233i i

Accept B B D B D u =+++

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f 东北和中北部:西部平均接受率:

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f 上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。

f 结果怎么解释?

f 同样的问题:不同地区学费的斜率系数相同吗?

()()()()

()()()()23279.033 5.67011.140.0011 15.53 1.91 2.79 7.55 0.000 0.061 0.007 0.000 0.546i i i Accept D D Tuition t p R =???=???==

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f平均接受率与学费(图)

5.4 含虚拟变量的回归模型

包含一个定量变量和多个定性变量的回归

f 考虑解释变量包含多个定性变量的情形:

其中,Y——小时工资;X——受教育年限;

D 2——1(女性),0(男性);

D 3——1(非白人和非西班牙裔人),0(其他)f 回归结果怎么解释?

122334i i i

Y B B D B D B X u =++++ ()()()()

2320.2610 2.3606 1.73270.8028 0.2357 5.4873 2.1803 9.90940.546;528

i i i i

Y D D X t R n =???+=???==

第七章 虚拟变量

第七章虚拟变量 第一节虚拟变量的引入 一、什么是虚拟变量 前面几章介绍的解释变量都是可以直接度量的,称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。 属性变量:不能精确计量的说明某种属性或状态的定性变量。 在计量经济模型中,应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。 由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。称为虚拟变量。 虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在 比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。 当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。 二、虚拟变量的作用 1、作为属性因素的代表,如,性别、种族等 2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等; 3、作为某些偶然因素或政策因素的代表,如战争、911等。 4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品) 5、分段回归,研究斜率、截距的变动; 6、比较两个回归模型; 7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本 身就是买或不买) 三、虚拟变量的设置规则 1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。D取值为0的类型,是基础类型,是比较的基准。不如前面说的性别变量,如果你研究是以男性为研究基准,则样本为男性,D取值为0, 2、避免落入“虚拟变量陷阱”。 当一个定性变量含有m个相互排斥的类型时,应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性) 而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是: 1 (大学)1(中学)1(小学) D1= 0 (非大学)D2 = 0(非中学)D3= 0(非小学) 所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,模型引入m个虚拟变量,造成了虚拟变量之间产生完全多重共线性,无法估计回归参数。 在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。 3、当定性变量含有m个类别时,不能把虚拟变量的值设为D=0(第一类)D=1(二类)D=2(三类)等等。

第五章 虚拟变量模型和滞后变量模型

1. 表5.1中给出了中国1980—2001年以城乡储蓄存款新增额代表的居民当年储蓄及以GNP 代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。 表5.1 1980—2001年中国居民储蓄与收入数据 单位:亿元 年份 储蓄S GNP 年份 储蓄S GNP 1980 118.5 4517.8 1991 2072.8 21662.5 1981 124.2 4860.3 1992 2438.4 26651.9 1982 151.7 5301.8 1993 3217 34560.5 1983 217.1 5957.4 1994 6756.4 46670 1984 322.2 7206.7 1995 8143.5 57494.9 1985 407.9 8989.1 1996 8858.5 66850.5 1986 615 10201.4 1997 7759 73142.7 1987 835.7 11954.5 1998 7127.7 76967.2 1988 728.2 14922.3 1999 6214.3 80579.4 1989 1345.4 16917.8 2000 4710.6 88228.1 1990 1887.3 18598.4 2001 9430 94346.4 估计以下回归模型: 0123()i i i i i i Y X D D X u ββββ=++++ 其中i D 为引入的虚拟变量:1,19910,1991i D ?=?? 年前年后 对上面的模型进行估计,结果如下: 所以表达式为: 15350.0751981.90.032()i i i i i Y X D D X =+-+ (1.40) (4.45) (-1.38) (0.37)

虚拟变量回归模型

虚拟变量回归模型 以下是为大家整理的虚拟变量回归模型的相关范文,本文关键词为虚拟,变量,回归,模型,内蒙古,科技,大学,课程,计量经济学,您可以从右上方搜索框检索更多相关文章,如果您觉得有用,请继续关注我们并推荐给您的好友,您可以在综合文库中查看更多范文。 内蒙古科技大学

实验报告 课程名:计量经济学实验项目名称:单方程线性回归模型的扩展——虚拟变量回归模型 院(系):专业班级:姓名:学号: 1 内蒙古科技大学 实验地点:经管机房 实验日期:20XX年4月18日 实验目的:掌握虚拟变量回归模型的建立、参数估计和统计检验。实验内容: 1)生成趋势变量2)生成季节虚拟变量3)生成分段虚拟变量4)建立虚拟变量回归模型 5)虚拟变量回归模型的参数估计和统计检验实验方法、步骤和结果: 一、生成趋势变量 1、建立新的工作文件,导入数据并且重命名

2、点击quick,generateseries生成序列,t=@trend(1990:1)+1 2 并填写公式内蒙古科技大学 3、打开gDp,点击View,graph,line生成趋势图。 根据趋势图可以看出近似分段虚拟变量,需剔除季节的影响 3 内蒙古科技大学 二、生成季节虚拟变量 生成虚拟变量,点击quick----generateseries输入公式

D2=@seas(2)D3=@seas(3)D4=@seas(4) 三、生成分段虚拟变量 1、为了研究1997年金融危机对香港经济的影响,以1997年为分界点。设d5=0,将sample改为1990第一季度到1997年第四季度。 4 内蒙古科技大学 2、设d5=1,将sample改为1998年第一季度到20XX年第四季度。 四、建立虚拟变量回归模型 gDp^=?^1+?^2t+?^3d2t+?^4d3t+?^5d4t+?^6d5t+?^7d5t*t 五、虚拟变量回归模型的参数估计和统计检验点击quick,

计量经济学第七章第5,6,7题答案

第7章练习5 解:根据Eview 软件得如下表: Dependent Variable: Y Method: ML - Binary Logit (Quadratic hill climbing) Date: 05/22/11 Time: 22:19 Sample: 1 16 Included observations: 16 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-Statistic Prob.?? C Q V McFadden R-squared ????Mean dependent var . dependent var ????. of regression Akaike info criterion ????Sum squared resid Schwarz criterion ????Log likelihood Hannan-Quinn criter. ????Restr. log likelihood LR statistic ????Avg. log likelihood Prob(LR statistic) Obs with Dep=0 7 ?????Total obs 16 Obs with Dep=1 9 于是,我们可得到Logit 模型为: V Q i 0177.0004.0107.11Y ?++-= () () () 685.40R 2 MCF = , LR(2)= 如果在Binary estination 这一栏中选择Probit 估计方法,可得到如下表:

Eviews虚拟变量实验报告

实验四虚拟变量 【实验目的】 掌握虚拟变量的基本原理,对虚拟变量的设定和模型的估计与检验,以及相关的Eviews操作方法。 【实验内容】 试根据1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立 【实验步骤】 1、相关图分析 根据表中数据建立人均收入X与彩电拥有量Y的相关图(SCAT X Y)。从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,

因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 2、构造虚拟变量 构造虚拟变量 1D (DATA D1),并生成新变量序列: GENR XD=X*D1 3、估计虚拟变量模型 LS Y C X D1 XD 得到估计结果:

我国城镇居民彩电需求函数的估计结果为: XD D X Y 009.0873.31012.0611.571-++=∧ (16.25) (9.03) (8.32) (-6.59) 366,066.1..,9937.02===F e s R 再由t 检验值判断虚拟变量的引入方式,并写出各类家庭的需求函数。 虚拟变量的回归系数的t 检验都是显著的,且模型的拟合优度很高,说明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,所以以加法和乘法方式引入虚拟变量是合理的。 低收入家庭与中高收入家庭各自的需求函数为: 低收入家庭: X Y 012.0611.57+=∧ 中高收入家庭: X X Y 003.0484.89)009.0012.0()873.31611.57(+=-++=∧ 由此可见我国城镇居民家庭现阶段彩电消费需求的特点: 对于人均年收入在3300元以下的低收入家庭,需求量随着收入水平的提高而快速上升,人均年收入每增加1000元,百户拥有量将平均增加12台;对于人均年收入在4100元以上的中高收入家庭,虽然需求量随着收入水平的提高也在增加,但增速趋缓,人均年收入每增加1000元,百户拥有量只增加3台。

计量经济学第五章-练习题

计量经济学第五章-练习题

一、单项选择题 1. 某商品需求函数为 u x b b y i i i ++=10,其中y 为需求量, x 为价格。为了考虑“地区”(农村、城市)和“季节”(春、夏、秋、冬)两个因素的影响,拟引入虚拟变量,则应引入虚拟变量的个数为( )。 A.2 B.4 C.5 D.6 2. 根据样本资料建立某消费函数如下: x D t t t C 45.035.5550.100?++=,其中C 为消费,x 为收入,虚拟变量???=农村家庭城镇家庭01? D ,所有参数 均检验显著,则城镇家庭的消费函数为( )。 A.x t t C 45.085.155?+= B.x t t C 45.050.100?+= C.x t t C 35.5550.100?+= D.x t t C 35.5595.100?+=

3 设消费函数为 u x b x b a a y i i i i D D +?+++=1010,其中虚拟变量D=???农村家庭 城镇家庭01,当统计检验表 明下列哪项成立时,表示城镇家庭与农村家庭有一样的消费行为( )。 A.0,011==b a B.0,011≠=b a C.0,011=≠b a D. 0,011≠≠b a 4. 设 消 费函数 u x a a y i i i b D +++=10,其中虚拟 变量 ?? ?= 01南方北方 D ,如果统计检验表明01≠α成立,则北方的消费函数与南方的消费函数是( )。 A.相互平行的 B.相互垂直的

C.相互交叉的 D.相互重叠的 5. 假定月收入水平在1000元以内时,居民边际消费 倾向维持在某一水平,当月收入水平达到或超过1000元时,边际消费倾向将明显下降,则描述消费(C )依收入(I )变动的线性关系宜采用( )。 A. ?? ?≥=+?++=元 元10001 10000 ,210I I D D u I b I b a C t t t t π B. ?? ?≥=+++=元 元10001 10000 ,210I I D D u I b b a C t t t π C. 元1000,)(**10=+-+=I u I I b a C t t t D. u I I b I b a C t t t t D +-++=)(*210,D 、I *同上 6. 下列属于有限分布滞后模型的是( )。 A. u y b y b x b y t t t t t a +++++=--Λ22110

(精品)第五章-虚拟变量模型和滞后变量模型

第五章虚拟变量模型 1.表5.1中给出了中国1980—2001年以城乡储蓄存款新增额代表的居民当年储蓄及以GNP 代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。 年份储蓄S GNP 年份储蓄S GNP 1980 118.5 4517.8 1991 2072.8 21662.5 1981 124.2 4860.3 1992 2438.4 26651.9 1982 151.7 5301.8 1993 3217 34560.5 1983 217.1 5957.4 1994 6756.4 46670 1984 322.2 7206.7 1995 8143.5 57494.9 1985 407.9 8989.1 1996 8858.5 66850.5 1986 615 10201.4 1997 7759 73142.7 1987 835.7 11954.5 1998 7127.7 76967.2 1988 728.2 14922.3 1999 6214.3 80579.4 1989 1345.4 16917.8 2000 4710.6 88228.1 1990 1887.3 18598.4 2001 9430 94346.4 估计以下回归模型: 0123 () i i i i i i Y X D D X u ββββ =++++ 其中 i D为引入的虚拟变量: 1,1991 0,1991 i D ? =? ? 年前 年后 对上面的模型进行估计,结果如下: 所以表达式为:

15350.0751981.90.032()i i i i i Y X D D X =+-+ (1.40) (4.45) (-1.38) (0.37) 从2β和3β的t 检验值可以知道,这两个参数显著的为0,所以1991年前和1991年后两个时期的回归结果是相同的。 下面用邹式检验来验证上面对于两个时期的回归结果相同的结论是否正确。 过程如下: 输入要验证的突变点,本例为1991年。 输出结果如下:

计量经济学作用-虚拟变量回归

虚拟变量回归 实验目的:分析1965~1970年美国制造业利润和销售额,季度的关系。 实验要求:假定利润不仅与销售额有关,而且和季度因素有关 (1) 如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量? (2) 如果认为季度影响使利润对销售额的变化率发生变异,应如何引入虚拟变 量? (3) 如果认为上诉两种情况都存在,又当如何引入虚拟变量? (4) 对上述三种情况分别估计利润模型,进行对比分析。 实验原理:最小二乘法原理 实验步骤: 由于有四个季度,因此引入三个季度虚拟变量: 其它一季度???=012D 其它二季度???=013D 其它三季度? ??=014D 一、如果认为季度影响使利润平均值发生变异,应以加法类型引入三个虚拟变量,设其模型为:u X D D D Y t t t +++++=βαααα4433221 对模型进行回归,得到以下回归结果: Dependent Variable: Y Method: Least Squares Date: 11/26/10 Time: 15:02 Sample: 1965Q1 1970Q4 Included observations: 24 Variable Coefficien t Std. Error t-Statistic Prob. C 6910.449 1922.350 3.594792 0.0019 X 0.038008 0.011670 3.256914 0.0041 D2 -187.7317 660.1218 -0.284390 0.7792 D3 1169.320 637.0766 1.835446 0.0821 D4 -417.1182 640.8333 -0.650900 0.5229 R-squared 0.517642 Mean dependent var 12838.54 Adjusted R-squared 0.416093 S.D. dependent var 1433.284 S.E. of regression 1095.227 Akaike info criterion 17.01836 Sum squared resid 22790932 Schwarz criterion 17.26379 Log likelihood -199.2204 F-statistic 5.097454 Durbin-Watson stat 0.396350 Prob(F-statistic) 0.005810 Y t ^=6910.449-187.7317D 2+1169.320D 3-417.1182D 4+0.038008X t Se=(1922.350) (660.1218) (637.0766) (640.8333) (0.011670)

第七章_虚拟变量

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 20 40 60 20 40 60X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

第五章-含虚拟变量的回归模型

Econometrics 第五章虚拟变量回归模型(教材第六章)

第五章虚拟变量回归模型 第一节虚拟变量的性质和引入的意义 第二节虚拟变量的引入 第三节交互作用效应 第四节含虚拟变量的回归模型 学习要点 虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义 虚拟变量的性质 f定性变量 性别(男,女) 婚姻状况(已婚,未婚) 受教育程度(高等教育,其他) 收入水平(高收入,中低收入) 肤色(白人,有色人种) 政治状况(和平时期,战争时期) f引入虚拟变量(Dummy Variables)

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。 2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。 3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。 5.1 虚拟变量的性质和引入的意义

5.2 虚拟变量的引入 虚变量引入的方式主要有两种 f加法方式 虚拟变量与其它解释变量在模型中是相加关系,称为虚拟 变量的加法引入方式。 加法引入方式引起截距变动

5.2 虚拟变量的引入 f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。 f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。 f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。 f 事实上,模型可以只包括虚拟变量(ANOVA 模型): 其中,0,1,i i D D ==男性;女性。 12i i i Y B B D u =++

第五讲 虚拟变量模型

第七讲 经典单方程计量经济学模型:专门问题 虚拟变量模型 学习目标: 教学基本内容 虚拟变量 许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等; 但有一些影响经济变量的因素是无法定量度量。 例如:职业、性别对收入的影响, 战争、自然灾害对 GDP 勺影响,季节对某些产品(如冷饮)销售的影响等。 定性变量:把职业、性别这样无法定量度量的变量称为定性变量。 定量变量:把价格、 收入、 销售额这样可以可以定量度量的变量称为定量变 量。 为了能够在模型中能够反映这些因素的影响, 型的功能,需要将它们“量化”。 这种“量化” 来完成的。 根据这些因素的属性类型, 构造只取 称为虚拟变量( dummy variables ) ,记为 D 。 例如:反映性别的虚拟变量 D 1;男 0;女 1; 本科学历 反映文化程度的虚拟变量 D 0;1非;本本科科学学历历 一般地,基础类型和肯定类型取值为 1;比较类型和否定类型取值为 0。 二、 虚拟变量的设置原则 设置原则: 每一定性变量(qualitative variable )所需的虚拟变量个数要比该定性变量的状 态类别数(categories 少1。即如果有m 种状态,只在模型中引入m-1个虚拟变量。 例如,冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、 冬 4 种状态,只需要设置 3 个虚拟变量: 1. 2. 3. 4. 了解什么是虚拟变量以及什么是虚拟变量模型; 理解虚拟变量的设置原则; 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式) 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 提高模型的精度, 拓展回归模 通常是通过引入“虚拟变量” 0”或“1”的人工变量, 通常 虚拟变量只作为解释变量。

第五章 离散选择模型(虚拟变量回归)(20140429)

第五章离散选择模型(虚拟变量回归) 第一节虚拟变量的概念 一、问题的提出 计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如 1、属性(品质)因素的表达 在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。 2、异常值现象 当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。 3、季节因素的影响 有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑? 4、离散选择现象的描述 如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。 第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。 二、虚拟变量的定义 1、定义 设变量D表示某种属性,该属性有两种类型,即当属性存在时D取值为1;当属性不存在时D取值为0。记为

???=不具有该属性类型 具有某种属性类型0 1D 2、虚拟变量引入的规则 (1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?) (2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。 (3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况 D=0, 第一个类型; D=1, 第二个类型; …… D=m-1, 第m 个类型。 原因是上述情况没有反映出属性类型的相互排斥性。 第二节 虚拟解释变量的回归 一、加法引入规则 1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。 设模型为 123i i i i Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用 (1)模型中只有一个定性解释变量 设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 =

第五章虚拟变量模型和滞后变量模型

第五章虚拟变量模型和滞后变量模型 以下是为大家整理的第五章虚拟变量模型和滞后变量模型的相关范文,本文关键词为第五,虚拟,变量,模型,滞后,5.1,出了,中国,1980,,您可以从右上方搜索框检索更多相关文章,如果您觉得有用,请继续关注我们并推荐给您的好友,您可以在综合文库中查看更多范文。 1.表5.1中给出了中国1980—20XX年以城乡储蓄存款新增额代表的居民当年储蓄及以gnp代表的居民当年收入的数据。以1991年为界,判断1991年前和1991年后的两个时期中国居民的储蓄—收入关系是否已发生变化。

表5.11980—20XX年中国居民储蓄与收入数据单位:亿元 年份储蓄sgnp年份储蓄s1980118.54517.819912072.81981124.24860.319922438.41982151.753 01.8199332171983217.15957.419946756.41984322.27206.719958143.5 1985407.98989.119968858.5198661510201.4199777591987835.711954 .519987127.71988728.214922.319996214.319891345.416917.82000471 0.61990 1887.3 18598.4 20XX 9430 估计以下回归模型: Yi??0??1xi??2Di??3(Dixi)?ui 其中D?i为引入的虚拟变量:Di??1,1991年前?0,1991年后 对上面的模型进行估计,结果如下: 所以表达式为: Yi?1535?0.075xi?1981.9Di?0.032(Dixi) (1.40)(4.45)(-1.38)(0.37) gnp21662.526651.934560.54667057494.966850.573142.776967.280579

第七章 虚拟变量回归

第七章 虚拟变量回归 第一节 虚拟变量的性质 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。 一、基本概念 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常用字母D 或DUM 加以表示(英文中虚拟或者哑元Dummy 的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。 二、虚拟变量设置规则 虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。 2.属性(状态、水平)因素与设置虚拟变量数量的关系 定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。 虚拟变量数量的设置规则 1.若定性因素具有 m (m ≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m 个虚拟变量; 2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (0,1) (0,0)D D ????? 12(1,0)天气阴如:(,)=天气雨其 他

第五章 离散选择模型(20140429)

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据

来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 1,0Y ?=??购买,不购买 我们希望研究买房的可能性,即概率(1)P Y =的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 1,0Y ?=??跳槽,不跳槽 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 1,23Y ??=??? 支持,反对,弃权 研究投票者投什么票的可能性,即(),1,2,3P Y j j ==。 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner 于1860年进行的动物条件二元反射研究。1962年,Warner 首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型

第九章 含虚拟变量的回归模型

第九章含虚拟变量的回归模型 目前为止,在已学习的线性回归模型中,解释变量X都是定量变量。但有时候,解释变量是定性变量。 9.1 虚拟变量的性质 通常在回归分析中,应变量不仅受一些定量变量的影响,还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。 如: 美国黑人的收入比相应的白人的收入低。 女学生的S.A.T.的数学平均分数比相应的男生低。 定性变量通常表明了具备或不具备某种性质,比如,男性或女性,黑人或白人,佛教徒或非佛教徒,本国公民或非本国公民。 把定性因素“定量化”的一个方法是建立人工变量,并赋值0和1,0表示变量不具备某种属性,1表示变量具备某种属性,该变量称为虚拟变量(dummy variable),用符号D表示。 虚拟变量一样可用于回归分析,一个回归模型的解释变量可以仅仅是虚拟变量,称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1,大学毕业 =0,非大学毕业 假定随机扰动项满足古典线性回归模型的基本假定,根据模型( 9 - 1 )得到: 非大学毕业生的初职年薪的期望为: E(Yi|Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为: E(Yi|Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出: 截距B1表示非大学毕业生的平均初职年薪, “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少; (B1+B2)表示大学毕业生的平均初职年薪。 零假设:大学教育没有任何益处(即B2=0),可根据t检验值

相关文档
最新文档