虚拟变量案例

虚拟变量案例
虚拟变量案例

虚拟变量(dummy variable)

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

1.截距移动

设有模型,

y t = 0 + 1 x t + 2D + u t ,

其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为,

+ 1x t + u t , (D = 0)

y t =

(0 + 2) + 1x t + u t , (D = 1)

D =0

D = 1

+2

图8.1 测量截距不同

D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。

例:中国成年人体重y(kg)与身高x(cm)的回归关系如下:

–105 + x D = 1 (男)

y = - 100 + x - 5D =

– 100 + x D = 0 (女)

注意:

①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。

②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。

④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学)

D =0 (中学)

-1 (小学)。

【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve)

GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下,

GDP = 1.5427 + 0.0405 T

(11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3

定义

1 (1季度) 1 (2季度) 1 (3季度)

D1 = D2 = D3 =

0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度)

第4季度为基础类别。

GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3

(64.2) (15.9) (-24.9) (-16.1) (-15.8)

R2 = 0.9863, DW = 1.96,s.e. = 0.05

附数据如下:

年GDP t D1D2D3

1996:11.31561100

1996:21.66002010

1996:31.59193001

1996:42.220964000

1997:11.468565100

1997:21.849486010

1997:31.79727001

1997:42.36208000

1998:11.589949100

1998:21.8831610010

1998:31.9704411001

1998:42.5117612000

1999:11.678413100

1999:21.940514010

1999:32.061115001

1999:42.525416000

2000:11.817317100

2000:22.131818010

2000:32.263319001

2000:42.728020000

2.斜率变化

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

y t = 0 + 1 x t + 2 D+ 3 x t D + u t ,

其中x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为,

(0 + 2 ) + (1 + 3)x t + u t , (D = 1)

y t =

+ 1 x t + u t , (D = 0)

通过检验3是否为零,可判断模型斜率是否发生变化。

图8.5 情形1(不同类别数据的截距和斜率不同)图8.6 情形2(不同类别数据的截距和斜率

不同)

例2:用虚拟变量区别不同历史时期(file: case2及case2-solve)

中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D如下

0 (1950 - 1977)

D =

1 (1978 - 1984)

中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)年trade T D T *D年trade T D T*D 19500.4151001968 1.0851900 19510.5952001969 1.0692000 19520.6463001970 1.1292100 19530.8094001971 1.2092200 19540.8475001972 1.4692300 1955 1.0986001973 2.2052400 1956 1.0877001974 2.9232500 1957 1.0458001975 2.9042600 1958 1.2879001976 2.6412700 1959 1.49310001977 2.7252800 1960 1.28411001978 3.55029129 19610.90812001979 4.54630130 19620.80913001980 5.63831131

19630.857140019817.35332132 19640.975150019827.71333133 1965 1.184160019838.60134134 1966 1.2711700198412.01035135 1967 1.1221800

以时间T=time为解释变量,进出口贸易总额用trade表示,估计结果如下:

trade = 0.37 + 0.066 time - 33.96D + 1.20 time D

(1.86) (5.53) (-10.98) (12.42)

0.37 + 0.066 time (D = 0, 1950 - 1977)

=

- 33.59 + 1.27 time (D = 1, 1978 - 1984)

上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。

【案例3】香港季节GDP数据(单位:千亿港元)的拟合(file: case3及case3-solve)

1990~1997年香港季度GDP呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT如下(数据见附录):

1 (第2季度)

D2 =

0 (其他季度)

1 (第3季度)

D3 =

0 (其他季度)

1 (第4季度)

D4 =

0 (其他季度)

1 (1998:1~2002:4)

DT =

0 (1990:1 ~1997:4)

得估计结果如下:

GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338 DT - 0.0654 DT t

(50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)

R2= 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01

对于1990:1 ~1997:4

GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4

对于1998:1~2002:4

GDP t = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4

如果不采用虚拟变量拟合效果将很差:

GDP t = 1.6952 + 0.0377 t

(20.6) (13.9)

R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01

【案例4】天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong)

首先看天津市粮食市场小麦批发价格的变化情况(图1)。1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。

其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。

散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4,直接拟合这些数据效果将很差(R2 = 0.027, r = 0.17)。

图1 图2

图3 图4

利用虚拟变量技术,在模型中加入虚拟变量。定义

D = 0,(1995: 1~1996:6,面粉零售价格放开之前),

D = 1,(1996:7~2002:12,面粉零售价格放开之后)。

取对数关系建立模型。

Lnsale的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale变量,得估计结果

PRICE = 2.140 + 1.1215 LnsaleD – 7.7458D

(131.5) (23.9) (-23.0) R2 = 0.9054,

PRICE = 2.140, D=0

PRICE = – 5.6058 + 1.1215 Lnsale, D=1

一条回归直线的斜率为零,一条回归直线的斜率为1.12。可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。

本例也可以建立倒数模型:

PRICE = 2.140 + 1.5141D – 1565.9 (1/sale) D (145.9) (32.1) (-27.0) R2 = 0.9231, PRICE = 2.140, D=0

PRICE = 3.6541 – 1565.9(1/sale), D=1

虚拟变量案例

虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = 0 + 1 x t + 2D + u t , 其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为, + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D =0 (中学) -1 (小学)。 【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve) GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下: 年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

计量经济学复习资料——虚拟变量

虚拟变量习题 一、 单项选择题 1、 若一个回归模型包含截距项,对一个具有m 个特征的质的因素需要引入的虚拟变量个数为 A.m-2 B.m-1 C.m D.m+1 2、 某商品需求函数为:Y i =β0+β1X i +μi ,其中Y 为需求量,X 为价格,为了考虑“性别”(男性、女性)和“地区”(东部、中部、西部)两个因素的影响,考虑引入虚拟变量,则应引入虚拟变量的个数为( ) A. 5 B. 4 C. 3 D. 2 3、 消费函数Y i =α0+α1D+β0X i +β1DX i +μi ,其中 虚拟变量D=???农村家庭城镇家庭 01,当统计检验表明下列哪项成立时,表示城镇家庭 与农村家庭有一样的消费行为( ) A. α1=0, β1=0 B. α1=0, β1≠0 C. α1≠0, β1=0 D. α1≠0, β1≠0 4、 根据样本资料建立某消费函数如下:?100.5055.350.45t t C D X =++,其中C 为消费,X 为收入,虚拟变量 1 D 0 ?=??城镇家庭 农村家庭,所有参数均检验显著,则城 镇家庭的消费函数 为 ( ) A 、?155.850.45t t C X =+ B 、?100.500.45t t C X =+ C 、?100.5055.35t t C X =+ D 、?100.9555.35t t C X =+ 5、 假设某需求函数为01i i i Y X ββμ=++,为了考虑“季节”因素(春、夏、秋、 冬四个不同的状态),引入4个虚拟变量形成截距变动模型,则模型的 ( ) A 、参数估计量将达到最大精度 B 、参数估计量是有偏估计量 C 、参数估计量是非一致估计量 D 、参数将无法估计 6、 对于模型01i i i Y X ββμ=++,为了考虑“地区”因素(北方、南方),引入2 个虚拟变量形成截距变动模型,则会产生 ( ) A 、序列的完全相关 B 、序列的不完全相关 C 、完全多重共线性 D 、不完全多重共线性

计量经济学实验教学案例实验9_虚拟变量

实验九虚拟变量 【实验目的】 掌握虚拟变量的设置方法。 【实验内容】 一、试根据表9-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数; 资料来源:据《中国统计年鉴1999》整理计算得到 二、试建立我国税收预测模型(数据见实验一); 资料来源:《中国统计年鉴1999》 三、试根据表9-2的资料用混合样本数据建立我国城镇居民消费函数。

资料来源:据《中国统计年鉴》1999-2000整理计算得到 【实验步骤】 一、我国城镇居民彩电需求函数 ⒈相关图分析; 键入命令:SCAT X Y ,则人均收入与彩电拥有量的相关图如9-1所示。 从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 图9-1 我国城镇居民人均收入与彩电拥有量相关图 ⒉构造虚拟变量; 方式1:使用DATA 命令直接输入; 方式2:使用SMPL 和GENR 命令直接定义。 DATA D1 GENR XD=X*D1 ⒊估计虚拟变量模型: LS Y C X D1 XD 再由t 检验值判断虚拟变量的引入方式,并写出各类家庭的需求函数。 按照以上步骤,虚拟变量模型的估计结果如图9-2所示。

图7-2 我国城镇居民彩电需求的估计 我国城镇居民彩电需求函数的估计结果为: i i i i XD D x y 0088.08731.310119.061.57?-++= =t (16.249)(9.028) (8.320) (-6.593) 2R =0.9964 2R =0.9937 F =366.374 S.E =1.066 虚拟变量的回归系数的t 检验都是显著的,且模型的拟合优度很高,说明我国城镇居民低收入家庭与中高收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异,所以以加法和乘法方式引入虚拟变量是合理的。低收入家庭与中高收入家庭各自的需求函数为: 低收入家庭: i i x y 0119.061.57?+= 中高收入家庭: ()()i i x y 0088.00119.08731.3161.57 ?-++=i x 003.048.89+= 由此可见我国城镇居民家庭现阶段彩电消费需求的特点:对于人均年收入在3300元以下的低收入家庭,需求量随着收入水平的提高而快速上升,人均年收入每增加1000元,百户拥有量将平均增加12台;对于人均年收入在4100元以上的中高收入家庭,虽然需求量随着收入水平的提高也在增加,但增速趋缓,人均年收入每增加1000元,百户拥有量只增加3台。事实上,现阶段我国城镇居民中国收入家庭的彩电普及率已达到百分之百,所以对彩电的消费需求处于更新换代阶段。 二、我国税收预测模型 要求:设置虚拟变量反映1996年税收政策的影响。 方法:取虚拟变量D1=1(1996年以后),D1=0(1996年以前)。 键入命令:GENR XD=X*D1 LS Y C X D1 XD 则模型估计的相关信息如图7-3所示。

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中 ,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中, i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

计量经济学范本

第八章 虚拟变量 一、单选题: 1、虚拟变量模型i i i D Y μβα++=中,i Y 为居民的年可支配收入,i D 为虚拟解释变量, i D =1代表城镇居民,i D =0代表非城镇居民。当i μ满足古典假设时,则α ==)0|(i i D Y E 表示( B ) A 、城镇居民的年平均收入, B 、非城镇居民的年平均收入, C 、所有居民的年平均收入, D 、其他; 2、虚拟变量模型i i i D Y μβα++=中,i Y 为居民的年可支配收入,i D 为虚拟解释变量, i D =1代表城镇居民,i D =0代表非城镇居民。当i μ满足古典假设时,则βα+==)1|(i i D Y E 表示( A ) A 、城镇居民的年平均收入, B 、非城镇居民的年平均收入, C 、所有居民的年平均收入, D 、其它; 3、在没有定量解释变量的情形下,以加法形式引入虚拟解释变量,主要用于( C )。 A 、共线性分析, B 、自相关分析, C 、方差分析 , D 、其它 4、如果你有连续几年的月度数据,如果只有2、4、6、8、10、12月表现季节类型,则需要引入虚拟变量的个数是( B )。 A 、模型中有截距项时,引入12个, B 、模型中有截距项时,引入5个 C 、模型中没有截距项时,引入11个, D 、模型中没有截距项时,引入12个 5、下列不属于常用的虚拟变量模型是( D ); A 、解释变量中只包含虚拟变量, B 、解释变量中既含定量变量又含虚拟变量, C 、被解释变量本身为虚拟变量的模型, D 、解释变量和被解释变量中不含虚拟变量。 6、考虑虚拟变量模型:i i i X D D D Y μβαααα+++++=3322110,其中 ???=其他一季度011D ???=其他二季度012D ???=其他 三季度013D , 当其随机扰动项服从古典假定时,则下列回归方程中表示一季度的是:( B ) A 、i i i X D D D X Y E βαα++====)()0,1,|(20312 B 、i i i X D D D X Y E βαα++====)()0,1,|(10321 C 、i i i X D D D X Y E βαα++====)()0,1,|(30213 D 、i i i X D D D X Y E βα+====0321)0,|( 7、在含有截距项的分段线性回归分析中,如果只有一个属性变量,且其有三种类型,则引入虚拟变量个数应为( B ) A 、 1个, B 、 2个, C 、3个, D 、4个; 8、某商品需求函数为 u x b b y i i i ++=10,其中y 为需求量,x 为价格。为了考虑“地

《计量经济学》虚拟变量练习题及参考答案

一、选择题 1、 对于一个含有截距项的计量经济模型,若某定性因素有m 个互斥的类型,为将其引入模型中,则需要引入虚拟变量个数为( B ) A. m B. m-1 C. m+1 D. m-k 2、 在经济发展发生转折时期,可以通过引入虚拟变量方法来表示这种变化。例如,研究中国城镇居民消费函数时。1991年前后,城镇居民商品性实际支出Y 对实际可支配收入X 的回归关系明显不同。现以1991年为转折时期,设虚拟变 量???=年以前,年以后,1991019911t D ,数据散点图显示消费函数发生了结构性变化:基本消费部分下降了,边际消费倾向变大了。则城镇居民线性消费函数的理论方程可以写作( D ) A. t t t u X Y ++=10ββ B. t t t t t u X D X Y +++=210βββ C. t t t t u D X Y +++=210βββ D. t t t t t t u X D D X Y ++++=3210ββββ 3、设某地区消费函数中,消费支出不仅与收入x 有关,而且与消费者的年龄构成有关,若将年龄构成分为小孩、青年人、成年人和老年人4个层次。假设边际消费倾向不变,考虑上述年龄构成因素的影响时,该消费函数引入虚拟变量的个数为 ( C ) A.1个 B.2个 C.3个 D.4个 4、在利用月度数据构建计量经济模型时,如果一年里的12个月全部表现出季节模式,则应该引入虚拟变量个数为( C ) A. 4 B. 12 C. 11 D. 6 5、在利用月度数据构建计量经济模型时,如果一年里的1、3、5、9四个月表现出季节模式,则应该引入虚拟变量个数为( 3个 ) 6、个人保健支出的计量经济模型为:i i i i X D Y μβαα+++=221 ,其中i Y 为保健年度 支出;i X 为个人年度收入;虚拟变量 ???=大学以下大学及以上 012i D ;i μ满足古典假定。则大学以上群体的平均年度保健支出为 ( B ) A. i i i i X D X Y E βα+==12)0,/( B.i i i i X D X Y E βαα++==212)1,/(

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

虚拟变量案例

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1. 截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 020 40 60 20 40 60 X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

计量经济学实验报告(虚拟变量)

计量经济学实验报告 实验三:虚拟变量模型 姓名:上善若水 班级: 序号: 学号: 中国人均消费影响因素 一、理论基础及数据 1. 研究目的 本文在现代消费理论的基础,分析建立计量模型,通过对 1979—— 2008 年全国城镇居民的人均消费支出做时间序列分析和对2004— 2008年各地区(31 个省市)城镇居民的人均消费支出做面板数据分析,比较分析了人均可支配收入、消费者物价指数和银行一年期存款利率等变量对居民消费的不同影响。

2. 模型理论 西方消费经济学者们认为,收入是影响消费者消费的主要因素,消费是需求的函数。消费经济学有关收入与消费的关系,即消费函数理论有:( 1)凯恩斯的绝对收入理论。他认为消费主要取决于消费者的净收入,边际消费倾向小于平均消费倾向。他假定,人们的现期消费,取决于他们现期收入的绝对量。(2)杜森贝利的相对收入消费理论。他认为消费者会受自己过去的消费习惯以及周围消费水准来决定消费,从而消费是相对的决定的。当期消费主要决定于当期收入和过去的消费支出水平。(3)弗朗科?莫迪利安的生命周期的消费理论。这种理论把人生分为三个阶段:少年、壮年和老年;在少年与老年阶段,消费大于收入;在壮年阶段,收入大于消费,壮年阶段多余的收入用于偿还少年时期的债务或储蓄起来用来防老。( 4)弗里德曼的永久收入消费理论。他认为消费者的消费支出主要不是由他的现期收入来决定,而是由他的永久收入来决定的。这些理论都强调了收入对消费的影响。除此之外,还有其他一些因素也会对消费行为产生影响。(1)利率。传统的看法认为,提高利率会刺激储蓄,从而减少消费。当然现代经济学家也有不同意见,他们认为利率对储蓄的影响要视其对储蓄的替代效应和收入效应而定,具体问题具体分析。( 2)价格指数。价格的变动可以使得实际收入发生变化,从而改变消费。 基于上述这些经济理论,我找到中国 1979-2008 年全国城镇居民人均消费以及城镇居民人均可支配收入、城镇居民消费者物价指数和 2004— 2008年各地区城镇居民人均消费以及城镇居民人均可支配收入、城镇居民消费者物价指数、以及银行一年期存款利率的官方数据。想借此来分析中国消费的影响因素以及它们具体是如何对消费产生影响的。针对这一模型,有以下两个假定。一,自改革开放以来,我国人均消费倾向呈现缓慢的递减趋势,即保持粘性。这一假定符合我国居民的储蓄——消费心理,也与其他一些发展中国家的情况大体一致。二,由储蓄和消费的替代关系,可以假定刺激储蓄的因素,会制约消费。我们知道提高利率会刺激储蓄,因而我把利率也引入模型的分析中。 以下对我所找的数据作一一说明 : 1、城镇居民人均消费水平。借此来代表城镇居民的消费支出情况,这是将要建立计量经济学模型的被解释变量。由下图可以看到消费是逐年增加的,与此同时,人均可支配收入也是逐年增加,隐含着两者可能有很高的线性相关性这层意思。

计量经济学实验7虚拟变量模型

实验七虚拟变量 【实验目的】 掌握虚拟变量的设置方法。 【实验内容】 一、试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数; 资料来源:据《中国统计年鉴1999》整理计算得到 二、试建立我国税收预测模型(数据见实验一); 三、试根据表7-2的资料用混合样本数据建立我国城镇居民消费函数。

最低收入户 2397.6 2476.75 0 2523.1 2617.8 1 低收入户 2979.27 3303.17 0 3137.34 3492.27 1 中等偏下户 3503.24 4107.26 0 3694.46 4363.78 1 中等收入户 4179.64 5118.99 0 4432.48 5512.12 1 中等偏上户 4980.88 6370.59 0 5347.09 6904.96 1 高收入户 6003.21 7877.69 0 6443.33 8631.94 1 最高收入户 7593.95 10962.16 8262.42 12083.79 1 资料来源:据《中国统计年鉴》1999-2000整理计算得到 【实验步骤】 一、我国城镇居民彩电需求函数 ⒈相关图分析; 键入命令:SCAT X Y ,则人均收入与彩电拥有量的相关图如7-1所示。 从相关图可以看出,前3个样本点(即低收入家庭)与后5个样本点(中、高收入)的拥有量存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: ?? ?=低收入家庭 中、高收入家庭 1D 图7-1 我国城镇居民人均收入与彩电拥有量相关图 ⒉构造虚拟变量; 方式1:使用DATA 命令直接输入;

第五讲 虚拟变量模型

第七讲 经典单方程计量经济学模型:专门问题 虚拟变量模型 学习目标: 教学基本内容 虚拟变量 许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等; 但有一些影响经济变量的因素是无法定量度量。 例如:职业、性别对收入的影响, 战争、自然灾害对 GDP 勺影响,季节对某些产品(如冷饮)销售的影响等。 定性变量:把职业、性别这样无法定量度量的变量称为定性变量。 定量变量:把价格、 收入、 销售额这样可以可以定量度量的变量称为定量变 量。 为了能够在模型中能够反映这些因素的影响, 型的功能,需要将它们“量化”。 这种“量化” 来完成的。 根据这些因素的属性类型, 构造只取 称为虚拟变量( dummy variables ) ,记为 D 。 例如:反映性别的虚拟变量 D 1;男 0;女 1; 本科学历 反映文化程度的虚拟变量 D 0;1非;本本科科学学历历 一般地,基础类型和肯定类型取值为 1;比较类型和否定类型取值为 0。 二、 虚拟变量的设置原则 设置原则: 每一定性变量(qualitative variable )所需的虚拟变量个数要比该定性变量的状 态类别数(categories 少1。即如果有m 种状态,只在模型中引入m-1个虚拟变量。 例如,冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、 冬 4 种状态,只需要设置 3 个虚拟变量: 1. 2. 3. 4. 了解什么是虚拟变量以及什么是虚拟变量模型; 理解虚拟变量的设置原则; 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式) 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 提高模型的精度, 拓展回归模 通常是通过引入“虚拟变量” 0”或“1”的人工变量, 通常 虚拟变量只作为解释变量。

在线spss虚拟变量原理及案例说明

在进行回归分析时,常常会遇到因变量除了受到定量数据的影响外,同时也受到定类数据的影响。例如,性别、职业、婚姻状况等,这些定类数据无法直接被度量,但又必须要考虑这些变量对模型的影响。 因此,就需要将定类数据转化为虚拟变量,引入到模型中,让模型更加符合现实情况,提高模型的准确性。 哑变量如何设置 一般情况下,哑变量的设置中,将肯定类型取值为1,否定类型取值为0,如果变量中含有多个取值,可以引入多个哑变量。 在SPSSAU可直接一步生成虚拟变量,选择【数据处理】--【生成变量】--【虚拟变量】。 虚拟变量设置 由于性别分为两类(男、女),因而会生成2个虚拟变量,分别表示男性和女性两个类别。 分析时,要注意少放入一个虚拟变量。如果分为两类就放入一个虚拟变量,三类就放入两个,没有放入的作为参考项用于对比分析。

如何分析 构建线性回归模型的任务之一就是分析自变量对因变量的影响程度, 一般是通过自变量的回归系数来解释影响程度。对于含有哑变量的回归模型,通常也是如此。 案例: 当前有一份数据,用于研究消费者对购买奢侈品的影响因素,自变量包括收入水平、性别、年龄。 采用logistic 回归,以'收入水平'、'性别'、'年龄'作为自变量,'是否购买'作为因变量,使用 【生成变量】中的【虚拟变量】将性别转化为2个哑变量,以”性别_女”作为参考项,“性别_男”放入模型分析。

二元logistics 回归-spssau 模型似然比结果 模型似然比检验用于对整体模型有效性进行分析。根据结果表明,模型似然比检验结果通过,p=0.001<0.05,说明模型构建有意义。

第八章 案例分析虚拟变量

第八章案例分析 改革开放以来,随着经济的发展中国城乡居民的收入快速增长,同时城乡居民的储蓄存款也迅速增长。经济学界的一种观点认为,20世纪90年代以后由于经济体制、住房、医疗、养老等社会保障体制的变化,使居民的储蓄行为发生了明显改变。为了考察改革开放以来中国居民的储蓄存款与收入的关系是否已发生变化,以城乡居民人民币储蓄存款年底余额代表居民储蓄(Y),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系。 表8.1为1978-2003年中国的国民总收入和城乡居民人民币储蓄存款年底余额及增加额的数据。 表8.1 国民总收入与居民储蓄存款单位:亿元 鉴数值,与用年底余额计算的数值有差异。 为了研究1978—2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城

乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示: 图8.5 从图8.5中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量(YY),并作时序图(见图8.6) 图8.6 图8.7 从居民储蓄增量图可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在1996年和2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图

看(见图8.7),也呈现出了相同的阶段性特征。 为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系,引入虚拟变量D 1和D 2。D 1和D 2的选择,是以1996、2000年两个转折点作为依据,1996年的GNI 为66850.50亿元,2000年的GNI 为8254.00亿元,并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型: ()()12314266850.5088254.00t t t t t t t YY = +GNI GNI D + GNI D u ββββ+--+ 其中: 11199601996t t D t =?=?=?年以后 年及以前 21200002000t t D t =?=? =?年以后 年及以前 对上式进行回归后,有: Dependent Variable: YY Method: Least Squares Date: 06/16/05 Time: 23:27 Sample (adjusted): 1979 2003 Included observations: 25 after adjustments Variable Coefficient Std. Error t-Statistic Prob. C -830.4045 172.1626 -4.823374 0.0001 GNI 0.144486 0.005740 25.17001 0.0000 (GNI-66850.50)*DUM1 -0.291371 0.027182 -10.71920 0.0000 (GNI-88254.00)*DUM2 0.560219 0.040136 13.95810 0.0000 R-squared 0.989498 Mean dependent var 4168.652 Adjusted R-squared 0.987998 S.D. dependent var 4581.447 S.E. of regression 501.9182 Akaike info criterion 15.42040 Sum squared resid 5290359. Schwarz criterion 15.61542 Log likelihood -188.7550 F-statistic 659.5450

计量经济学实验报告 虚拟变量

实验三:虚拟变量模型一、研究的目的与要求 根据下表2009年我国城镇居民人均收入与住房方面消费性支出的统计资料建立我国城镇居民住房方面消费性支出函数。 二、模型设立 1、问题描述:2009年我国城镇居民人均收入对住房方面消费性支出的影响。 2、数据: 我国城镇居民家庭抽样调查资料 平均每人全部年 项目住房 D 收入 (元) 困难户60.83 4935.81 0 最低收入户84.73 5950.68 0 低收入户123.92 8956.81 0 中等偏下户178.48 12345.17 0 中等收入户261.37 16858.36 0 中等偏上户526.36 23050.76 1 高收入户659.61 31171.69 1 最高收入户1482.11 51349.57 1 三、相关图分析; 1. 键入命令:SCAT X Y,则人均收入与住房方面消费性支出的相关散点图如下图所示。 从相关图可以看出,前5个样本点(即中低收入家庭)与后3个样本点(中、

高收入)的消费性支出存在较大差异,因此,为了反映“收入层次”这一定性因素的影响,设置虚拟变量如下: 2. 构造虚拟变量。 使用SMPL和GENR命令直接定义。 DATA D1 GENR XD=X*D1 3. 估计虚拟变量模型: 再由t检验值判断虚拟变量的引入方式,并写出各类家庭的消费性支出函数。虚拟变量模型的估计结果如下: Dependent Variable: Y Method: Least Squares Date: 01/03/12 Time: 15:25 Sample: 2001 2008 Included observations: 8 Variable Coefficient Std. Error t-Statistic Prob.?? X 0.016400 0.005743 2.855676 0.0461 D1 -327.1185 118.4766 -2.777039 0.0498 XD 0.018709 0.006356 2.943588 0.0422 C -19.00288 61.67034 -0.308136 0.7734 R-squared 0.992173 ????Mean dependent var 422.1763 Adjusted R-squared 0.986303 ????S.D. dependent var 479.4838 S.E. of regression 56.11683 ????Akaike info criterion 11.19960 Sum squared resid 12596.40 ????Schwarz criterion 11.23932 Log likelihood -40.79841 ????F-statistic 169.0152 Durbin-Watson stat 3.162055 ????Prob(F-statistic) 0.000115 我国城镇居民住房方面消费性支出函数的估计结果为: t (-0.308136) ( 2.855676) (-2.777039) (2.943588) 2 R=0.9921732 R=0.986303 F=169.0152 S.E=56.11683 虚拟变量的回归系数的t检验都是显着的,且模型的拟合优度很高,说明我

计量经济学名词解释全

广义计量经济学:利用经济理论、统计学和数学定量研究经济现象的经济计量方法的统称,包括回归分析方法、投入产出分析方法、时间序列分析方法等。 狭义计量经济学:以揭示经济现象中的因果关系为目的,在数学上主要应用回归分析方法。 计量经济学: 是经济学的一个分支学科,是以揭示经济活动中的客观存在的数量关系为内容的分支学科。 计量经济学模型:揭示经济活动中各种因素之间的定量关系,用随机性的数学方程加以描述。 截面数据:截面数据是许多不同的观察对象在同一时间点上的取值的统计数据集合,可理解为对一个随机变量重复抽样获得的数据。 时间序列数据:把反映某一总体特征的同一指标的数据,按照一定的时间顺序和时间间隔排列起来,这样的统计数据称为时间序列数据 面板数据:指时间序列数据和截面数据相结合的数据。 总体回归函数:指在给定Xi下Y分布的总体均值与Xi所形成的函数关系(或者说总体被解释变量的条件期望表示为解释变量的某种函数)。 样本回归函数:指从总体中抽出的关于Y,X的若干组值形成的样本所建立的回归函数。随机的总体回归函数:含有随机干扰项的总体回归函数(是相对于条件期望形式而言的)。线性回归模型:既指对变量是线性的,也指对参数β为线性的,即解释变量与参数β只以他们的1次方出现。 最小二乘法:又称最小平方法,指根据使估计的剩余平方和最小的原则确定样本回归函数的方法。 最大似然法:又称最大或然法,指用生产该样本概率最大的原则去确定样本回归函数的

总离差平方和:用TSS表示,用以度量被解释变量的总变动。 回归平方和:用ESS表示:度量由解释变量变化引起的被解释变量的变化部分。 残差平方和:用RSS表示:度量实际值与拟合值之间的差异,是由除解释变量以外的其他因素引起的被解释变量变化的部分。 协方差:用Cov(X,Y)表示,度量X,Y两个变量关联程度的统计量。 拟合优度检验:检验模型对样本观测值的拟合程度,用2R表示,该值越接近1,模型对样本观测值拟合得越好。 多元线性回归模型:在现实经济活动中往往存在一个变量受到其他多个变量的影响的现象,表现为在线性回归模型中有多个解释变量,这样的模型成为多元线性回归模型,多元指多个变量。 偏回归系数:在多元回归模型中,每一个解释变量前的参数即为偏回归系数,它测度了当其他解释变量保持不变时,该变量增加1个单位对解释变量带来的平均影响程度。 方程显著性检验:是针对所有解释变量对被解释变量的联合影响是否显著所作的检验,旨在对 模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出判断。回归分析:回归分析是研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论。目的是通过后者的已知或设定值,去估计和预测前者的(总体)均值。 相关分析:主要研究随机变量间的相关形式及相关程度的计算方法和 理论。 结构分析: 经济学中所说的结构分析是指对经济现象中变量之间关系的研究。 拟合优度:所估计的样本回归线对样本观测数据拟合的优劣程度。 方差膨胀因子VIF:多个解释变量辅助回归确定多重可决系数的基础上计算的方差扩大

计量经济学-虚拟变量模型估计-Eviews6

数学与统计学院实验报告 院(系):数学与统计学学院学号:姓名: 实验课程:计量经济学指导教师: 实验类型(验证性、演示性、综合性、设计性):验证性 实验时间:2017年 3 月29 日 一、实验课题 虚拟变量模型估计 二、实验目的和意义 1 建立财政支出模型 表1给出了1952-2004年中国财政支出(Fin)的年度数据(以1952年为基期,用消费价格指数进行平减后得数据)。试根据财政支出随时间变化的特征建立相应的模型。 表1 obs Fin obs Fin obs Fin 1952173.941970563.5919881122.88 1953206.231971638.0119891077.92 1954231.71972658.2319901163.19 1955233.21197369119911212.51 1956262.141974664.8119921272.68 1957279.451975691.3219931403.62 1958349.031976656.2519941383.74 1959443.851977724.1819951442.19 1960419.061978931.4719961613.19

1961270.81979924.7119971868.98 1962229.721980882.7819982190.3 1963266.461981874.021*******.46 1964322.981982884.1420003109.61 1965393.141983982.1720013834.16 1966465.4519841147.9520024481.4 1967351.9919851287.4120035153.4 1968302.9819861285.1620046092.99 1969446.8319871241.86 步骤提示: (1)做变量fin的散点图,观察规律,看在不同时期是否有结构性变化。 (2)建立时间变量t=1,2,…,做Fin关于t的线性回归模型,并对其做参数结构稳定性检验(Chow检验或Chow预测检验)(建立变量t的方法是:t=@trend()+1) (3)若有结构性变化,建立虚拟变量,对模型进行回归。假设要建立虚拟变量D1为(这里的断点时间1996是我随意给定的,你可以根据实际情况进行调整) 0,(1952-1996) D1= 1,(1997-2004) 用EViews 生成虚拟变量D1序列,采用的方法为: 在工作文件窗口点击Quick/Generate Series,在弹出的由方程生成序列的窗口,输入D1=0,同时更改下面的样本范围为1952-1996,这时只生成了第一段(1952-1996)中的D1=0。采用同样的方法,再点击Quick/Generate Series,在弹出的由方程生成序列的窗口,输入D1=1,同时更改下面的样本范围为1997-2004

第五章-含虚拟变量的回归模型

Econometrics 第五章虚拟变量回归模型(教材第六章)

第五章虚拟变量回归模型 第一节虚拟变量的性质和引入的意义 第二节虚拟变量的引入 第三节交互作用效应 第四节含虚拟变量的回归模型 学习要点 虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义 虚拟变量的性质 f定性变量 性别(男,女) 婚姻状况(已婚,未婚) 受教育程度(高等教育,其他) 收入水平(高收入,中低收入) 肤色(白人,有色人种) 政治状况(和平时期,战争时期) f引入虚拟变量(Dummy Variables)

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。 2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。 3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。 5.1 虚拟变量的性质和引入的意义

5.2 虚拟变量的引入 虚变量引入的方式主要有两种 f加法方式 虚拟变量与其它解释变量在模型中是相加关系,称为虚拟 变量的加法引入方式。 加法引入方式引起截距变动

5.2 虚拟变量的引入 f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。 f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。 f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。 f 事实上,模型可以只包括虚拟变量(ANOVA 模型): 其中,0,1,i i D D ==男性;女性。 12i i i Y B B D u =++

相关文档
最新文档