面板数据模型与应用

面板数据模型与应用
面板数据模型与应用

面板数据模型初步

在经济学研究和实际应用中,经常会遇到时间序列与横截面相结合的二维数据。例如,在居民家庭消费分析中,会遇到不同省市地区的居民家庭人均消费和居民家庭人均收入的年度时间序列数据;在生产函数分析中,会遇到不同企业的产出、资本、劳动等年度或季度时间序列数据。这种具有时间序列与横截面信息的二维数据称为面板数据(Panel Data ),也可称为平行数据、时间序列与截面混合数据(Pooled Time Series and Cross Section Data )。面板数据从横截面上看,是由若干个体,比如个人、家庭、企业或国家等,在某一时间构成的截面观测值,从纵剖面上看每个个体都是一个时间序列。

经典计量经济学在分析实际问题时,只利用了时间序列或截面数据进行建模,在很多情况下是不能满足人们分析问题的需要。例如,在分析企业生产成本问题,若只选用截面数据,即选择同一时间上不同规模的企业数据作为样本观测,可以分析生产成本与企业规模的关系,但是不能分析技术革新对生产成本的影响;若只采用时间序列数据,即选择某个企业在不同时间上的数据作为样本观测,可以分析生产成本与技术革新的关系,但是不能分析企业规模对生产成本的影响;然而利用面板数据,即在不同的时间上选择不同规模的企业数据作为样本观测,就可以同时分析企业规模和技术革新对生产成本的影响。因此,面板数据含有更多的信息,能更好构造和检验真实的、复杂的行为模型,同时它还能够增加模型的自由度,降低解释变量之间的多重共线性程度,更高的估计效率,正是由于面板数据具有诸多的优点,Panel Data 模型是近年来非经典计量经济学的一个重要发展之一,在经济学领域得到大量广泛的应用,比如在宏观经济领域,它被广泛应用于经济增长、技术创新、金融、税收政策等领域;在微观经济领域,它被大量应用于就业、家庭消费、入学、市场营销等领域。但是,由于面板数据自身的特点,Panel Data 模型的设定和估计都存在一定的假设条件,如果应用不当的话,将会产生较大偏误,估计结果与实际相差甚远。

第一节 面板数据模型分类

从形式上看,面板数据与截面数据或时间序列数据的区别在于变量用双下标表示,例如:

T t N i y x it it ,,2,1;,,2,1,, ==

其中i 对应面板数据中不同个体,如个人、家庭、企业或国家等,N 表示面板数据中含有N 个个体;t 对应面板数据中不同时间,T 表示时间序列的最大长度。对于面板数据,如果数据是完整的,即每个个体在相同的时期内都有观测记录,称此面板数据为平衡面板数据(balanced panel data );若面板数据中的个体在相同时期内缺失若干个观测值,称此面板数据为非平衡面板数据(unbalanced panel data ),例如,考虑时间跨度为20年的企业生产函数问题,在此期间若某些企业倒闭,将缺失有关数据。 例1:2002-2009年中国西部9个省市区的城镇居民家庭人均支出(CP )和人均收入(IP )数据见表1和表2。数据是8年的,每一年都有9个数据,共72组观测值。

人均支出和收入两个面板数据都是平衡面板数据,各有9个个体。人均支出和收入的面板数据从纵剖面观察分别见图1和图2。

表1 2002—2009年中国西部9个省市区的城镇居民家庭人均支出数据

CP-SC (四川) 5413.08 5759.21 6371.14 6891.27 7524.81 8691.99 9679.14 10860.2 CP-CQ (重庆) 6360.24 7118.06 7973.05 8623.29 9398.69 9890.31 11146.8 12144.1 CP-YN (云南) 5827.92 6023.56 6837.01 6996.9 7379.81 7921.83 9076.61 10201.8 CP-GZ (贵州) 4598.28 4948.98 5494.45 6159.29 6848.39 7758.69 8349.21 9048.3 CP-GS (甘肃) 5064.24 5298.91 5937.3 6529.2 6974.21 7875.78 8308.62 8890.8 CP-NX (宁夏) 5104.92 5330.34 5821.38 6404.31 7205.57 7817.28 9558.29 10280 CP-QH (青海) 5042.52 5400.24 5758.95 6245.26 6530.11 7512.39 8192.56 8786.5 CP-SX (陕西) 5378.04

5666.54

6233.07

6656.46

7553.28

8427.06

9772.07

10705.7

CP-XJ (新疆) 5636.4 5540.61 5773.62 6207.52 6730.01 7874.27 8669.36 9327.6

表2 2002—2009年中国西部9个省市区的城镇居民家庭人均收入数据

CP-SC (四川) 6988.56 7488.49 8261.44 9003.59 10117 12009.81 13685.1 15323.8 CP-CQ (重庆) 7663.32 8671.91 9910.09 11079.15 12548.91 13441.17 15217.73 16990.3 CP-YN (云南) 7690.2 8202.58 9546.29 9994.65 10848.1 12296.42 14118.03 15680.3 CP-GZ (贵州) 6107.28 6746.36 7518.72 8385.08 9439.31 11066.43 12185.62 13793.4 CP-GS (甘肃) 6524.28 7132.82 7990.65 8738.11 9586.46 10859.69 11669.33 12918 CP-NX (宁夏) 6409.44 6991.26 7748.53 8744.86 10002.03 11793.08 14118.64 15550.8 CP-QH (青海) 6499.32 7155.13 7785.09 8766.68 9803.13 11428.29 12867.33 14150.3 CP-SX (陕西) 6747 7314.44 8043.23 8902.26 9938.19 11482.13 13847.12 15311.3 CP-XJ (新疆)

7452.6

7866.85

8201.82

8693.67 9689.07 11302.99 12478.61

13602.2

4000

5000600070008000900010000110001200013000

2002

2003

20042005

20062007

20082009

6000

8000

1000012000

14000

1600018000

20022003200420052006200720082009

图1 9个省市区的城镇人均支出序列 图2 9个省市区的城镇人均收入序列

单方程Panel Data 模型的一般形式为:

it i it i it u x y ++=βα', T t N i ,,2,1;,,2,1 == (10.1)

其中i α表示截距项,i β表示对应于解释变量it x 的1?k 维系数向量,k 表示解释变量的个数,随机误差项it u 相互独立,且满足零均值,同方差为2

u σ的假设。根据截距项i α和系数向量i β中各分量的不同限制,可将(10.1)所描述的Panel Data 模型分为三种类型:混合回归模型;变截距模型;变系数模型。 1混合回归模型(Pooled Regression Model )

如果一个面板数据模型定义为,

it it it u x y ++=βα', T t N i ,,2,1;,,2,1 == (10.2)

称此模型为混合回归模型。混合回归模型的特点是无论对任何个体和截面,回归系数α和β都相同,即在横截面上无个体影响、无结构变化。

如果模型是正确设定的,解释变量与误差项不相关,即0),cov(=it it u x 。那么无论是N →∞,还是T →∞,将各个体的时间序列数据放在一起作为样本数据,则模型参数的混合最小二乘估计量(Pooled

OLS )是一致有效估计量。 2.变截距模型

变截距模型是应用最广泛的一种面板数据模型,可表示为:

it it i it u x y ++=βα', T t N i ,,2,1;,,2,1 == (10.3)

其中i α为个体影响,为模型中被忽略的反映个体差异变量的影响;而在各个个体上的系数向量i β都相同,即β,反映各个个体无结构变化。it u 为随机误差项,反映模型中被忽略的随横截面和时间变化的因素的影响。

在变截距模型(10.3)中,如果个体影响i α是固定的(未知)常数,则模型(10.3)称为个体固定效应变截距模型;如果个体影响i α是一个随机变量而非固定的常数时,则模型(10.3)称为个体随机效应变截距模型。

类似地,如果一个面板数据模型定义为:

it it t it u x y ++=βγ', T t N i ,,2,1;,,2,1 == (10.4)

其中t γ是是固定的(未知)常数,表示对于T 个时点有T 个不同的截距项,包含了那些随不同时点变化,但不随个体变化的难以观测的变量的影响,称模型(10.4)为时点固定效应变截距模型;如果t γ是一个随机变量而非固定的常数时,称模型(10.4)为时点随机效应变截距模型。同样地,在变截距模型中,还有个体时点双固定效应模型、个体时点双随机效应模型。

3.变系数模型

变截距模型中的随着截面个体而变化的截距反映了方程中未出现的变量对被解释变量的影响;但有时,变化的经济结构或不同的社会经济背景因素使得响应参数(也称结构参数)也随着横截面个体不同而变化。此时模型表示为:

it i it i it u x y ++=βα', T t N i ,,2,1;,,2,1 == (10.5)

称此模型为变系数模型或无约束模型,在该模型中,被解释变量除了存在个体影响外,在横截面上还存在变化的经济结构。同样地,变系数模型也可以分为固定效应和随机效应两种类型。

第二节 固定效应模型

变截距模型是Panel Data 模型中最常见的一种形式,同时典型的面板数据是时间长度短而截面上包括的个体多的平衡面板数据,这样,面板数据模型技术主要集中于讨论横截面的变化,即异质性(heterogeneity )。因此,本章我们主要讨论个体固定效应变截距模型,即模型为:

it it i it u x y ++=βα', T t N i ,,2,1;,,2,1 == (10.6)

其中i α为跨截面不同的常数,用来描述不同个体建立的模型间的差异,即反映模型中忽略的反映个体差异变量的影响。

1.最小二乘虚拟变量(LSDV )模型及估计

模型(10.4)对应的矩阵形式如下:

111211],,,[??????++=NT K K NT N N NT N NT X d d d Y μβα (10.7)

其中,1

21??

?????? ??=NT N y y y Y ,K NT N x x x X ???????? ??= 21,121???????? ??=N N αααα , 121?????

??? ??=K K ββββ ,121???????? ??=NT N u u u u ,121???????? ??=T iT i i i u u u u

121???????? ??=T iT i i i y y y y ,K T KiT iT iT Ki i i Ki i i i x x x x x x x x x x ????

??

?? ??= 212222

11121

1,1111???????? ??=T e ,N

NT N e e e d d d ?????

???

??= 000000],,,[21 式(10.5)中的i d 实际是一个虚拟变量,即

?

?

?== 其他,,

个个体如果属于第,,0 ..., ,1,1N i d i i 令],,,[21n d d d D =,则(10.5)等价于:

μβαβα+???

? ??=++=),(X D u X D Y (10.8)

对(10.8)式进行OLS 估计,实际上是对固定效应模型(10.6)设定了N 个虚拟变量后的OLS 估计,因此,对(10.8)的OLS 估计又称为最小二乘虚拟变量估计(LSDE ),模型(10.8)通常被称为最小二乘虚拟变量(LSDV)模型,有时也称之为协方差分析模型(解释变量既有定量的,也有定性的)。

因此,(10.8)的OLS 估计结果为:

Y X D X D X D )',()),()',((??1

-=???

? ??βα (10.9) 如果随机扰动项μ满足古典假定时,LSDE 将是最佳线性无偏估计(BLUE )。 2.内部(Within )估计(协方差估计)

在模型(10.6)中,如果个体成员N 较大,在(10.7)的估计结果中需要计算)()(N K N K +?+阶矩阵),()',(X D X D 的逆矩阵,毋庸置疑,计算量非常庞大,因此,可以采用较为简便的方法Within 估计进行。Within 估计基本思想是先把面板数据中每个个体的观测值变换为对其平均数的离差观测值,然后利用离差数据估计模型参数。具体说来可分解为如下两步进行。

第一步:剔除虚拟变量在模型中的影响,然后对参数β进行估计。即对每个个体在时间上求平均,可

得到如下模型,

i i i i u x y ++=βα' N i ,,2,1 = (10.10)

其中∑==T t it i y T y 11,∑==T t it i x T x 11,i ε=∑==T

t it i u T u 1

1,N i ,,2,1 =。将式(10.6)减去式(10.10),

于是消除了个体影响i α,得到如下模型:

i it i it i it u u x x y y -+-=-β)'(, T t N i ,,2,1;,,2,1 == (10.11)

称上述模型为离差数据模型。(10.11)式OLS 估计结果为:

111

11

??(()'())(()'())N T N T

W cv

it i it i it i it i i t i t x x x x x x y y ββ-======----∑∑∑∑ (10.12) 将上述估计过程称为Within 估计或协方差估计(Covariance Estimate ),得到的估计量称为Within 估计

量或协方差估计量。记为?W β或?cv

β 第二步:估计个体影响i α。

根据(10.12)的估计结果,利用(7.10),得到:

cv

i i i x y βα?'?-= N i ,,2,1 = (10.13) 换一种矩阵的角度,上述β

?也可以通过如下方式得到: 由(10.7)容易得到

i i i i u e x y ++=αβ,N i ,,2,1 = (10.14)

令e e T

I Q T '-

=1

,显然Q 2=Q ,即Q 为幂等矩阵;同时有0=Qe 。易证: 1

11?''N N W i i i i i i x Qx x Qy β-==????=????????

∑∑ (10.15) 事实上,将Q 作用于(10.14)得

i i i i i i Qu Qx Qu Qe Qx Qy +=++=βαβ

于是,i i i i i i Qu x Qx x Qy x '''+=β,N i ,,2,1 =,则

∑∑∑+=i

i i i

i i i

i

i Qu x Qx x Qy

x β)('

所以,1

11?''N N W i i i i i i x Qx x Qy β-==????=????????

∑∑。同时,也容易得到(10.12)与(10.15)等价。参数β的协方差估计是无偏的,且当N →∞或T →∞,均为一致估计量。对应的协方差矩阵为:

1

21?()'N

W u i i i Var x Qx βσ-=??=????

∑ 截距i α的估计是无偏估计,且仅当T →∞时,i α

?为一致估计量。对应的协方差矩阵为: 2

??()'()'u i i W i

Var x Var x T

σα

β=+ 方差2

u σ的估计量为:

∑∑==----=

N i T t CV it i it u x y K

N NT 11

22

)?'?(1?βασ 内部估计(协方差估计)法的主要缺点是不能估计回归变量不随时间变动的变量所构成的面板数据模型,即个体it x 观测不随时间改变,那么计算离差时有0=-i it x x ,那么就无法估计结构参数向量β。 3.引进总体均值截距项的固定效应变截距模型

在模型(10.6)中引入总体均值截距项α,则模型(7.4)可以写成如下形式:

it it i it u x y +++=βαα'*, T t N i ,,2,1;,,2,1 == (10.16)

模型(10.16)中的反映个体影响变化的截距项被分解成在每个个体方程中都相等的截距项α和个体对总体均值偏离的个体截距项*

i α。为了避免出现虚拟变量陷阱或完全多重共线性,则在最小二乘虚拟变量模型中只需1-N 个虚拟变量,即需对*

i α施加约束条件,一般假设为0*

=∑i

i α

,即个体截距项*i α所

有偏离之和应该为0。

根据前面的介绍,模型(10.14)β的协方差估计为:

111

11

?(()'())(()'())N T N T

W

it i it i it i it i i t i t x x x x x x y y β-=====----∑∑∑∑ 平均截距项α的估计量为:

??W

y x αβ=- 其中,

∑∑∑∑==

i t

it i t it x NT x y NT y 1

,1

因此,可以进一步得到个体截距项*

i α的估计量:

*???'i i i W

y x αβα=-- 值得注意的是,在计算个体固定效应变截距模型的个体影响时,不同的软件可能给出不同的个体影

响形式。本书所介绍的EViews 软件,给出的是总体均值α?和不含总体均值的个体影响*

?i α,即EViews5.0

给出的个体影响反映的是各个个体成员对总体均值的一个偏离。

【例1续】根据凯恩斯的绝对收入假说,利用中国西部9个省市区2002-2009的城镇居民人均收入和人均支出数据建立消费模型,对西部9省市区的城镇居民消费结构进行对比分析。模型中的被解释变量为城镇居民人均支出(ZC ),解释变量为城镇居民人均收入(SR ),利用上面所介绍的内容分别作混合回归和个体固定效应变截距模型的估计。

混合回归模型:

it it it u SC ZC +?+=βα, 2009,2002;9,,2,1 ==t i

表3 混合模型的估计结果

)

05.39()

61.6(61.0215.1098=+=t

SC ZC it it

通过上述结果可以看到,模型整体式显著的,边际消费倾向和自发消费也都是显著的,且符号与预期是一致的。

个体固定效应变截距模型:

it it i it u SR ZC +?++=βαα* 2009

,2002;9,,2,1 ==t i 上式中,α为9个省市区的平均自发消费水平,*

i α为第i 个省市区自发消费对平均自发消费的偏离,用来反映各个省市区之间的消费结构差异,利用EViews5.0软件估计结果如下:

)

59.75()

87.15(589.023.1311*=++=t SR ZC it

i it α 2009

,2002;9,,2,1 ==t i 其中*

i α的估计结果为:

表4 个体固定效应变截距模型的估计结果

从上述估计结果看出,虽然西部9个省市区的城镇居民消费倾向相同,即0.589,但是在2002-2009

年期间,各个省市区的自发消费存在显著差异,其中重庆的城镇居民自发消费最高,其次为四川、陕西,

而城镇居民自发消费最低的是青海,其次是云南、贵州。

表5 个体随机效应变截距模型的估计结果

第三节 随机效应模型

一. 随机效应模型的建立

对于面板数据模型

it it i it X y εβα++=', i = 1, 2, …, N ; t = 1, 2, …, T

其中X it 为k ?1阶回归变量列向量(包括k 个回归量),β为k ?1阶回归系数列向量,对于不同的个体,回归系数相同。我们假设αi 为随机变量(我们称为随机效应),并且对于任何的i 和t ,αi 与X it 无关,则我们称模型为个体随机效应模型(individual random effect model)。在这里,我们假设αi 服从均值为α方差为σα2的独立同分布,εit 服从均值为0方差为σε2的独立同分布,并且αi 与εit 之间相互独立。

我们同样可以定义时点随机效应模型(time random effect model):

it t it it X y εβα++='

以及个体时点随机效应模型(individual and time random effect model):

it t it i it X y εβα++='

其中这里αi 和β t 都可定义为独立同分布的随机变量。

在实际应用中,我们大多较为关心个体间的异质性,所以个体随机效应模型更为常用。 在个体随机效应模型中,我们即考虑到了不同个体之间的异质性,同时也考虑到相同个体之间样本的相关性:

根据假设 αα=)(i E ,2

)(ασα=i Var ;0)(=it E ε,2

)(εσε=it Var ,0),(=it i Cov εα

那么对于相同个体在不同时点的样本,

22

),(),(εασσεαεα+=++=is i it i is it Cov y y Cov

由于相同个体在不同时点之间的样本相关性与相隔时段t-s 无关,所以个体随机效应模型也称作等相关模型(Equicorrelated model ),或者称可交换误差模型(exchangeable model )。

*二. 随机效应模型的参数估计方法

1 可行GLS (feasible GLS )估计法

有个体随机效应模型

it it i it X y εβα++='

αi ,εit 服从独立同分布。对其作如下变换

it i it i it v X X y y +-+-=-βλαλλ)'()1(

其中v it = (1-λ)(αi -α)+ (εit -λi ε) 服从均值为零的独立同分布,λ = 1-

2

2

α

εεσσσT +,

如果λ = 1,则以上个体随机效应模型等同于个体固定效应模型;当λ= 0时,以上个体随机效应模型等同于混合模型。

对于以上的模型,如果λ已知,我们可以使用OLS 对其进行估计。在λ未知的情况下,我们首先对

λ进行估计,然后应用OLS 估计,则所得估计量称为随机效应估计量或可行GLS 估计量。其中

22???1?αεεσσ

σλ

T +-=。对εσ

?和ασ?有几种常见的估计方法: 我们可将模型改写为

y it = X it 'β + (αi +εit ) = X it 'β + u it

由于Cov(u it ,u is ) = Cov[(αi +εit )( αi +εis )] = ?????=+≠s

t s t ,,2

22εαασσσ 我们很容易将u 的方差协方差阵Ω分解为

Q P 2

2

1εσσ+=Ω

其中 2

2

2

1εασσσ+=T 。(30)为Ω的谱分解表达式(spectral decomposition ),其中21σ和2

εσ分别为

Ω的N 次和N(T-1)次特征根。所以我们可以很容易得到21σ和2εσ的二次最佳无偏估计(BQU):

N

u T P tr Pu

u N

i i ∑===12

.

2

1)

('?σ

, )

1()()

('?11

2

.2

--==∑∑==T N u u

Q tr Qu

u N i T

t i it

εσ

由于真实的u 未知,我们需要对其做估计。Wallace 和Hussain(1969)建议直接用OLS u ?来代替真实u 从而得到21σ和2

εσ,虽然OLS u

?是一致且无偏的,但不是有效的。 Amemiya(1971)证明当u 分布已知时,对2

1σ和2

εσ的以上估计量有一种不同的渐近分布,他建议用

虚拟变量最小二乘(LSDV)来估计u :βα~1~~X y u NT --=。其中,βα~

~....X y -=,..

X 是一个K 阶向量来表示解释变量的平均值。用u ~来代替真实u 从而得到2

1

σ和2

εσ的Amemiya 估计。 Swamy 和Arora(1972)建议分别用离差(Within)OLS: y it -i y = (X it -i X )'β + (εit -i ε) 和平均(Between)OLS:

i y T = T α +i T X 'β +i T ε来估计21σ和2εσ:

])1(/[])'(''[??12K T N Qy QX X QX y Qy y ---=-εσ

)1/(])'(''[??121---=-K N Py PZ Z PZ y Py y σ

, 其中 ],1[X Z NT =。 对于随机效应模型,可行GLS 估计量不但是一致估计量,而且是有效估计量,但对于个体固定效应模型,可行GLS 估计量不是一致估计量。

面板数据模型估计量的稳健统计推断。在实际的经济面板数据中,N 个个体之间相互独立的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得到正确的统计推断,需

要克服这两个因素。

对于第i 个个体,当N →∞,X i ?的方差协方差矩阵仍然是T ?T 有限阶的,所以可以用以前的方法克服异方差。采用GMM 方法还可以得到更有效的估计量。

EViwes 中对随机效应回归模型的估计采用的就是可行(feasible )GLS 估计法。Wallace,Hussain 方法,Amemiya 方法和Swamy,Arora 方法均为可选择的方差估计方法。

2 最大似然估计法

在αi 和εit 服从正态分布的前提下,我们可以写出似然函数: u u NT t cons L 1

2222

2'21log 21log 2tan ),,,(-∑-+-

αεσφσσφβα (10..17) 其中 ∑=Ω2

ασ,2

12

2

/σσφα=,以及 P Q 2

-+=∑φ。这里我们用到了=Ω||其特征根之积

N NT

N T N --==)()()()(2221)1(2φσσσαα。由于(31)为非线性函数,Breusch(1987) 关注于似然函数中的α以及2ασ。这样,我们可以得到mle mle X y βα?'?....-=,以及u u NT mle ??'?)/1(?1

2

,-∑=ασ,

其中u ?和∑?取决于2,φβ和α的最大似然估计。让mle X y d β?-=,那么d NT NT mle '1)/1(?=α,d J d d u NT mle NT -=-=α?1?。那么mle 2

,?ασ

可以写成 NT d J P Q d NT mle /)](['?2

2,-+=φσα (10.18) 并且关于2

,φβ的似然函数可以写为: 222

log 2

1

})]([log{2tan ),(φφφβ+-+-

=d J P Q d NT t cons L NT C (10.19) 那么,固定β,我们最大化(33)可以得到

∑∑∑---=--=2

...2

.2

)

()1()()(')1('?d d T T d d d J P d T Qd d i i it NT φ (10.20) 类似的,固定2

φ,我们最大化(10.19)可以得到

y J P Q X X J P Q X NT NT mle )]([']))(('[?212-+-+=-φφβ (10.21) 我们可以在2

?φ和mle

β?之间做迭代从而得到其迭代最大似然估计(IMLE)。

第四节 面板数据模型设定检验方法

这一节我们主要介绍用于辨别混合模型与个体固体效应模型的

F 检验以及用于辨别个体随机效应

模型与个体固定效应模型的Hausman 检验。

1. F 检验

先介绍原理。F 统计量定义为 F =

()//()

r u u RSS RSS q

RSS T k --~ F (q , T – k ) (10.22)

其中R SS r 表示施加约束条件后估计模型的残差平方和,R SS u 表示未施加约束条件的估计模型的残差平方和,q 表示约束条件个数,T 表示样本容量,k 表示未施加约束的模型中被估参数的个数。在原假设成立条件下,F 统计量渐近服从自由度为( q , T – k )的F 分布。

以检验个体固定效应模型为例,介绍F 检验的应用。建立假设

零假设 H 0:αi =α。模型中不同个体的截距相同(真实模型为混合模型)。 备择假设H 1:模型中不同个体的截距项αi 不同(真实模型为个体固定效应模型)。 F 统计量定义为:

F =()/[(1)()]/()

r u u RSS RSS NT k NT N k RSS NT N k --------=()/(1)

/()r u

u RSS RSS N RSS NT N k ---- (10.23)

其中R SS r 表示约束模型,即混合估计模型的残差平方和,R SS u 表示非约束模型,即个体固定效应回归模型的残差平方和。非约束模型比约束模型多了N -1个被估参数。在原假设成立条件下,F 统计量渐近服从自由度为( N-1 , NT –N- k )的F 分布。

如果计算出的F 统计量小于F 分布临界值,则不拒绝原假设,即认定真实的模型为混合模型;反之,如果计算出的F 统计量大于F 分布临界值,则拒绝原假设,即认定真实的模型为固定效应模型。

2. Hausman 检验

对同一参数的两个估计量差异的显著性检验称作Hausman 检验,简称H 检验。H 检验由Hausman1978年提出,是在Durbin (1914)和Wu (1973)基础上发展起来的。所以H 检验也称作Wu-Hausman 检验,和Durbin-Wu-Hausman 检验。

先介绍Hausman 检验原理

例如在检验单一方程中某个回归变量(解释变量)的内生性问题时得到相应回归参数的两个估计量,一个是OLS 估计量、一个是2SLS 估计量。其中2SLS 估计量用来克服回归变量可能存在的内生性。如

果模型的解释变量中不存在内生性变量,那么OLS 估计量和2SLS 估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,那么回归参数的OLS 估计量是不一致的而2SLS 估计量仍具有一致性,两个估计量将有不同的概率极限分布。

更一般地,假定得到q 个回归系数的两组估计量θ

?和θ~

,则H 检验的零假设和被择假设是: H 0: plim(θ?-θ~) = 0 H 1: plim(θ

?-θ~

) ≠ 0 假定两个估计量的差作为统计量也具有一致性,在H 0成立条件下,

N (θ?-θ~) d

→N (0, V H )

其中V H 是(θ

?-θ~

)的极限分布方差矩阵。则H 检验统计量定义为 H = (θ?-θ~)' (N -1H

V ?)-1 (θ?-θ~

) → χ2(q ) (10.24) 其中(N -1H

V ?)是(θ?-θ~

)的估计的方差协方差矩阵。在H 0成立条件下,H 统计量渐近服从χ2(q )分布。其中q 表示零假设中约束条件个数。

H 检验原理很简单,但实际中V H 的一致估计量H

V ?并不容易。一般来说, N -1H

V ?= Var(θ?-θ~) = Var(θ?)+Var(θ~)-2Cov(θ?,θ~

) (10.25) Var(θ

?),Var(θ~)在一般软件计算中都能给出。但Cov(θ?,θ~

)不能给出。致使H 统计量(10.24)在实际中无法使用。

实际中也常进行如下检验。

H 0:模型中所有解释变量都是外生的。 H 1:其中某些解释变量都是内生的。 在原假设成立条件下,

H = (θ?-θ~)' ()~(θ∧Var -)?(θ∧Var )-1 (θ?-θ~)~χ2(k ) (10.26)

其中)~

(θ∧

Var 和)?(θ∧

Var 分别是对Var(θ~

)和Var(θ?)的估计。与(34)式比较,这个结果只要求计算Var(θ

?)和Var(θ~

),H 统计量(10.26)具有实用性。

当θ表示一个标量时,H 统计量(10.26)退化为,

H = 222S

S ?~)

~?(--θθ~χ2(1)

其中2

S ~和2

S

?分别表示θ~

和θ?的样本方差值。 H 检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定检验、模型嵌套检验、建模顺序检验等。

下面详细介绍面板数据中利用H 统计量进行模型形式设定的检验。

假定面板模型的误差项满足通常的假定条件,如果真实的模型是随机效应回归模型,那么β的离差

(within )OLS 估计量W β?和随机GLS 法估计量RE β~

都具有一致性。如果真实的模型是个体固定效应回归模型,则参数β的离差OLS 法估计量W β?是一致估计量,但随机GLS 估计量RE β~

是非一致估计量。因此可以通过H 统计量检验(RE β~

-W

β?)的非零显著性,检验面板数据模型中是否存在个体固定效应。原假设与备择假设是

H 0: 个体效应与回归变量无关(个体随机效应回归模型) H 1: 个体效应与回归变量相关(个体固定效应回归模型)

H = (W β?-RE β?)' ()?(RE Var β∧-)?(W

Var β∧

)-1 (W β?-RE β?)~χ2(k ) 其中k 表示待估参数向量β的维数。特别的,如果待估的参数β为标量,则

H = 222)?()~()~?(W

RE RE W s s ββββ--~χ2(1)

如果计算出的H 统计量小于卡方分布临界值,则不拒绝原假设,即认定真实的模型为个体随机效应模型;反之,如果计算出的H 统计量大于卡方分布临界值,则拒绝原假设,即认定真实的模型为固定效应模型。

第五节 案例分析

Grunfield 考虑以下投资模型:

it it it it u C F I +++=21ββα

其中,it I 表示公司i 在第t 年的投资额,it F 表示该公司在该年的资产总值,it C 表示该公司在该年的资产股值。所用面板数据包含美国11大制造业公司20年(1935-1954)的数据。该数据可以从网上以“Grunfeld.?l ”搜索得到。我们使用Eviews 软件 Quick\Graph 分别画出三个变量I,F,C 的图形 (Eviews 中的panel option 中选择Combined cross-sections)。

(11个公司的投资额序列)(11个公司的年投资总值)

(11个公司的年资产股值)

我们需要对该面板数据进行个体混合模型,个体固定效应模型以及个体随机效应进行模型估计。在Eviews中选择Quick\Estimation Equation, 在模型设定(specification)分别输入解释变量,常数项以及被解释变量。在面板选项(panel option)的效应设定(effect specification)中cross-section和periods都选择none,点击确定后,我们可以得到以下混合模型估计结果

Dependent Variable: I

Method: Panel Least Squares

Date: 06/07/07 Time: 16:36

Sample: 1935 1954

Periods included: 20

Cross-sections included: 11

Total panel (balanced) observations: 220

Variable Coefficient Std. Error t-Statistic Prob.

C -38.41005 8.413371 -4.565358 0.0000

F 0.114534 0.005519 20.75337 0.0000

CA 0.227514 0.024228 9.390448 0.0000

R-squared 0.817887 Mean dependent var 133.3119

Adjusted R-squared 0.816209 S.D. dependent var 210.5872

S.E. of regression 90.28063 Akaike info criterion 11.85727

Sum squared resid 1768678. Schwarz criterion 11.90354

Log likelihood -1301.299 Hannan-Quinn criter. 11.87595

F-statistic 487.2840 Durbin-Watson stat 0.217528

Prob(F-statistic) 0.000000

Dependent Variable: I

同样的,如果需要估计个体固定效应模型,则在面板选项(panel option)的效应设定(effect specification)中cross-section选择fix, periods选择none,其他不变,点击确定后,我们可以得到以下个体固定效应模型估计结果

Dependent Variable: I

Method: Panel Least Squares

Sample: 1935 1954

Periods included: 20

Cross-sections included: 11

Total panel (balanced) observations: 220

Variable Coefficient Std. Error t-Statistic Prob.

C -55.27155 10.89102 -5.074963 0.0000

F 0.110129 0.011300 9.746075 0.0000

CA 0.310033 0.016540 18.74392 0.0000

Effects Specification

Cross-section fixed (dummy variables)

R-squared 0.946075 Mean dependent var 133.3119

Adjusted R-squared 0.942949 S.D. dependent var 210.5872

Sum squared resid 523718.7 Schwarz criterion 10.93167

Log likelihood -1167.426 Hannan-Quinn criter. 10.81212

F-statistic 302.6388 Durbin-Watson stat 0.717140

Prob(F-statistic) 0.000000

如果需要估计个体随机效应模型,则在面板选项(panel option)的效应设定(effect specification)中

cross-section选择random, periods选择none,其他不变,点击确定后,我们可以得到以下个体随机效应模型估计结果

Dependent Variable: I

Method: Panel EGLS (Cross-section random effects)

Date: 06/07/07 Time: 16:40

Sample: 1935 1954

Periods included: 20

Cross-sections included: 11

Total panel (balanced) observations: 220

Swamy and Arora estimator of component variances

Variable Coefficient Std. Error t-Statistic Prob.

C -53.94360 25.65989 -2.102254 0.0367

F 0.109305 0.009900 11.04149 0.0000

CA 0.308036 0.016364 18.82440 0.0000

Effects Specification

S.D. Rho

Cross-section random 78.75236 0.7103

Idiosyncratic random 50.29952 0.2897

Weighted Statistics

R-squared 0.769988 Mean dependent var 18.84819

Adjusted R-squared 0.767868 S.D. dependent var 104.5499

S.E. of regression 50.37222 Sum squared resid 550607.1

F-statistic 363.2141 Durbin-Watson stat 0.680266

Prob(F-statistic) 0.000000

Unweighted Statistics

R-squared 0.807967 Mean dependent var 133.3119

Sum squared resid 1865017. Durbin-Watson stat 0.200834

我们可以使用F检验以及Hausman检验判断数据更适合于哪个模型,首先我们对模型进行F检验:H0:αi=α。模型中不同个体的截距相同(真实模型为混合模型)。

H1:模型中不同个体的截距项αi不同(真实模型为个体固定效应模型)。

F =

()/(1)/()

r u u RSS RSS N RSS NT N k ----=207.49)21120*11/(7.523718)

111/()7.5237181768678(=----

其中r RSS 为混合模型的残差平方和,u RSS 为个体固定效应模型的残差平方和。 查表可得=)207,10(05.0F 1.88

因此我们拒绝H 0,即相对于混合模型,数据更适合于个体固定效应模型。

我们同样可以使用Eviews 直接得出结果: 首先运行个体固定效应模型,在运行结果对话框中选择View\Fixed/Random Effect Testing\Redundant Fixed Effects 。运行后我们可以得到相同的结果。

接下来我们进行Hausman 检验:

H 0: 个体效应与回归变量无关(个体随机效应回归模型) H 1: 个体效应与回归变量相关(个体固定效应回归模型)

H = (W β?-RE β?)' ()?(RE Var β∧-)?(W

Var β∧

)-1 (W β?-RE β?) =2.628 查表可得 99.5)2(2

05.0=χ

因此我们拒绝H 0,即相对于个体随机效应模型,数据更适合于个体固定效应模型。

综上两种检验我们可以判定,数据更适合于个体固定效应模型。 我们同样可以使用Eviews 直接得出结果: 首先运行个体随机效应模型,在运行结果对话框中选择View\Fixed/Random Effect Testing\Correlated Random Effects 。运行后我们可以得到相同的结果。

16种常用数据分析方法

一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策 树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W 检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数卩与已知的某一总体均数卩0 (常为理论值或标准值)有无差别; B 配对样本t 检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t 检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10 以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析用于分析离散变量或定型变量之间是否存在相关。对于二维表,可进行卡 方检验,对于三维表,可作Mentel-Hanszel 分层分析列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以

基于面板数据模型及其固定效应的模型分析

基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而 不是截距项。我们试图从面板数据的横截面维度和时间序列维度的样本相关异质性角

面板数据模型

第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。

面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。

表1.中国部分省级地区的居民数据(不变价格,元)

二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。

第9章-面板数据模型理论

5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 ;T t ,,2,1 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i 是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t 是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为: it it it it it x y T j N i ,2,1;,2,1 其中,it y 为被解释变量;it 表示截距项,),,,(21k it it it it x x x x 为k 1维解释变量向量;' 21),,,(k it it it it 为1 k 维参数向量;i 表示不同的个体;t 表示不同的时间;it 为 随机扰动项,满足经典计量经济模型的基本假设),0(~2 IIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y T j N i ,2,1;,2,1 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数 和 都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。 ① 个体固定效应模型。 个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序

剖析大数据分析方法论的几种理论模型

剖析大数据分析方法论的几种理论模型 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 作者:佚名来源:博易股份|2016-12-01 19:10 收藏 分享 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 利用大数据分析的应用案例更加细化的说明做大数据分析方法中经常用到的几种理论模型。 以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这是进行大数据分析的首要因素。大数据分析方法论中经常用到的理论模型分为营销方面的理论模型和管理方面的理论模型。 管理方面的理论模型: ?PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等?PEST:主要用于行业分析 ?PEST:政治(Political)、经济(Economic)、社会(Social)和技术(Technological) ?P:构成政治环境的关键指标有,政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平政府补贴水平、民众对政治的参与度等。?E:构成经济环境的关键指标有,GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。?S:构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

?T:构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。 大数据分析的应用案例:吉利收购沃尔沃 大数据分析应用案例 5W2H分析法 何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(How much) 网游用户的购买行为: 逻辑树:可用于业务问题专题分析

EViews面板数据模型估计教程

EViews 6.0 beta在面板数据模型估计中的应用 来自免费的minixi 1、进入工作目录cd d:\nklx3,在指定的路径下工作是一个良好的习惯 2、建立面板数据工作文件workfile (1)最好不要选择EViews默认的blanaced panel 类型 Moren_panel (2)按照要求建立简单的满足时期周期和长度要求的时期型工作文件

3、建立pool对象 (1)新建对象 (2)选择新建对象类型并命名 (3)为新建pool对象设置截面单元的表示名称,在此提示下(Cross Section Identifiers: (Enter identifiers below this line )输入截面单元名称。,建议采用汉语拼音,例如29个省市区的汉语拼音,建议在拼音名前加一个下划线“_”,如图

关闭建立的pool对象,它就出现在当前工作文件中。 4、在pool对象中建立面板数据序列 双击pool对象,打开pool对象窗口,在菜单view的下拉项中选择spreedsheet (展开表) 在打开的序列列表窗口中输入你要建立的序列名称,如果是面板数据序列必须在序列名后添加“?”。例如,输入GDP?,在GDP后的?的作用是各个截面单元的占位符,生成了29个省市区的GDP的序列名,即GDP后接截面单元名,再在接时期,就表示出面板数据的3维数据结构(1变量2截面单元3时期)了。

请看工作文件窗口中的序列名。展开表(类似excel)中等待你输入、贴入数据。 (1)打开编辑(edit)窗口

(2)贴入数据 (3)关闭pool窗口,赶快存盘见好就收6、在pool窗口对各个序列进行单位根检验 选择单位根检验 设置单位根检验

16种常用数据分析方法66337

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如 何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的自变量和因变量相关; 3、偏相关:在某一现象与多种现象相关的场合,当假定其他变量不变时,其中两个变量之间的相关关系称为偏相关。 六、方差分析

第9章-面板数据模型理论

5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 =;T t ,,2,1 = 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i =是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t =是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模 型。面板数据模型的解析表达式为: it it it it it x y μβα++= T j N i ,2,1;,2,1== 其中,it y 为被解释变量;it α表示截距项,),,,(21k it it it it x x x x =为k ?1维解释变量向量;'21),,,(k it it it it ββββ =为1?k 维参数向量;i 表示不同的个体;t 表示不同的时间;it μ为 随机扰动项,满足经典计量经济模型的基本假设),0(~2μσμIIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y μβα++= T j N i ,2,1;,2,1== 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数α和β都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression

MATLAB空间面板数据模型操作介绍

MATLAB 空间面板数据模型操作简介 MATLAB 安装: 在民主湖资源站上下载 MA TLAB 2009a ,或者 2010a ,按照其中的安装说明 安装 MATLAB 。( MATLAB 较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局 首先我们说一下 MA TLAB 处理空间面板数据时,数据文件是怎么布局的,熟悉 eviews 的同学 可能知道, eviews 中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间 序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中 “1-94”“1-95” “1-96” “ 1-97”中, 1是省份的代号, 94,95,96,97 表示年份, eviews 是将每个省 份的数据放在一起,再将所有省份堆放在一起。 与 eviews 不同, MATLAB 处理空间面板数据时,面板数据的布局是(在 excel 中说明): 先排 放一个横截面上的数据(即某年所有省份的数据) ,再将不同年份的横截面按时间顺序堆放在一起。 如图:

这里需要说明的是, MA TLAB 中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。二、数据的输入: MATLAB 与 excel链接:在 excel中点击“工具→加载宏→浏览” ,找到 MA TLAB 的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为: C:\Programfiles\MATLAB\R2009a\toolbox\exlink ,点击 excllink.xla 即可完成 excel 与 MATLAB 的链接。这样的话 excel 中的数据就可以直接导入 MATLAB 中形成 MATLAB 的数据文件。操作完成后 excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB ”即表示我们希望 excel 与

常用数据分析方法

常用数据分析方法 常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析;问卷调查常用数据分析方法:描述性统计分析、探索性因素分析、Cronbach’a信度系数分析、结构方程模型分析(structural equations modeling) 。 数据分析常用的图表方法:柏拉图(排列图)、直方图(Histogram)、散点图(scatter diagram)、鱼骨图(Ishikawa)、FMEA、点图、柱状图、雷达图、趋势图。 数据分析统计工具:SPSS、minitab、JMP。 常用数据分析方法: 1、聚类分析(Cluster Analysis) 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 2、因子分析(Factor Analysis) 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。 因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性□2估值。在社会学研究中,因子分析常采用以主成分分析为基础的反覆法。 3、相关分析(Correlation Analysis) 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X 与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。 4、对应分析(Correspondence Analysis) 对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。 5、回归分析 研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 6、方差分析(ANOVA/Analysis of Variance) 又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差

面板数据模型理论知识(最新)

1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑=1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑=1 ,又叫混合回归模型,是指无论从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑=1 *,*α为每个个体方程共同的截距项,i α是不同个体之间的异质性差异。对于不同个体或时期而 言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑=1 * ,对于不同个体或时期而言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表 明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤

面板数据模型入门讲解

第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差

大数据数据分析方法 数据处理流程实战案例

方法、数据处理流程实战案例时代,我们人人都逐渐开始用数据的眼光来看待每一个事情、事物。确实,数据的直观明了传达出来的信息让人一下子就能领略且毫无疑点,不过前提是数据本身的真实性和准确度要有保证。今天就来和大家分享一下关于方法、数据处理流程的实战案例,让大家对于这个岗位的工作内容有更多的理解和认识,让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后都是有多专业的流程在支撑着。 一、大数据思维 在2011年、2012年大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己的业务给大数据靠一靠,并且提的比较多的大数据思维。 那么大数据思维是怎么回事?我们来看两个例子: 案例1:输入法 首先,我们来看一下输入法的例子。 我2001年上大学,那时用的输入法比较多的是智能ABC,还有微软拼音,还有五笔。那时候的输入法比现在来说要慢的很多,许多时候输一个词都要选好几次,去选词还是调整才能把这个字打出来,效率是非常低的。 到了2002年,2003年出了一种新的输出法——紫光拼音,感觉真的很快,键盘没有按下去字就已经跳出来了。但是,后来很快发现紫光拼音输入法也有它的问题,比如当时互联网发展已经比较快了,会经常出现一些新的词汇,这些词汇在它的词库里没有的话,就很难敲出来这个词。

在2006年左右,搜狗输入法出现了。搜狗输入法基于搜狗本身是一个搜索,它积累了一些用户输入的检索词这些数据,用户用输入法时候产生的这些词的信息,将它们进行统计分析,把一些新的词汇逐步添加到词库里去,通过云的方式进行管理。 比如,去年流行一个词叫“然并卵”,这样的一个词如果用传统的方式,因为它是一个重新构造的词,在输入法是没办法通过拼音“ran bing luan”直接把它找出来的。然而,在大数据思维下那就不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用的时候可以直接找到这个词了。 案例2:地图 再来看一个地图的案例,在这种电脑地图、手机地图出现之前,我们都是用纸质的地图。这种地图差不多就是一年要换一版,因为许多地址可能变了,并且在纸质地图上肯定是看不出来,从一个地方到另外一个地方怎么走是最好的?中间是不是堵车?这些都是有需要有经验的各种司机才能判断出来。 在有了百度地图这样的产品就要好很多,比如:它能告诉你这条路当前是不是堵的?或者说能告诉你半个小时之后它是不是堵的?它是不是可以预测路况情况? 此外,你去一个地方它可以给你规划另一条路线,这些就是因为它采集到许多数据。比如:大家在用百度地图的时候,有GPS地位信息,基于你这个位置的移动信息,就可以知道路的拥堵情况。另外,他可以收集到很多

空间数据分析模型

第7 章空间数据分析模型 7.1 空间数据 按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。 点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。 线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的 线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。 面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。 真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如 相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。 在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面 (特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。 7.2 空间数据分析 空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。 1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。 2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是 重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。 3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。 4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。 7.3 空间数据分析的一些基本问题 空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域 单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003 )。

(完整版)数据分析方法汇总

数据分析方法汇总 一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P 图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验

非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。 A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下;主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。 列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析

面板数据分析方法步骤全解

面板数据分析方法步骤全解 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结, 和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈 曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归, 尽管有较高的R 平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正 含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势 以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时 有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性, 我们必须对各面板序 列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项, 从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中丄evin

an dLi n(1993)很早就发现这些估计量的极限分布是高斯分布,这些结 果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002的改进,提出了检验面板单 位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋 势,异方差和高阶序列相关,适合于中等维度(时间序列介于25?250 之间,截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对 限定性趋势的设定极为敏感,并提出了面板单位根检验的Breit ung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位 根检验方法。 由上述综述可知,可以使用LLC IPS Breintung、ADF-Fisher和 PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T IPS-W、ADF-FCS PP-FCS H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、Im Pesaran & Shin W 统计量、 ADF- Fisher Chi-square统计量、PP-FisherChi-square统计量、Hadri Z 统计量,并且Levin, Lin & Chu t*统计量、Breitung t统计量的原假设 为存在普通的单位根过程,Im Pesaran & Shin W统计量、ADF- Fisher Chi-square统计量、PP -Fisher Chi-square统计量的原假设为存在有效 的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根 过程。

第十六章-面板数据模型一

第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。 面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:

16.1面板数据模型建模的基本原理 在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。 由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。 16.1.1面板数据模型基本框架 面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型: 1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++==L L (16.1.1) 其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。 在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。 1)含有N 个个体成员方程的面板数据模型 模型形式如下: i T i it i T T i y l x l I αβδγε=++++ (16.1.2) 其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。 '12()T γγγγ=L ,,,,包括所有的时点效应。该式含有N 个截面方程。

相关文档
最新文档