应用回归分析课后习题参考答案
应用回归分析课后习题
参考答案
Document number【SA80SAB-SAA9SYT-SAATC-SA6UT-SA18】
第二章一元线性回归分析
思考与练习参考答案
一元线性回归有哪些基本假定
答:假设1、解释变量X是确定性变量,Y是随机变量;
假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(ε
i
)=0 i=1,2, …,n
Var (ε
i
)=2i=1,2, …,n
Cov(ε
i,
ε
j
)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关:
Cov(X
i
, ε
i
)=0 i=1,2, …,n
假设4、ε服从零均值、同方差、零协方差的正态分布
ε
i
~N(0, 2) i=1,2, …,n
考虑过原点的线性回归模型
Y
i
=β
1
X
i
+ε
i
i=1,2, …,n
误差εi(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计解:
得:
证明(式),e i =0 ,e i X i=0 。
证明:
∑
∑+
-
=
-
=
n
i
i
i
n
i
X
Y
Y
Y
Q
1
2
1
2
1
))
?
?(
(
)?
(β
β
其中:
即:e i =0 ,e i X i=0
2
1
1
1
2)
?
(
)?
(
i
n
i
i
n
i
i
i
e
X
Y
Y
Y
Qβ
∑
∑
=
=
-
=
-
=
)
?
(
2
?1
1
1
=
-
-
=
?
?∑
=
i
i
n
i
i
e X
X
Y
Q
β
β
)
(
)
(
?
1
2
1
1
∑
∑
=
=
=
n
i
i
n
i
i
i
X
Y
X
β
01
??
??
i i i i i
Y X e Y Y
ββ
=+=-
01
00
??
Q Q
ββ
??
==
??
回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价给出证明。
答:由于εi ~N(0, 2 ) i=1,2, …,n
所以Y i =β0 + β1X i + εi ~N (β0+β1X i , 2 ) 最大似然函数:
使得Ln (L )最大的0
?β,1?β就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小,
∑∑+-=-=n
i
i i n i X Y Y Y Q 1
21021
))??(()?(ββ
上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N (0, 2 )的假设下求得,最小二乘估计则不要求分布假设。
所以在εi ~N(0, 2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。
证明0
?β是β0的无偏估计。 证明:)1[)?()?(1
110∑∑==--=-=n
i i xx i n
i i Y L X X X Y n E X Y E E ββ
)] )(1
([])1([1011i i xx i n i i xx i n
i X L X X X n E Y L X X X n E εββ++--=--=∑∑==
1010)()1
(])1([βεβεβ=--+=--+=∑∑==i xx i n
i i xx i n
i E L X X X n
L X X X n E 证明 证明:
)] ()1([])1([)?(102110i i xx i n
i i xx i n i X Var L X X X n
Y L X X X n Var Var εβββ++--=--=∑∑== ()
)
1()1()?(2
2
2
1
2
2
xx n
i i
L X n X X
X n
Var +=-+=∑=σσβ
2
2221
2]1[])(2)1[(σσxx xx i xx i n
i L X n L X X X nL X X X n +=-+--=∑=
证明平方和分解公式:SST=SSE+SSR
证明:
验证三种检验的关系,即验证: (1)2
1)2(r r n t --=
;(2)22
2
1
??)2/(1/t L n SSE SSR F xx ==-=σ
β 证明:(1)
?t ===
=
=
=
(2)
2
2
2
22011111
1
1
1
??????()()(())(())n
n
n
n
i i i
i xx i i i i SSR y y x y y x x y x x L βββββ=====-=+-=+--=-=∑∑∑∑2212?/1
?/(2)xx L SSR F t SSE n βσ
∴===-
验证()式:2
211σ)L )x x (n ()e (Var xx i i ---=
证明:
11
222
2
222
???var()var()var()var()2cov(,)???var()var()2cov(,())()()11[]2[]()1[1]i i i i i i i i
i
i
i
i i xx xx
i xx
e y y
y y y y y x y y x x x x x x n L n L x x n L β
ββσσσσ
=-=+-=++-+---=++-+-=--
()()
∑∑==-+-=-=n i i
i i n i i Y Y Y Y Y Y SST 1212
]?()?[()
()
()
∑∑∑===-+--+-=n
i i
i n
i i i i n
i i
Y Y Y Y Y Y Y Y 1
2
1
12
)??)(?2?(
)()
SSE
SSR )Y ?Y Y Y ?n
1
i 2
i
i n
1
i 2i +=-+-=∑∑
==
其中:2
22221
111))(1()(1))(,()()1,())(?,(),())(?,(σσσββxx
i xx i n
i i xx i
i i n
i i i i
i i i i L x x n L x x n y L x x y Cov x x y n y Cov x x y Cov y y Cov x x y y Cov -+=-+=--+=-+=-+∑∑==
用第9题证明2?2
2-=
∑n e i
σ是2的无偏估计量
证明:
2
2
211
221122
11??()()()22()111var()[1]221
(2)2
n n i i i i n n i i i i xx E E y y E e n n x x e n n n L n n σσσσ=====-=---==----=
-=-∑∑∑∑
为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y (万元)和广告费用x (万元),数据见表,要求用手工计算: 表
(1) 画散点图(略)
(2) X 与Y 是否大致呈线性关系 答:从散点图看,X 与Y 大致呈线性关系。 (3) 用最小二乘法估计求出回归方程。
计算表
(4) 求回归标准误差 先求SSR (Q e )见计算表。 所以 第三章
证明 随机误差项ε的方差2的无偏估计。
证明:
2
212
2
2
2
21
1
1
1
1
2
22
1
111
?(),111()()(1)(1)()(1)1
?()()1n
i i n n n
n
n
i
i ii ii
ii i i i i i n
i i SSE e e e n p n p n p E e D e h h n h n p E E e n p σσσ
σ
σσσ======='===------∴==-=-=-=--∴==--∑∑∑∑∑∑∑
一个回归方程的复相关系数R=,样本决定系数R 2=,我们能判断这个回归方程就很理想吗
答:不能断定这个回归方程理想。因为:
1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F 检验或者关于回归系数的t 检验,所建立的回归方程都没能通过。
2. 样本决定系数和复相关系数接近于1只能说明Y 与自变量X1,X2,…,Xp 整体上的线性关系成立,而不能判断回归方程和每个自变量是显着的,还需进行F 检验和t 检验。
()1?2--=p n SSE σ
3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R 2往往增大,因此增加解释变量(尤其是不显着的解释变量)个数引起的R 2的增大与拟合好坏无关。 验证
证明:多元线性回归方程模型的一般形式为:
01122p p y x x x ββββε
=+++
++
其经验回归方程式为
01122?????p p
y x x x ββββ=++++,
又01122????p p
y x x x ββββ=----, 故111222????()()()p p p
y y x x x x x x βββ=+-+-++-, 中心化后,则有111222????()()()i p p p
y y x x x x x x βββ-=-+-++-,
=
令21
(),1,2,,n
jj ij j i L x x i n ==-=∑,1,2,,j p =
12()???
p
x x y x x βββ-=++
样本数据标准化的公式为
1,2,
,ij i x x y x y i n **-=
=
=,1,2,
,j p =
则上式可以记为
21?*,1,2,...,)n jj j i j p L X β====-∑j j i j 其中: (X 2
1
??*,1,2,...,)
n jj j i j p L X β
===-∑j
j i j 其中: (X
1
1
2
2
1122??????i i i p
ip
i i p ip
L
y x x x L x x x βββ
βββ*
*
**
******=++
+=?+?++?
则有
??,1,2,,j
j
j p β*==
研究货运总量y (万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表(略)。
(1)计算出y ,x1,x2,x3的相关系数矩阵。 SPSS 输出如下:
则相关系数矩阵为: 1.0000.5560.7310.7240.556 1.0000.1130.3980.731
0.113 1.0000.5470.7240.3980.547 1.000r ?????
?=????
??
(2)求出y 与x1,x2,x3的三元回归方程。
对数据利用SPSS 做线性回归,得到回归方程为
123?348.38 3.7547.10112.447y
x x x =-+++ (3)对所求的方程作拟合优度检验。
由上表可知,调整后的决定系数为,说明回归方程对样本观测值的拟合程度较好。
(4)对回归方程作显着性检验;
原假设:0:3210===βββH
F 统计量服从自由度为(3,6)的F 分布,给定显着性水平α=,查表得76.4)6.3(05.0=F ,由方查分析表得,F 值=>,p 值=,拒绝原假设0H ,
由方差分析表可以得到8.283,0.0150.05F P ==<,说明在置信水平为95%下,回归方程显着。
(5)对每一个回归系数作显着性检验;
做t 检验:设原假设为0:0=i H β,
i
t 统计量服从自由度为n-p-1=6的t 分布,给定显着性水平,查得
单侧检验临界值为,X1的t 值=<,处在否定域边缘。 X2的t 值=>。拒绝原假设。
由上表可得,在显着性水平0.05α=时,只有2x 的P 值<,通过检验,即只有2x 的回归系数较为显着 ;其余自变量的P 值均大于,即x1,x2的系数均不显着。
第四章
简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程
度就差。由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数
i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
∑=----=n
i ip p i i i p w x x y w Q 1
211010)( ),,,(ββββββ (2)
加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββ?,,?,?10 使式(2)的离差平方和w Q 达极小。所得加权最小二乘经验回归方程记做
p
pw w w w x x y βββ????110+++= (3) 22011
1
???()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑22
__
1
_
2
_
_
02
222
()()
?()?1
11
1
,i i N
w i
i
i w i w
i w
w
w w
w kx i i
i i
m
i i i m
i w x
x y y x x y x w kx x kx w x σβββσσ==---=-==
===∑∑1N i =1
1表示=或
多元回归模型加权最小二乘法的方法:
首先找到权数i w ,理论上最优的权数i w 为误差项方差2i σ的倒数,即
2
1
i i w σ=
(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的
加权最小二乘估计pw w w βββ?,,?,?10 就是参数p βββ,,,10 的最小方差线性无偏估计。
一个需要解决的问题是误差项的方差2i σ是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差2i σ通常与自变量的水平有关(如误差项方差2i σ随着自变量的增大而增大),可以利用这种关系确定权数。例如2i σ与
第j 个自变量取值的平方成比例时, 即2i σ=k 2
ij x 时,这时取权数为
21
ij
i x w =
(5)
更一般的情况是误差项方差2i σ与某个自变量j x (与|e i |的等级相关系数最大
的自变量)取值的幂函数m ij x 成比例,即2i σ=k m
ij x ,其中m 是待定的未知参数。此
时权数为
m ij
i x w 1
=
(6) 这时确定权数i w 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。
()式一元加权最小二乘回归系数估计公式。 证明:
22011
1
???()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑22011
1
???()()N N
w i i i i i i
i i Q w y y w y x ββ===-=--∑∑
w
w w i
n
i i
w i w i n
i i x y x x
w y y x x w 102
1
1
1
??)())((?βββ-=---=∑∑==
验证()式多元加权最小二乘回归系数估计公式。
证明:对于多元线性回归模型 ,y =X β+ε (1)
2()0,cov(,)E σ'?==εεεW ,即存在异方差。设
,00
n w '=??=
? ???
W DD D , 用-1D 左乘(1)式两边,得到一个新的的模型:
---111D y =D X β+D ε,即***y =X β+ε。
因为22()()()E E E σσ---''''''====1-11-11-1εεD εεD D εεD D WD I , 故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得
111?()()()**-**------''''''''===1111w
βX X X y X D D X X D D y X WX X Wy 原式得证。
有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点说明原因。
答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS )只是普通最小二乘估计(OLS )的改进,这种改进可能是细微的,不能理解为WLS 一定会得到与OLS 截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS 与OLS 的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。
第五章
1
00??Q
Q
ββ
??==??
试述前进法的思想方法。
答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显着的变量(F 值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的两变量变量(F值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显着的三个变量(F值最大)进入回归方程。不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。
试述后退法的思想方法。
答:后退法的基本思想是:首先因变量Y对全部的自变量x1,x2,...,xm建立一个m元线性回归方程, 并计算t检验值和F检验值,选择最不显着(P值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。每一步只剔除一个变量,再建立m-1元线性回归方程,计算t检验值和F检验值,剔除偏回归系数的t检验值最小(P值最大)的自变量,再建立新的回归方程。不断重复这一过程,直到无法剔除自变量时,即所有剩余p个自变量的F检验值均大于F检验临界值Fα(1,n-p-1),回归过程结束。
前进法、后退法各有哪些优缺点
答:前进法的优点是能够将对因变量有影响的自变量按显着性一一选入,计算量小。前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显着也不能删除。后退法的优点是是能够将对因变量没有显着影响的自变量按不显着性一一剔除,保留的自变量都是显着的。后退法的缺点是开始计算量大,当减少一个自变量时,它再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。
试述逐步回归法的思想方法。
答:逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入变量由于后面变量的应纳入而变得不再显着时,要将其剔除。引入一个变量或从回归防方
程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显着的变量。这个过程反复进行,直到无显着变量引入回归方程,也无不显着变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后得到的回归子集是最优回归子集。
在运用逐步回归法时,α
进和α
出
的赋值原则是什么如果希望回归方程中多保
留一些自变量,α
进
应如何赋值
答:原则是要求引入自变量的显着水平α
进小于剔除自变量的显着性水平α
出
,
否则可能出现死循环;若想回归方程多保留自变量,可以增大α
进
的值,使得更
多自变量的P值在α
进的范围内,但要注意,α
进
的值不得超过α
出
的值。