3多元线性回归与最小二乘估计

3多元线性回归与最小二乘估计
3多元线性回归与最小二乘估计

1.3 多元线性回归与最小二乘估计

1.假定条件、最小二乘估计量和高斯—马尔可夫定理 多元线性回归模型:

y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t , (1.1)

其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。

对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。

当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1, 经济意义:x t j 是y t 的重要解释变量。 y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, 代数意义:y t 与x t j 存在线性关系。 ……….. 几何意义:y t 表示一个多维平面。

y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T , (1.2) 此时y t 与x t i 已知,βj 与 u t 未知。

)1(21)

1(110)(111222111111)1(211

11??-?---??

??

???

??????+???????????????????????

???=?

?

??

??

??????T T k k k T k T Tj

T k j

k j

T T u u u x x x x x x x x x y y y βββ (1.3) Y = X β + u , (1.4) 为保证得到最优估计量,回归模型(1.4)应满足如下假定条件。

假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 σ2

相同且为有限值,即

E(u ) = 0 = ????

??????00 , Var (u ) = E(u ?u ?' ) = σ 2I = σ 2??????????10000001 假定 ⑵ 解释变量与误差项相互独立,即 E(X 'u ) = 0

假定 ⑶ 解释变量之间线性无关。 rk(X 'X ) = rk(X ) = k 其中rk (?)表示矩阵的秩。

假定⑷ 解释变量是非随机的,且当T → ∞ 时

T – 1X 'X → Q

其中Q 是一个有限值的非退化矩阵。

最小二乘 (OLS) 法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。

min S = (Y - X β

?)' (Y - X β?) = Y 'Y -β?'X 'Y - Y ' X β? +β?'X 'X β? = Y 'Y - 2β

?'X 'Y + β?'X 'X β? (1.5) 因为Y 'X β

?是一个标量,所以有Y 'X β? = β?'X 'Y 。(1.5) 的一阶条件为: β

???S = - 2X 'Y + 2X 'X β

?= 0 (1.6) 化简得

X 'Y = X 'X β

? 因为 (X 'X ) 是一个非退化矩阵(见假定⑶),所以有

β

?= (X 'X )-1 X 'Y (1.7) 因为X 的元素是非随机的,(X 'X ) -1X 是一个常数矩阵,则β

?是Y 的线性组合,为线性估计量。

求出β

?,估计的回归模型写为 Y = X β

?+ u ? (1.9) 其中β?= (0?β 1

?β … 1?-k β)' 是 β 的估计值列向量,u ?= (Y - X β?) 称为残差列向量。因为 u

? = Y - X β?= Y - X (X 'X )-1X 'Y = [I - X (X 'X )-1 X ' ]Y (1.10) 所以u ?也是Y 的线性组合。β

?的期望和方差是 E(β

?) = E[(X 'X )-1 X 'Y ] = E[(X 'X )-1X '(X β + u )] = β + (X 'X )-1X ' E(u ) = β (1.11)

Var(β

?) = E[(β?–β) (β?–β)']= E[(X 'X )-1X ' u u ' X (X 'X )-1] = E[(X 'X )-1X ' σ 2I X (X 'X )-1] = σ 2 (X 'X )-1 (1.12)

高斯—马尔可夫定理:若前述假定条件成立,OLS 估计量是最佳线性无偏估计量。β?具有无偏性。β

?具有最小方差特性。β?具有一致性,渐近无偏性和渐近有效性。 2. 残差的方差

s 2 = u

?'u ?/ (T - k ) (1.13) s 2是σ 2 的无偏估计量,E(s 2 ) =σ 2。β

?的估计的方差协方差矩阵是 ∧

Var (β

?) = s 2 (X 'X )-1 (1.14) 3. 多重确定系数(多重可决系数)

Y = X β

?+u ?=Y ?+u ? (1.15) 总平方和

SST =

∑=-T

t t y y 12)(= Y 'Y - T 2y , (1.16)

其中y 是y t 的样本平均数,定义为y = T y T

t t /)(1

∑=。回归平方和为

SSR =

∑=-T

t t y y

12)?( = Y ?'Y ?- T 2y (1.17) 其中y 的定义同上。残差平方和为

SSE =

=-T

t t t y y 12)?( = ∑=T

t t u

12? = u ?'u ? (1.18) 则有如下关系存在,

SST = SSR + SSE (1.19)

R 2

= 2

2??y T y T SST SSR -Y Y Y 'Y '-= (1.20) 显然有0 ≤ R 2 ≤ 1。R 2 →1,拟合优度越好。

4. 调整的多重确定系数

当解释变量的个数增加时,通常R 2不下降,而是上升。为调整因自由度减小带来的损失,又定义调整的多重确定系数2R 如下:

2R = 1 -

))(1(1)1/()/(SST SSR SST k T T T SST k T SSE ----=-- = 1 - )1(1

2R k

T T --- (1.21)

5. OLS 估计量的分布

若u ~ N (0, σ 2I ) ,则每个u t 都服从正态分布。于是有

Y ~ N (X β, σ 2I ) (1.22)

因β?也是u 的线性组合(见公式1.7),依据(1.11)和(1.12)有

β

? ~ N ( β, σ2(X 'X )-1 ) (1.23) 6. 方差分析与F 检验

与SST 相对应,自由度T -1也被分解为两部分,

(T -1)= (k -1) + (T - k ) (1.24)

回归均方定义为MSR =

1-k SSR ,误差均方定义为MSE = k

T SSE

- 表1.1 方差分析表

方差来源 平方和

自由度

均方 回归 SSR =Y ?'Y ?-T y 2

k -1 MSR = SSR / (k -1) 误差 SSE = u

?'u ? T -k MSE = SSE / (T -k ) 总和

SST = Y 'Y - T y 2

T -1

H 0: β1= β2 = … = βk -1 = 0; H 1: βj 不全为零

F =

MSE

MSR = )/()1/(k T SSE k SSR -- ~ F (k -1,T -k ) (1.25)

设检验水平为α,则检验规则是,若 F ≤ F α (k -1,T -k ),接受H 0;若 F > F α (k -1,T -k ) , 拒绝H 0。

0 F α (k -1, T -k ) -t α(T-k) 0 t α(T-k)

F 检验示意图 t 检验示意图

7.t 检验

H 0:βj = 0, (j = 1, 2, …, k -1), H 1:βj ≠ 0 t =

)?(?j

j s ββ=1121)'(?)?(?+-+=j j

j j s Var X X βββ~ t (T -k ) (1.26)

判别规则:若∣ t ∣≤ t α(T -k ) 接受H 0;若∣ t ∣> t α(T -k ) 拒绝H 0。 8.βi 的置信区间

(1) 全部βi 的联合置信区间接受

F =

k

1(β -β?)' (X 'X ) (β -β?) / s 2 ~ F α (k , T -k ) (1.27) ( β -β

?)' (X 'X ) ( β -β?) ≤ s 2 k F α (k , T -k ),它是一个k 维椭球。 (1.28) (2) 单个βi 的置信区间

βi = i β?±1+j v s t α/2(T -k ) . (1.29)

9.预测

(1)点预测

C = (1 x T +1 1 x T +1 2 … x T +1 k -1 ) (1.30) 则T + 1期被解释变量y T +1的点预测式是,

1?+T y

= C β?=β?0 +β?1 x T +1 1 + … +β? k -1 x T +1 k -1

(1.31)

(2)E (y T +1) 的置信区间预测

首先求点预测式C β

?的抽样分布 E (1?+T y

) = E (C β?) = C β (1.32) Var (1

?+T y

) = Var (C β?) = E[(C β?- C β ) (C β?- C β ) ' ] = E[C (β

?- β ) [C (β?- β )] ' ]= C E[(β?- β ) (β?- β ) ' ]C ' = C Var (β

?)C '= C σ2 (X 'X )-1C ' = σ2 C (X 'X )-1C ' , (1.33)

因为β

?服从多元正态分布,所以C β?也是一个多元正态分布变量,即 1?+T y

= C β?~ N (C β, σ2C (X 'X ) -1C ') (1.34) 构成 t 分布统计量如下

t =

'

)'()?(?1

11C X X C -++-s y E y

T T =

'

)'(?1

C X X C C C --s ββ ~ t (T -k ) (1.35)

置信区间 C β

?± t α/2 (1, T -k ) s ')'(1C X X C - (1.36) (3) 单个y T +1的置信区间预测

y T +1值与点预测值1?+T y

有以下关系 y T +1 = 1?+T y

+ u T +1 (1.37) 其中u T +1是随机误差项。因为

E( y T +1) = E(1?+T y

+ u T +1) = C β (1.38) Var( y T +1) = Var(1?+T y

) + Var(u T +1) = σ 2 C (X 'X )-1C ' + σ 2 = σ 2 (C (X 'X )-1C ' + 1) (1.39) 因为β

?服从多元正态分布,所以y T +1也是一个多元正态分布变量,即 y T +1 ~ N (C β, σ2C (X 'X ) -1C '+ 1)

与上相仿,单个y T +1的置信区间是

C β

? ± t α/2 (T -k ) s 1')'(1+-C X X C (1.40) 计算举例:(见《计量经济分析》第19-27页,熟悉矩阵运算)

10. 预测的评价指标

注意,以下6个公式中的e t 表示的是预测误差,不是残差。可以在样本内、外预测。 (1) 预测误差。预测误差定义为

e t = t y

?- y t , t = T +1, T +2, … 是对单点预测误差大小的测量。

(2) 相对误差PE (Percentage Error)。

PE =

t

t t y y y

-?, t = T +1, T +2, … 是对单点预测相对误差大小的测量。

(3) 误差均方根rms error (Root Mean Squared Error)

rms error =

∑=-T

t t t

y y

T

1

2)?(1

通过若干个预测值对预测效果进行综合评价。

(4) 绝对误差平均MAE (Mean Absolute Error)

MAE =

∑=-T

t t t y y

T

1

?1

通过若干个预测值对预测的绝对误差进行综合评价。

(5) 相对误差绝对值平均MAPE (Mean Absolute Percentage Error)

MAPE =

=-T

t t

t t y y y

T

1

?1

综合运用以上4种方法,通过若干个预测值对预测的相对误差进行综合评价。

以上6个式子中,t y

?表示预测值,y t 表示实际值。Theil 的取值范围是 [0,1]。显然在预测区间内,当t y

?与y t 完全相等时,Theil = 0;当预测结果最差时,Theil = 1。公式中的累加范围是用1至T 表示的,当然也可以用于样本外预测评价。

11.建模过程中应注意的问题

5000

100001500020000250003000080818283848586878889909192

GDP GDP(f)

(1)研究经济变量之间的关系要剔除物价变动因素。以上图为例,按当年价格计算,我国1992年的GDP 是1980年的5.9倍,而按固定价格计算,我国1992年的GDP 是1980年的2.8倍。另外从图中还可看出,1980-1992期间按名义价格计算的GDP 曲线一直是上升的,而按不变价格(1980年价格)计算的GDP 曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。

(2) 依照经济理论以及对具体经济问题的深入分析初步确定解释变量。

例:我国粮食产量 = f (耕地面积、农机总动力、施用化肥量、农业人口等)。但根据我国目前情况,“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。

例:关于某市的食用油消费量,文革前常驻人口肯定是重要解释变量。现在则不同,消费水平是重要解释变量,因为食用油供应方式已改变。

(3) 当引用现成数据时,要注意数据的定义是否与所选定的变量定义相符。 例:“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。 例:2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。

(4) 通过散点图,相关系数,确定解释变量与被解释变量的具体函数关系。(线性、非线性、无关系)

(nonli8)

(5)谨慎对待离群值(outlier )。离群值可能是正常值也可能是异常值。不能把建立模型简单化为一个纯数学过程,目的是寻找经济规律。

年 INV (投资) IMPORT (进口)

1991 2.562000 23.47000 1992 2.429700 32.29000 1993 6.712400 63.99000 1994 15.37600 78.75000 1995 21.31000 149.1300 1996 27.37000 113.8100 1997 41.71000 106.1500 1998

39.78000

112.2000

(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型,

y t = β1 x t + u t ,为例,①∑t u ? = 0不一定成立。原因是正规方程只有一个(不是两个),

1

2?)

?(

β??∑t

u = 2∑ (y t -1

?βx t ) (- x t ) = 0, 即 ∑t u

?x t = 0,而没有∑t u ? = 0。所以残差和等于零不一定成立。②可决系数R 2有时会得负值!原因是有时会有SSE>SST 。为维持SSE+SSR=SST ,迫使SSR<0。

(7) 改变变量的测量单位可能会引起回归系数值的改变,但不会影响t 值。即不会影响统计检验结果。以一元回归模型的估计公式为例说明之。

1

?β= ∑∑---2

)

())((x x y y x x t

t t

t =

)

1?

(1?ββ

s =

∑∑

---2

)

()

)((x x

y y x x t

t t σ

?)(2

∑-x x

t

=

∑∑---2

)

()

)((x x y y x x t

t

t

∑--2

)?()2(t

t

y y T

(8) 回归模型给出估计结果后,首先应进行F 检验。F 检验是对模型整体回归显著性的

检验。 (检验一次, H 0: β1= β2 = … = βk -1 = 0; H 1: βj 不全为零。)若F 检验结果能拒绝原假

设,应进一步作t 检验(检验k 次,H 0:βj = 0, (j = 1, 2, …, k -1), H 1:βj ≠ 0)。t 检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t 检验,则相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。

(9) 在作F 与t 检验时,不要把自由度和检验水平用错(正确查临界值表)。回归系数的t 检验是双端检验,但t 检验表的定义有P (| t | > t α) = α, P ( t < t α) = α

-t α(T-k) 0 t α(T-k) F α(k -1,T -k )

(10) 对于多元回归模型,当解释变量的量纲不相同时,不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性,应该对回归系数作如下变换

j β?* =j

β?)

()(t tj y s x s , j = 1, 2, … k -1 (1.41)

其中s (x t ) 和s (y t ) 分别表示x t 和y t 的样本标准差。j

β?*可用来直接比较大小。 以二元模型为例,标准化的回归模型表示如下(标准化后不存在截距项),

)(t t y s y y -= β1*)(111t t x s x x -+ β2*)

(22

2t t x s x x -+ … + u t

两侧同乘s (y t ),得

(y t -y ) = β1*

)()(1t t x s y s (x t 1 -1x ) + β2*)

()

(2t t x s y s (x t 2 -2x ) + … + u t s (y t ) 所以有

βj *

)()

(tj t x s y s = βj , 即 βj * = βj )

()(t tj y s x s , i = 1, 2, … k -1 既是 (1.41) 式。

(11) 利用回归模型预测时,解释变量的值最好不要离开样本范围太远。原因是①根据

预测公式离样本平均值越远,预测误差越大。以一元回归模型为例;

F y ? ~ N (β0 + β1 x F , σ 2

(1+T 1

+∑--2

2)()(x x x x t F ) )

从公式看,当x F =x 时,F y

?的分布方差最小,即预测区间最小,预测精度最高。而预测点x F 越远离x ,F y

?的分布方差越大,即预测区间越大,预测精度越差。 ②有时,样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不

同时,在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本,求得的关系近似是线性的。当把预测点选在锡含量为16%之外时,显然这种预测会发生严重错误。因为锡含量超过16%之后,青铜的硬度急剧下降,不再遵从锡含量为0-16%时的关系。

图3.9 y t 的区间预测的变化 图3.10 青铜硬度与锡含量的关系

4

6

8

10

12

55

60

65

70

75

80

85

90

95

LOG(TRADE)

(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5,则模型很难被接受。

(13) 残差项应非自相关(用DW 检验,亦可判断虚假回归)。否则说明①仍有重要解释变量被遗漏在模型之外。②选用的模型形式不妥。 (14) 通过对变量取对数消除异方差。 (15) 避免多重共线性。

(16) 解释变量应具有外生性,与误差项不相关。

(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同,应选择解释变量较少的一个。

(18) 模型的结构稳定性要强,超样本特性要好。

(19) 世界是变化的,应该随时间的推移及时修改模型。

建模案例1:《全国味精需求量的计量经济模型》

(见《预测》1987年第2期)

1.依据经济理论选择影响味精需求量变化的因素

依据经济理论一种商品的需求量主要取决于四个因素,即①商品价格,②代用品价格,③消费者收入水平,④消费者偏好。模型为:

商品需求量 = f (商品价格,代用品价格,收入水平,消费者偏好)

对于特定商品味精,当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。

商品价格:味精是一种生活常用品,当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。

代用品价格:味精是一种独特的调味品,目前尚没有替代商品。所以不考虑代用品价格这一因素。

消费者收入:显然消费者收入应该是一个较重要的解释变量。 偏好:由于因偏好不食味精或大量食用味精的情形很少见,所以每人用量只会在小范围内波动,所以不把偏好作为重要解释变量,而归并入随机误差项。

分析结果,针对味精需求量只考虑两个重要解释变量,商品价格和消费者收入水平。

味精需求量 = f (商品价格,收入水平)

2.选择恰当的变量(既要考虑代表性,也要考虑可能性)

用销售量代替需求量。因需求量不易度量,味精是自由销售商品,不存在囤积现象,所以销售量可较好地代表需求量。味精商品价格即销售价格。

用人均消费水平代替收入水平。因为①消费水平与味精销售量关系更密切。②消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。 味精销售量 = f (销售价格,人均消费水平)

用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的,应取平均价格(加权平均最好)。

取不变价格的人均消费水平:消费水平都是用当年价格计算的,应用物价指数进行修正。 味精销售量 = f (平均销售价格,不变价格的消费水平)

3. 收集样本数据(抽样调查,引用数据)

从中国统计年鉴和有关部门收集样本数据 (1972-1982, T = 11。数据见下页。)。定义销售量为y t (吨),平均销售价格为x 1(元 / 公斤),不变价格的消费水平为 x 2(元)。相关系数表如下:

平均销售价格 (x 1t )

不变价格的消费水平 (x 2t )

味精销售量(y t )

-0.3671

0.9771

注:临界值r 0.05 (9) = 0.60。

010000

2000030000400005000060000

11.0

11.2

11.4

11.6

11.8

12.0

12.2

X1

Y

010000

2000030000400005000060000

100

120

140

160

180

X2

Y

4. 确定模型形式并估计参数

t y

?= -144680.9 + 6313.4 x 1t + 690.4 x 2t (1) (-3.92) (2.17) (15.32) R 2 = 0.97, DW = 1.8, t 0.05 (8) = 2.3

回归系数6313.4无显著性(x 1t 与x 2t 应该是负相关,回归系数估计值却为正,可见该估计

值不可信)。剔除不显著变量x 1t ,再次回归,

t y

? = -65373.6 + 642.4 x 2t (2) (-10.32) (13.8) R 2 = 0.95, DW = 1.5, t 0.05 (9) = 2.26

问题:1

?β= 6313.4,为什么检验结果是 β1 = 0? 量纲的变化对回归结果会造成影响吗?

建模案例2:《用回归方法估计纯耕地面积》

(见《数理统计与管理》1986年第6期)

目前对土地的调查大多采用航空摄影,从照片上把各类资源图斑转绘到1:10000的地形图上,然后再从地形图上测绘图斑面积。

在处理如何获得实际耕地面积时,关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低,无法直接勾绘,测算。

设一个毛耕地图斑面积用S表示,其中不能耕种的面积(扣除面积)用?S表示,则扣除系数,

y i= ?S / S =(扣除面积)/(毛耕地图斑面积)。

对于每一个图斑,知道精确的扣除系数y i,就很容易根据毛耕地图斑面积S计算出纯耕地面积。现在用回归分析方法,寻找影响扣除系数变化的主要因素,从而建立关于“扣除系数”的回归模型。

该论文研究的是湖南地区的耕地面积调查。湖南省属丘陵山区,地形复杂,各种地类犬牙交错,影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析,初步确定三个主要因素,即

“坡度”、“地块面积”和“田埂宽度”

论文作者在五个县共调查了867个样本点,其中水田样本522个,旱田样本345个。具体做法是首先把867个样本数据按“坡度”分成25个等级,然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值,“平均地块面积”和“平均田埂宽度”。整理样本数据如下:

i(序号)y i(扣除系数)x1i(坡度)x2i(平均地块面积)x3i(平均田埂宽度)

1 4.2356 0 1.9300 0.6318

2 4.8838 1 1.4918 0.7312

3 7.8300 2 1.1253 0.9731

……………

25 39.4151 24 1.0600 4.0721

拟建摸型为,

y i= β0 + β1 x1i + β2x2i +β3x3i + u i

利用样本得估计的回归方程

y i= 1.672 + 1.145x1i + 0.608 x2i + 2.081 x3i

(7.3) (0.4) (1.85) F = 221.62

(F.05(3,21) = 3.07, F.01(3,21) = 4.87, t.05(21) = 2.08, t.01(21) = 2.84)

统计检验结果表明x2i , x3i为非重要解释变量。剔除之,用y i对x1i再次回归得,y i= 3.34 + 1.35x1i

实际的验证结果表明,用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积”完全能满足精度要求,从而为减少野外作业强度(不必再测量“地块面积”和“田埂宽度”),迅速完成测算,提供了科学依据。

(整理)计量经济学 第三章 多元线性回归与最小二乘估计

第三章 多元线性回归与最小二乘估计 3.1 假定条件、最小二乘估计量和高斯—马尔可夫定理 1、多元线性回归模型: y t = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 + u t (3.1) 其中y t 是被解释变量(因变量),x t j 是解释变量(自变量),u t 是随机误差项,βi , i = 0, 1, … , k - 1是回归参数(通常未知)。 对经济问题的实际意义:y t 与x t j 存在线性关系,x t j , j = 0, 1, … , k - 1, 是y t 的重要解释变量。u t 代表众多影响y t 变化的微小因素。使y t 的变化偏离了E( y t ) = β0 +β1x t 1 + β2x t 2 +…+ βk - 1x t k -1 决定的k 维空间平面。 当给定一个样本(y t , x t 1, x t 2 ,…, x t k -1), t = 1, 2, …, T 时, 上述模型表示为 y 1 = β0 +β1x 11 + β2x 12 +…+ βk - 1x 1 k -1 + u 1, y 2 = β0 +β1x 21 + β2x 22 +…+ βk - 1x 2 k -1 + u 2, (3.2) ……….. y T = β0 +β1x T 1 + β2x T 2 +…+ βk - 1x T k -1 + u T 经济意义:x t j 是y t 的重要解释变量。 代数意义:y t 与x t j 存在线性关系。 几何意义:y t 表示一个多维平面。 此时y t 与x t i 已知,βj 与 u t 未知。 ) 1(21)1(110)(11 1222111111)1(21111??-?---?? ????? ??????+??????????????????????? ???=? ? ?? ?? ??????T T k k k T k T Tj T k j k j T T u u u x x x x x x x x x y y y βββ (3.3) Y = X β + u (3.4) 2假定条件 为保证得到最优估计量,回归模型(3.4)应满足如下假定条件。 假定 ⑴ 随机误差项u t 是非自相关的,每一误差项都满足均值为零,方差 σ2相同且为有限值,即

多元线性回归讲解学习

简要回答题: 1. 在多元线性回归分析中,F检验和t检验有何不同? 答案: 在多元线性回归中,由于有多个自变量,F检验与t检验不是等价的。 F检验主要是检验因变量同多个自变量的整体线性关系是否显著,在k个自变量中,只要有一个自变量同因变量的线性关系显著,F检验就显著,但这不一定意味着每个自变量同因变量的关系都显著。检验则是对每个回归系数分别进行单独的检验,以判断每个自变量对因变量的影响是否显著。 知识点:多元线性回归 难易度:1 2. 在多元线性回归分析中,如果某个回归系数的t检验不显著,是否就意味着这个自变量与因变量之间的线性回归不显著为什么当出现这种情况时应如何处理? 答案: (1)在多元线性回归分析中,当t检验表明某个回归系数不显著时,也不能断定这个自变量与因变量之间线性关系就不显著。因为当多个自变量之间彼此显著相关时,就可能造成某个或某些回归系数通不过检验,这种情况称为模型中存在多重共线性。 (2)当模型中存在多重共线性时,应对自变量有所选择。变量选择的方法主要有向前选择、向后剔除和逐步回归等。 知识点:多元线性回归 难易度:2 计算分析题: 1. 一家餐饮连锁店拥有多家分店。管理者认为,营业额的多少与各分店的营业面积和服务人员的多少有一定关系,并试图建立一个回归模型,通过营业面积和服务人员的多少来预测营业额。为此,收集到10家分店的营业额(万元)、营业面积(平方米)和服务人员数(人)的数据。经回归得到下面的有关结果(a=)。 (2)写出多元线性回归方程。 (3)分析回归方程的拟合优度。 (4)对回归模型的线性关系进行显著性检验。

答案: (1)自变量是营业面积和销售人员数,因变量是营业额。 (2)多元线性回归方程为:。 (3)判定系数,表明在营业额的总变差中,有%可由营业额与营业面积和服务人员数 之间的线性关系来解释,说明回归方程的拟合程度较高。估计标准误差,表示用营业面积和服务人员数来预测营业额时,平均的预测误差为万元。 (4)从方差分析表可以看出,,营业额与营业面积和服务人员 数之间的线性模型是显著的。 知识点:多元线性回归 难易度:2 2. 机抽取的15家超市,对它们销售的同类产品集到销售价格、购进价格和销售费用的有关数据(单位:元)。设销售价格为y、购进价格为、销售费用为,经回归得到下面的有关结果(a=): df SS MS F Significance F — 2 回归 残差12& 总计14 P-value Coefficients标准误差~ t Stat Intercept X Variable 1! X Variable 2 (2)计算判定系数,并解释其实际意义。 (3)计算估计标准误差,并解释其意义。 (4)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否都有用请说明理由。 答案: (1)多元线性回归方程为:。偏回归系数表示:在销售费用不变的条件下,购进价格每增加1元,销售价格平均增加元;偏回归系数表示:在购进价格不变的条件下,销售费用每增加1元,销售价格平均增加元。 (2)判定系数,表明在销售价格总变差中,有%可由销售价格与购进价格和销售费用之间的线性关系来解释,说明回归方程的拟合程度一般。

非线性最小二乘法

非线性最小二乘法 编辑词条分享 ?新知社新浪微博腾讯微博人人网QQ空间网易微博开心001天涯飞信空间MSN移动说客 非线性最小二乘法 非线性最小二乘法是以误差的平方和最小为准则来估计非线性静态模型参数的一种参数估 计方法。 编辑摘要 目录 1 简介 2 推导 3 配图 4 相关连接 非线性最小二乘法 - 简介 以误差的平方和最小为准则来估计非线性静态模型参数的一种参数估计方法。设非线性系统的模型为y=f(x,θ) 式中y是系统的输出,x是输入,θ是参数(它们可以是向量)。这里的非线性是指对参数θ的非线性模型,不包括输入输出变量随时间的变化关系。在估 计参数时模型的形式f是已知的,经过N次实验取得数据(x1,y1),(x2,y1), ,(xn,yn)。估计参数的准则(或称目标函数)选为模型的误差平方和非线性最小二乘法就是求使Q达到极小的参数估计值孌。 推导 非线性最小二乘法 - 推导 以误差的平方和最小为准则来估计非线性静态模型参数的一种参数估计方法。设非线 性系统的模型为 y=f(x,θ) 式中y是系统的输出,x是输入,θ是参数(它们可以是向量)。这里的非线性是指对参数θ的非线性模型,不包括输入输出变量随时间的变化关系。在估计参数时模型的形式f是已知的,经过N次实验取得数据(x1,y1),(x2,y1), ,(x n,y n)。估计参数的准则(或称目标函数)选为模型的误差平方和

非线性最小二乘法就是求使Q达到极小的参数估计值孌。 由于f的非线性,所以不能象线性最小二乘法那样用求多元函数极值的办法来得到参 数估计值,而需要采用复杂的优化算法来求解。常用的算法有两类,一类是搜索算法,另 一类是迭代算法。 搜索算法的思路是:按一定的规则选择若干组参数值,分别计算它们的目标函数值并 比较大小;选出使目标函数值最小的参数值,同时舍弃其他的参数值;然后按规则补充新 的参数值,再与原来留下的参数值进行比较,选出使目标函数达到最小的参数值。如此继 续进行,直到选不出更好的参数值为止。以不同的规则选择参数值,即可构成不同的搜索 算法。常用的方法有单纯形搜索法、复合形搜索法、随机搜索法等。 迭代算法是从参数的某一初始猜测值θ(0)出发,然后产生一系列的参数点θ(1)、θ(2) ,如果这个参数序列收敛到使目标函数极小的参数点孌,那么对充分大的N就可用θ(N)作为孌。迭代算法的一般步骤是: ① 给出初始猜测值θ(0),并置迭代步数i=1。 ② 确定一个向量v(i)作为第i步的迭代方向。 ③ 用寻优的方法决定一个标量步长ρ(i),使得 Q(θ(i))=Q(θ(i)),其中θ(i)=θi-1+ρ(i)v(i)。 ④ 检查停机规则是否满足,如果不满足,则将i加1再从②开始重复;如果满足,则 取θ(i)为孌。 典型的迭代算法有牛顿-拉夫森法、高斯迭代算法、麦夸特算法、变尺度法等。 非线性最小二乘法除可直接用于估计静态非线性模型的参数外,在时间序列建模、连 续动态模型的参数估计中,也往往遇到求解非线性最小二乘问题。 非线性最小二乘法 - 配图 非线性最小二乘法

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

多元线性回归分析预测法

多元线性回归分析预测法 (重定向自多元线性回归预测法) 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释

因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x1对y的偏回归系数;同理b2为固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b0为常数项,为回归系数,b1为固定时,x2每增加一 个单位对y的效应,即x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得

多元线性回归模型的案例讲解

多元线性回归模型的案 例讲解 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/ 千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/ 千克) 1980 397 1992 911 1981 413 1993 931 1982 439 1994 1021 1983 459 1995 1165 1984 492 1996 1349 1985 528 1997 1449 1986 560 1998 1575 1987 624 1999 1759 1988 666 2000 1994 1989 717 2001 2258 1990 768 2002 2478 1991 843 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

所以,回归方程为: 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响,而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显着。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: Variable Coefficient Std. Error t-Statistic Prob.?? C LOG(X) LOG(P1) R-squared ????Mean dependent var Adjusted R-squared ????. dependent var . of regression ????Akaike info criterion Sum squared resid ????Schwarz criterion Log likelihood ????F-statistic Durbin-Watson stat ????Prob(F-statistic)

第三章多元线性回归模型(stata)

一、邹式检验(突变点检验、稳定性检验) 1.突变点检验 1985—2002年中国家用汽车拥有量(t y ,万辆)与城镇居民家庭人均可支配收入(t x ,元),数据见表。 表 中国家用汽车拥有量(t y )与城镇居民家庭人均可支配收入(t x )数据 年份 t y (万辆) t x (元) 年份 t y (万辆) t x (元) 1985 1994 1986 1995 4283 1987 1996 1988 1997 1989 1998 1990 1999 5854 1991 2000 6280 1992 2001 1993 2002 下图是关于t y 和t x 的散点图:

从上图可以看出,1996年是一个突变点,当城镇居民家庭人均可支配收入突破元之后,城镇居民家庭购买家用汽车的能力大大提高。现在用邹突变点检验法检验1996年是不是一个突变点。 :两个字样本(1985—1995年,1996—2002年)相对应的模型回归参数相等H H :备择假设是两个子样本对应的回归参数不等。 1 在1985—2002年样本范围内做回归。

在回归结果中作如下步骤(邹氏检验): 1、 Chow 模型稳定性检验(lrtest) 用似然比作chow检验,chow检验的零假设:无结构变化,小概率发生结果变化* 估计前阶段模型 * 估计后阶段模型 * 整个区间上的估计结果保存为All * 用似然比检验检验结构没有发生变化的约束 得到结果如下;

(如何解释) 2.稳定性检验(邹氏稳定性检验) 以表为例,在用1985—1999年数据建立的模型基础上,检验当把2000—2002年数据加入样本后,模型的回归参数时候出现显著性变化。 * 用F-test作chow间断点检验检验模型稳定性 * chow检验的零假设:无结构变化,小概率发生结果变化 * 估计前阶段模型 * 估计后阶段模型 * 整个区间上的估计结果保存为All

非线性最小二乘平差

非线性最小二乘平差 6-1问题的提出 经典平差是基于线性模型的平差方法。然而在现实世界中,严格的线性模型并不多见。测量上大量的数学模型也是非线性模型。传统的线性模型平差中的很多理论在非线性模型平差中就不一定适用;线性模型平差中的很多结论在非线性模型平差中就不一定成立;线性模型平差中的很多优良统计性质在非线性模型平差中就不一定存在。例如,在线性模型平差中,当随机误差服从正态分布时,未知参数X 的最小二乘估计具有一致无偏性和方差最小性。但在非线性模型平差中,即使随机误差严格服从正态分布,未知参数X的非线性最小二乘估计也是有偏的。其方差一般都不能达到最小值。 对于测量中大量的非线性模型,在经典平差中总是进行线性近似(经典的测量平差中称之为线性化),即将其展开为台劳级数,并取至一次项,略去二次以上各项。如此线性近似,必然会引起模型误差。过去由于测量精度不高,线性近似所引起的模型误差往往小于观测误差,故可忽略不计。随着科学技术的不断发展,现在的观测精度已大大提高,致使因线性近似所产生的模型误差与观测误差相当,有些甚至还会大于观测误差。例如,GPS载波相位观测值的精度很高,往往小于因线性近似所产生的模型误差。因此,用近似的理论、模型、方法去处理具有很高精度的观测结果,从而导致精度的损失,这显然是不合理的。现代科学技术要求估计结果的精度尽可能高。这样,传统线性近似的方法就不一定能满足当今科学技术的要求。另外,有些非线性模型对参数的近似值十分敏感,若近似值精度较差,则线性化会产生较大的模型误差。由于线性近似后,没有顾及因线性近似所引起的模型误差,而用线性模型的精度评定理论去评定估计结果的精度,从而得到一些虚假的优良统计性质,人为地拔高了估计结果的精度。 鉴于上述各种原因,对非线性模型平差进行深入的研究是很有必要的。非线性模型的平差和精度估计以及相应的误差理论研究也是当前国内外测绘界研究的前沿课题之一。 电子教材 > 第六章非线性模型平差 > 6-2 非线性模型平差原理

多元线性回归实例分析报告

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要就是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该 为: 上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差, 其中随机误差分为:可解释的误差与不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须就是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内, 将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,您也可以选择其它的方式,如果您选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果您选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该就是跟“因变量”关系最为密切,

非线性最小二乘lsqnonlin

非线性最小二乘lsqnonlin 数学规划模型的matlab求解 数学规划模型的matlab求解 var OsObject = ""; if(https://www.360docs.net/doc/6f17428361.html,erAgent.indexOf("MSIE")>0) { document.write(""); } if (isFirefox=https://www.360docs.net/doc/6f17428361.html,erAgent.indexOf("Firefox")>0){ document.write(" "); } if(isSafari=https://www.360docs.net/doc/6f17428361.html,erAgent.indexOf("Safari")>0) { //return "Safari"; } if(isCamin o=https://www.360docs.net/doc/6f17428361.html,erAgent.indexOf("Camino")>0){ //return "Camino"; } if(isMozilla=navigato https://www.360docs.net/doc/6f17428361.html,erAgent.indexOf("Gecko/")>0){ //return "Gecko"; } 今天胡老师给我们讲了数学规划模型,数学规划模型是优化模型的一种,包括线性规划模型(目标函数和约束条件都是线性函数的优化问题); 非线性规划模型(目标函数或者约束条件是非线性的函数); 整数规划(决策变量是整数值得规划问题); 多目标规划(具有多个目标函数的规划问题) ;目标规划(具有不同优先级的目标和偏差的规划问题) 动态规划(求解多阶段决策问题的最优化方法) 。数学规划模型相对比较好理解,关键是要能熟练地求出模型的解。 以下是解线性规划模型的方法: 1.线性规划问题 线性规划问题的标准形式为: min f ' *x sub.to:A*x

非线性最小二乘法Levenberg-Marquardt method

Levenberg-Marquardt Method(麦夸尔特法) Levenberg-Marquardt is a popular alternative to the Gauss-Newton method of finding the minimum of a function that is a sum of squares of nonlinear functions, Let the Jacobian of be denoted , then the Levenberg-Marquardt method searches in the direction given by the solution to the equations where are nonnegative scalars and is the identity matrix. The method has the nice property that, for some scalar related to , the vector is the solution of the constrained subproblem of minimizing subject to (Gill et al. 1981, p. 136). The method is used by the command FindMinimum[f, x, x0] when given the Method -> Levenberg Marquardt option. SEE A LSO:Minimum, Optimization REFERENCES: Bates, D. M. and Watts, D. G. N onlinear Regr ession and Its Applications. New York: Wiley, 1988. Gill, P. R.; Murray, W.; and Wright, M. H. "The Levenberg-Marquardt Method." §4.7.3 in Practical Optim ization. London: Academic Press, pp. 136-137, 1981. Levenberg, K. "A Method for the Solution of Certain Problems in Least Squares." Quart. Appl. Math.2, 164-168, 1944. Marquardt, D. "An Algor ithm for Least-Squares Estimation of Nonlinear Parameters." SIAM J. Appl. Math.11, 431-441, 1963.

参数的最小二乘法估计

第四章最小二乘法与组合测量 §1概述 最小二乘法是用于数据处理和误差估计中的一个很得力的数学工具。对于从事精密科学实验的人们来说,应用最小乘法来解决一些实际问题,仍是目前必不可少的手段。例如,取重复测量数据的算术平均值作为测量的结果,就是依据了使残差的平方和为最小的原则,又如,在本章将要用最小二乘法来解决一类组合测量的问题。另外,常遇到用实验方法来拟合经验公式,这是后面一章回归分析方法的内容,它也是以最小二乘法原理为基础。 最小二乘法的发展已经经历了200多年的历史,它最先起源于天文和大地测量的需要,其后在许多科学领域里获得了广泛应用,特别是近代矩阵理论与电子计算机相结合,使最小二乘法不断地发展而久盛不衰。 本章只介绍经典的最小二乘法及其在组合测量中的一些简单的应用,一些深入的内容可参阅专门的书籍和文献。 §2最小二乘法原理 最小二乘法的产生是为了解决从一组测量值中寻求最可信赖值的问题。对某量x 测量一组数据n x x x ,,,21 ,假设数据中不存在系统误差和粗大误差,相互独立,服从正态分布,它们的标准偏差依次为:n ,,21记最可信赖值为x ,相应的残差x x v i i 。测值落入),(dx x x i i 的概率。 根据概率乘法定理,测量n x x x ,,,21 同时出现的概率为 显然,最可信赖值应使出现的概率P 为最大,即使上式中页指数中的因子达最小,即

权因子:2 2o i i w 即权因子i w ∝21i ,则 再用微分法,得最可信赖值x 1 1 n i i i n i i w x x w 即加权算术平均值 这里为了与概率符号区别,以i 表示权因子。 特别是等权测量条件下,有: 以上最可信赖值是在残差平方和或加权残差平方和为最小的意义下求得的,称之为最小二乘法原理。它是以最小二乘方而得名。 为从一组测量数据中求得最佳结果,还可使用其它原理。 例如 (1)最小绝对残差和法:Min v i (2)最小最大残差法:Min v i max (3)最小广义权差法:Min v v i i m in m ax 以上方法随着电子计算机的应用才逐渐引起注意,但最小二乘法便于解析,至今仍用得最广泛。 §3.线性参数最小二乘法 先举一个实际遇到的测量问题,为精密测定三个电容值:321,,x x x 采用的测量方案是,分别等权、独立测得323121,,,x x x x x x ,列出待解的数学模型。 1x =0.3 2x =-0.4 1x +3x =0.5

(完整版)第三章(多元线性回归模型)3-3答案

3.3 多元线性回归模型的检验 一、判断题 1、在线性回归模型中,为解释变量或者被解释变量重新选取单位(比如,元变换成千元),会影响t 统计量和 2R 的数值。( F ) 2、在多元线性回归中,t 检验和F 检验缺一不可。 ( T ) 3、回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。 ( F ) 4、多元线性回归中,可决系数2R 是评价模型拟合优度好坏的最佳标准。 ( F ) 二 、单项选择 1、在模型0112233t t t t t Y X X X ββββμ=++++的回归分析结果中,有462.58F =, 0.000000F p =的值,则表明 ( C ) A 、解释变量2t X 对t Y 的影响不显著 B 、解释变量1t X 对t Y 的影响显著 C 、模型所描述的变量之间的线性关系总体上显著 D 、解释变量2t X 和1t X 对t Y 的影响显著 2、设k 为回归模型中的实解释变量的个数,n 为样本容量。则对回归模型进行总体显著性 检验(F 检验)时构造的F 统计量为 ( A ) A 、1)ESS k F RSS n k =-- B 、(1)() ESS k F RSS n k -=- C 、ESS F RSS = D 、1RSS F TSS =- 3、在多元回归中,调整后的可决系数2R 与可决系数2 R 的关系为 ( A ) A 、2 2R R < B 、22R R > C 、22R R = D 、2R 与2R 的关系不能确定 4、根据调整的可决系数2R 与F 统计量的关系可知,当21R =时,有 ( C ) A 、F=0 B 、F=-1 C 、F →+∞ D 、F=-∞ 5、下面哪一表述是正确的 ( D ) A 、线性回归模型01i i i Y X ββμ=++的零均值假设是指1 10n i i n μ==∑ B 、对模型01122i i i i Y X X βββμ=+++进行方程显著性检验(即F 检验),检验的零假 设是0012:0H βββ=== C 、相关系数较大意味着两个变量存在较强的因果关系 D 、当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系 5、对于01122????i i i k ki i Y X X X e ββββ=+++++…,如果原模型满足线性模型的基本假设则 在零假设0j β=下,统计量??()j j s ββ(其中?()j s β是j β的标准误差)服从 (B )

Chapter2 非线性最小二乘法与数值最优化

第1章 非线性最小二乘法与数值最优化 变量之间的关系更多地表现为非线性特征。线性模型作为基础模型是非线性的近似,即任何非线性模型都可以通过线性模型来近似表达。比如,模型01x y e u ββ=++通过泰勒级数展开表述为 0000100101**01|()x x x x x y e x x u e x e x u x u βββββββ=≈+-+ =-++ =++ 模型201y x u ββ=++的线性近似表达式为 0010201010**01(2)|()22x x y x x x u x x x u x u βββββββ=≈+-+ =-++ =++ 例 1.1 利用Monte Carlo 模拟的方法观察线性模型对非线性模型的近似。 设DGP 为:y=10+0.2*exp(x)+u ,x 为[1,3]区间的均匀分布。利用线性模型与指数模型分别回归模型,并计算x 对y 的(平均)边际影响与(平均)弹性。(数据文件:nonlin ) 但线性模型对非线性模型的近似程度取决于高阶部分是否充分小。即使在样本内线性模型能够较好地拟合数据,也不能准确地体现变量的结构关系。非线性模型中,x 对y 的边际影响(或弹性)是变化的;而线性模型中,x 对y 的边际影响(或弹性)是常数。很多情况下,线性模型与非线性模型对边际影响或弹性的估计存在非常大的差异。另外,利用线性模型拟合非线性数据存在潜在的危险,即区间外预测会存在越来越大的误差。因此,正确设定模型的形式是进行准确推断和预测的重要环节。 对于一般的回归模型,如以下形式的模型, (,)f =+y X βu 1.1 OLS 一般不能得到其解析解。比如,运用OLS 方法估计模型(1.1),令S(β)表示残差平方和,即 2 211()[(;)]n n i i i i i S u y f ====-∑∑βX β 1.2 最小化S(β),即根据一阶条件可以得到 1 (;)()2[(;)]n i i i i f S y f =??=--=??∑X ββX β0ββ 以模型y x u γαβ=++为例,其一阶条件为 2011 0()1[]02i n x i i S y e ββββ=?=---=?∑β

第三节:多元线性相关与回归分析汇总

第三节 多元线性相关与回归分析 一、标准的多元线性回归模型 上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。只对某些多元回归分析所特有的问题作比较详细的说明。 多元线性回归模型总体回归函数的一般形式如下: t kt k t t u X X Y ++?++=βββ221 (7.51) 上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。 假设已给出了n个观测值,同时1?β,2?β…,k β?为总体回归系数的估计,则多元线性回 归模型的样本回归函数如下: t kt k t t e X X Y ++?++=βββ???221 (7.52) (t =1,2,…,n) 式中,e t 是Y t 与其估计t Y ?之间的离差,即残差。与一元线性回归分析相类似,为了进 行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。我们称这条假定为标准假定6。 二、多元线性回归模型的估计 (一)回归系数的估计 多元线性回归模型中回归系数的估计同样采用最小二乘法。设 ∑-=∑=22)?(t t t Y Y e Q 2221)???(kt k t t X X Y βββ-?--∑= (7.53) 根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1?β、2?β…,k β?的偏导数必须等于零。将Q对1?β、2?β…,k β?求偏导数,并令其等于零,加以整理后可得到以下k个方程式: ∑=∑+?+∑+t kt k t Y X X n βββ???221 ∑=∑+?+∑+∑t t kt t k t t Y X X X X X 2222221???βββ (7.54)

用Matlab进行最小二乘法线性拟合求传感器非线性误差灵敏度

%后面的为注释,红色部分代码需要根据实际情况更改 %最小二乘法线性拟合y=ax+b x=[0.5,1,1.5,2,2.5,3,3.5,4,4.5,5];%自变量 y=[191,321,442,565,686,819,930,1032,1153,1252];%因变量 xmean=mean(x);ymean=mean(y); sumx2=(x-xmean)*(x-xmean)'; sumxy=(y-ymean)*(x-xmean)'; a=sumxy/sumx2;%解出直线斜率a(即传感器灵敏度) b=ymean-a*xmean;%解出直线截距b z=((a*(x(1,10))+b-(y(1,10)))/(y(1,10)));%“10”是自变量的个数,z为非线性误差(即线性度) a b z %作图,先把原始数据点用蓝色"十"字描出来 figure plot(x,y,'+'); hold on % 用红色绘制拟合出的直线 px=linspace(0,6,50);%(linspace语法(从横坐标负轴起点0画到横坐标正轴终点6,50等分精度)) py=a*px+b; plot(px,py,'r'); 运行结果: a =236.9818 b =87.4000 另一种简单一点的方法:

%最小二乘法线性拟合y=ax+b x=[0.5,1,1.5,2,2.5,3,3.5,4,4.5,5];%自变量 y=[191,321,442,565,686,819,930,1032,1153,1252];%因变量p=polyfit(x,y,1); p 运行结果: p = 236.9818 87.4000

多元线性回归实例分析

多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为:毫无疑问,多元线性回归方程应该为: 上图中的 x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样)1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示: 点击“分析”——回归——线性——进入如下图所示的界面: 将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入)

如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于,当概率值大于等于时将会被剔除) “选择变量(E)" 框内,我并没有输入数据,如果你需要对某个“自变量”进行条件筛选,可以将那个自变量,移入“选择变量框”内,有一个前提就是:该变量从未在另一个目标列表中出现!,再点击“规则”设定相应的“筛选条件”即可,如下图所示: 点击“统计量”弹出如下所示的框,如下所示: 在“回归系数”下面勾选“估计,在右侧勾选”模型拟合度“ 和”共线性诊断“ 两个选项,再勾选“个案诊断”再点击“离群值”一般默认值为“3”,(设定异常值的依据,只有当残差超过3倍标准差的观测才会被当做异常值)点击继续。 提示: 共线性检验,如果有两个或两个以上的自变量之间存在线性相关关系,就会产生多重共线性现象。这时候,用最小二乘法估计的模型参数就会不稳定,回归系数的估计值很容易引起误导或者导致错误的结论。所以,需要勾选“共线性诊断”来做判断 通过容许度可以计算共线性的存在与否?容许度TOL=1-RI平方或方差膨胀因子(VIF): VIF=1/1-RI平方,其中RI平方是用其他自变量预测第I个变量的复相关系数,显然,VIF为TOL的倒数,TOL的值越小,VIF的值越大,自变量XI与其他自变量之间存在共线性的可能性越大。 提供三种处理方法: 1:从有共线性问题的变量里删除不重要的变量 2:增加样本量或重新抽取样本。 3:采用其他方法拟合模型,如领回归法,逐步回归法,主成分分析法。 再点击“绘制”选项,如下所示:

相关文档
最新文档