多元线性相关与回归分析

多元线性相关与回归分

SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

第三节 多元线性相关与回归分析

一、标准的多元线性回归模型

上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系的问题。

研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。只对某些多元回归分析所特有的问题作比较详细的说明。

多元线性回归模型总体回归函数的一般形式如下:

t kt k t t u X X Y ++?++=βββ221

上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。

假设已给出了n个观测值,同时1?β,2?β…,k β?为总体回归系数的估计,则多元线性回归模型的样本回归函数如下:

t kt k t t e X X Y ++?++=βββ???221 (t =1,2,…,n)

式中,e t 是Y t 与其估计t Y ?之间的离差,即残差。与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。我们称这条假定为标准假定6。

二、多元线性回归模型的估计

(一)回归系数的估计

多元线性回归模型中回归系数的估计同样采用最小二乘法。设

∑-=∑=2

2)?(t t t Y Y e Q 2221)???(kt k t t X X Y βββ-?--∑=

根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1?β、2?β…,k β?的偏导数必须等于零。将Q对1?β、2?β…,k β?

求偏导数,并令其等于零,加以整理后可得到以下k个方程式:

∑=∑+?+∑+t kt k t Y X X n βββ???221 ∑=∑+?+∑+∑t t kt t k t t Y X X X X X 2222221???βββ ………

∑=∑+?+∑+∑t kt kt k kt t kt Y X X X X X 2221???βββ 以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到1?β、2?β…,k β?。

求解多元回归方程,用矩阵形式来表达较为简便1[1]。记

??????? ??=n y y y 21Y ??????? ??=kn 2n k 22k 21x x x x x x 11121X

??????? ??=n 21u u u U ??????? ??=k βββ 21Β ??????? ??=n y y y ????21 Y ??????? ??=k βββ????21 Β ??????? ??=n e e e 21e 则总体回归函数式可以写为:

Y =XB +U 样本回归函数式可以写为:

Y =X Β

?+e 标准方程组式可以写为: (X' X)Β

?=X' Y 式中X'表示X 的转置矩阵。(X'X)是一个k×k的对称矩阵,根据标准假定6,k个自变量之间不存在高度的线性相关,因此其逆矩阵存在。在式的两边同时左乘(X'X)-1,可以得到:

Β

?=(X'X)-1X'Y 上式是回归系数最小二乘估计的一般形式。

实际求解多元回归方程中的回归系数的估计值,通常需要依靠电子计算

机。在电子计算机技术十分发达的今天,多元回归分析的计算已经变得相当简单。利用现成的软件包如EXCEL 等,只要将有关数据输入电子计算机,并指定因变量和相应的自变量,立刻就能得到计算结果。因此,对于从事应用研究的人们来说,更为重要的是要能够理解输入和输出之间相互对应的关系,以及对电子计算机输出的结果做出正确的解释。

限于篇幅,这里不给出具体的数值计算实例。而在下一节中,我们将结合实际的例子,讲解如何利用EXCEL 进行多元线性回归分析。

(二)总体方差的估计

1[1] 这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以不必掌握这一部分内容。

除了回归系数以外,多元线性回归模型中还包含了另一个未知参数,那就是随机误差项的方差σ2。与一元回归分析相类似,多元线性回归模型中的σ2也是利用残差平方和除以其自由度来估计的。即有:

S2=k n e t

-∑2

上式中,n是样本观测值的个数;k是方程中回归系数的个数;在(k-1)元回归模型中,标准方程组有k个方程式,残差必须满足k个约束条件,因此其自由度为(n -k)。数学上可以证明,S2是σ2的无偏估计。S2的正平方根S 又叫做回归估计的标准误差。S越小表明样本回归方程的代表性越强。

在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算:

∑=2t e e'e =Y'Y - Β

'?X'Y 上式是残差平方和的矩阵形式。式中的“′”表示求转置;Y 是因变量样

本观测值向量;X 是自变量样本观测值矩阵;Β

'?是回归系数估计值向量的转置向量。

(三)最小二乘估计量的性质

与一元线性回归模型类似,多元线性回归模型中回归系数的最小二乘估计量也是随机变量。数学上可以证明,在标准假定条件可以得到满足的情况下,多元回归模型中回归系数最小二乘估计量的期望值同样等于总体回归系数的真值,即有:

E(B

?)=B 回归系数最小二乘估计量的方差、协方差矩阵为: Var(B

?)=E(B ?-B )(B ?-B )' =σ2(X'X )-1

该矩阵主对角元素是各回归系数估计量的方差E(j β?-βj )2,其他元素是各回归系数估计量之间的协方差E(j β?-βj ) (i β?-βi ) (i ≠j )。在此基础上,还可以进一步证明回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。也就是说,在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。 三、多元线性回归模型的检验和预测

(一)拟合程度的评价

在多元线性回归分析中,总离差平方和的分解公式依然成立。因此也可以用上一节所定义的决定系数作为评价模型拟合程度的一项指标。不过,为了避免混淆,多元回归的决定系数用R2表示。

利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。

R2=1- ∑-∑22)(Y Y e t t

由决定系数的定义可知,R2的大小取决于残差平方和∑2

t e 在总离差平方和∑

-2)Y Y t (中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不

会增加。因此,R2是自变量个数的非递减函数。 在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。因此,在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数2R 。 该指标的定义如下:

2R =1-∑---∑)1/()()

/(22n Y Y k n e t t =1-)()

(k n n --1(1-R2)2[2]

式中,n是样本容量;k是模型中回归系数的个数。(n-1)和(n-k)实际上分别是总离差平方和与残差平方和的自由度。

修正自由度的决定系数2R 具有以下特点:

1. 2R ≤R2。因为k≥1,所以根据2R 和R2各自的定义式可以得出这一

结论。对于给定的R2值和n值,k值越大2R 越小。在进行回归分析时,一般总是希望以尽可能少的自变量去达到尽可能高的拟合程度。2R 作为综合评价这两方面情况的一项指标显然比R2更为合适。 2. 2R 小于1,但未必都大于0。在拟合极差的场合,2R 有可能取负值。

【例7-9】假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=6,R2=;方程二中:k=2,R2=。试对这两个回归方程的拟合程度做出评价。

解: 如果仅从R2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入式,可得:

方程一的2R =1-((7-1)/(7-6))=

方程二的2R =1-((7-1)/(7-2))=

由此可见,方程二的实际拟合程度远远优于方程一。

(二)显着性检验

多元线性回归模型的显着性检验同样包括两方面的内容,即回归系数的显着性检验与回归方程的显着性检验。现分述如下:

1.回归系数的显着性检验

多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显着,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显着时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。

多元模型中回归系数的检验同样采用t检验,其原理和基本步骤与一元回归模型中的t检验基本相同,这里不再赘述。下面仅给出回归系数显着性检验t统计量的一般计算公式。

tj β?= j S j ββ?? j=1,2,…,k

2[2]对于不包含常数项的回归方程,该公式不适用。

式中,j β?是回归系数的估计值,Sj β?是j β?的标准差的估计值。Sj β?

按下式计算:

Sj β?=

jj S ψ?2

式中,jj ψ是(X'X)-1的第j个对角线元素,S2是随机误差项方差的估计值。式的t统计量背后的原假设是H0:βj =0,因此t的绝对值越大表明βj 为0的可能性越小,即表明相应的自变量对因变量的影响是显着的。

2.回归方程的显着性检验

多元线性回归模型包含了多个回归系数, 因此对于多元回归模型,除了要对单个回归系数进行显着性检验外,还要对整个回归模型进行显着性检验。由离差平方和的分解公式可知,回归模型的总离差平方和等于回归平方和与残差平方和的和。回归模型总体函数的线性关系是否显着,其实质就是判断回归平方和与残差平方和之比值的大小问题。由于回归平方和与残差平方和的数值会随观测值的样本容量和自变量个数的不同而变化,因此不宜直接比较,而必须在方差分析的基础上利用F检验进行。其具体的方法步骤可归纳如下:

(1)假设总体回归方程不显着,即有

H0:β2=β3=……=βk =0

(2)进行方差分析,列出回归方差分析表(见表7-3)

∑=Y n Y t /?的约束条件,因此其自由度是k-1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n-k 。 回归平方和与残差平方和各除以自身的自由度得到的是样本方差。

(3)根据方差分析的结果求F统计量,即

F=k)/(n-SS 1)

/(k-SS E R

数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。

(4)根据自由度和给定的显着性水平α,查F分布表中的理论临界值Fα。当F>Fα时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显着。当F<Fα时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显着,因而所建立的回归模型没有意义。

(三)多元线性回归预测

在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下:

kf k f f X X Y βββ????221+?++= 式中,X j f (j=2,3,……k)是给定的X j 在预测期的具体数值;j β?是已估计出

的样本回归系数;f Y ?是X j 给定时Y的预测值。

该方程的矩阵形式为: βX ??'

f f Y = ()

式中,

??????? ??=kf f f X X 21X

??????? ??=k βββ????21 β 多元线性回归预测标准误差的计算公式如下:

f

f ef S S X X X X 1'')(1-+= ()

式中,S 是回归方程估计的标准误差。

多元线性回归预测Yf 的(1-α)的置信区间可由下式给出:

Yf ±t α/2×ef S ()

式中,t α/2是显着水平为α的t 分布双侧临界值。

四、复相关系数和偏相关系数

在多变量的情况下,变量之间的相关关系是很复杂的,需要计算复相关系数与偏相关系数。

(一)复相关系数

样本复相关系数(以下简称复相关系数)的定义式如下:

R=∑∑∑----22)?()()?)((Y Y Y Y Y Y Y Y t t t t

上式与单相关系数的定义式十分类似,不同之处仅在于用根据

X 2,X 3,……,X K 等计算的回归估计值t Y ?代替了单相关系数定义式中的X t 。在所涉

及的变量只有两个时,因为t Y ?是X t 的严密函数,所以式完全等价于单相关系数的

定义式。而在多元分析的场合,以上定义的复相关系数的平方实际上就是多元线性回归方程的决定系数。

实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。应当指出:在多个变量的情况下,Y 与其他多个变量之间既可能有正相关又可能有负相关,所以复相关系数也就只取正值。因此,复相关系数只是反映一个变量Y 与其他多个变量X 2,X 3,……,X K 之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。

复相关系数的取值区间为:0≤R≤1。复相关系数为1表明Y 与

X 2,X 3,……,X K 之间存在严密的线性关系,复相关系数为0则表明Y 与

X 2,X 3,……,X K 之间不存在任何线性相关关系。一般情况下,复相关系数的取值在0和1之间,表明变量之间存在一定程度的线性相关关系。

(二)偏相关系数

在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。偏相关系数不同于上一节中所介绍的单相关系数。在计算单相关系数时,只需要掌握两个变量的观测数据,并不考虑其他变量对这两个变量可能产生的影响。而在计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其他变量,专门考察两个特定变量的净相关关系。在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关。可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。

在明确偏相关系数与单相关系数区别的基础上,我们再来讨论偏相关系数的定义公式。在上一节中,我们已经给出了样本单相关系数的定义公式

r=∑∑∑----2

2)()())((Y Y X X Y Y X X t t t t ()

样本相关系数的定义还可以从另一个角度给出。在进行相关分析时,对于所涉及的两个变量X和Y是同等看待的。若设

t t X Y 21???ββ+= ()

t t

Y X 21???αα+= () 则样本单相关系数也可定义为两个样本回归系数的乘积的开方,即: r= ±22??α

β () 上式中r的符号应与回归系数的符号一致。回归系数为正数时,r取正值;回归系数为负数时,r取负值。容易证明()式与()式是完全等价的。也就是说,单相关系数可以表现为两个回归系数的几何平均数。样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。

为简明起见,下面举3变量的偏相关分析为例。设有3个变量X 1、X 2和X 3。3个变量各自以另两个变量为自变量拟合的样本回归方程如下:

t

t t X X X 32.1323.1223.11????βββ++=

t t t X X X 31.2313.2113.22????βββ++= t t t X X X 21.3212.3112.33????βββ++=

以上各式中的第1项均为截距系数,表示当模型中的自变量取零值时因变

量的平均值。例如,23.1?β表示X 2、 X 3为0时X 1的平均值。式中其他的回归系数

称为偏回归系数,它们都有三个下标,在小圆点左边的下标为主下标,小圆点右边的下标为次下标。主下标表示所要考察的两个变量;次下标表示在考察上述两个变量的关系时,使其保持不变的变量。不难理解,偏回归系数表示:当

其他自变量保持不变时,某一自变量变化一个单位而使因变量平均变化的数

值。例如,3.12?β表示X 3保持不变时,X 2变化一单位而引起的X 1平均变化的数

值;1.32?β表示X 1保持不变时,X 2变化一单位而引起的X 3平均变化的数值。

利用以上偏回归系数,3个变量之间的偏相关系数可定义如下:

3.213.123.12??ββ±=r 2

.312.132.13??ββ±=r 1.321.231.23??ββ±=r

偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。

以上偏相关系数的定义可以推广到k个变量的场合。在进行实际的客观现象的定量分析时,人们所关心的通常是某一个因变量Y 与多个自变量之间的偏相关程度。这时若令Y 为X 1,则Y 与各自变量的偏相关系数的一般形式可表现

为:

=+-k j j j r ,),(),(,,,. 11321±k j j j k j j j ,),1(),1(,,3,2.1,),1(),1(,,3,2.1?? +-+-ββ

(j=2,3,),k

式中,k j j j ,),1(),1(,3,2.1? +-β是Y 对X j 的偏回归系数;

k j j j ,),1(),1(,3,2.1? +-β是X j 对Y 的偏回归系数。

k j j j r ,),1),(1,(,3,2.1 +-表示k个变量情况下Y 与X j 的偏相关系数,它反映其

他自变量保持不变时Y 与X j 的净相关程度。

多元线性回归分析范例

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,其中自变量单位为亿元人民币。即样本量n=31,变量p=12。 利用SPSS软件对数据进行处理,输出: 图1 输入/移除变量 图1即输入了所有模型中的变量,分别为 x1:农林牧渔服务业 x2:地质勘查水利管理业 x3:交通运输仓储和邮电通信业 x4:批发零售贸易和餐饮业 x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文化艺术和广播 x10:科学研究和综合艺术 x11:党政机关 x12:其他行业

图2 模型概述 即回归方程对样本观测值的拟合程度,复相关系数R=0.875,决定系数R 2=0.935。由决定系数接近1,得出回归拟合的效果较好,但是并不能作为严格的显著性检验。由R 2决定模型优劣时需慎重,尤其是样本量与自变量个数接近时。 图3 回归方程显著性的F 检验 F=10.482,F α(n,n-p-1)=F α(30,18)=2.11(α=0.05),P 值=0.000,表明回归方程高度显著,即12个自变量整体对因变量y 产生显著线性影响。但是并不能说明回归方程中所有自变量都对因变量y 有显著影响,因此还要对回归系数进行检验。 图4 回归系数的显著性t 检验(t 0.05(20)=1.725) y 对12个自变量的线性回归方程为: 1234 5678 9101112y 205.388 1.438 2.622 3.2970.9465.521 4.068 4.16215.40417.3389.15510.536 1.37x x x x x x x x x x x x =--++--++-++-+

多元线性回归分析预测法

多元线性回归分析预测法 (重定向自多元线性回归预测法) 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释

因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x1对y的偏回归系数;同理b2为固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b0为常数项,为回归系数,b1为固定时,x2每增加一 个单位对y的效应,即x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得

多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用

————————————————————————————————作者: ————————————————————————————————日期: ?

多元回归分析法的介绍及具体应用 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。 1. 多元线性回归的定义 说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 2. 多元回归线性分析的运用 具体地说,多元线性回归分析主要解决以下几方面的问题。 (1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们

回归分析概要(多元线性回归模型)

第二章 回归分析概要 第五节 多元线性回归分析 一 模型的建立与假定条件 在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。但是在现实生活中,一个被解释变量往往受到多个因素的影响。例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。 1. 多元线性回归模型的基本概念 如果一个被解释变量(因变量)t y 有k 个解释变量(自变量)tj x ,k j ,...,3,2,1=, 同时,t y 不仅是tk x 的线性函数,而且是参数0β和k i i ,...3,2,1=,β(通常未知)的线性函数,随即误差项为t u ,那么多元线性回归模型可以表示为: ,...22110t tk k t t t u x x x y +++++=ββββ ),..,2,1(n t = 这里tk k t t t x x x y E ββββ++++=...)(22110为总体多元线性回归方程,简称总体回归方程。 其中,k 表示解释变量个数,0β称为截距项,k βββ...21是总体回归系数。k i i ,...3,2,1=,β表示在其他自变量保持不变的情况下,自变量tj X 变动一个单位所引起的因变量Y 平均变动的数量,因而也称之为偏回归系数。 当给定一个样本n t x x x y tk t t t ,...2,1),,...,,(21=时,上述模型可以表示为: ???? ??? ???????????+++++=+++++=+++++=+++++=t tk k t t t k k k k k k u x x x y u x x x y u x x x y u x x x y ββββββββββββββββ (22110333223110322222211021112211101) 此时,t y 与tj x 已知,i β与t u 未知。 其相应的矩阵表达式为:

多元回归分析SPSS

多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。

设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b 0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x 1对y的偏回归系数;同理b2为固定时,x2每增加一 个单位对y的效应,即,x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b 0为常数项,为回归系数,b1为固定时,x2每增加 一个单位对y的效应,即x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b 0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自 变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之 因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b 0,b1,b2的数值。亦可用下列矩阵法求得

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

多元线性回归分析—内容提要与案例

多元线性回归分析—内容提要 1.多元线性回归的数学模型 【模型的理论假设】设p x x x ,,,21 是) 2 ( ≥p 个自变量(解释变量),y 是因变量,则多元线性回归模型的理论假设是 εββββ+++++=p p x x x y 22110,),0(~2σεN , 其中,p ββββ,,,,210 是1+p 个未知参数,0β称为回归常数,p βββ,,,21 称为回归系数,),0(~2σεN 为随机误差. 【模型的建立】求p 元线性函数 p p x x x Ey ββββ++++= 22110 的经验回归方程 p p x x x y ββββ?????22110++++= , 其中,y ?是Ey 的统计估计,p ββββ?,,?,?,?210 分别是,,,,,210p ββββ 的统计估计,称为经验回归系数. 【模型的数据结构】设对变量向量y x x x p ,,,,21 的n 次观测得到的样本数据为 ),,,,(21i ip i i y x x x ,) 1 ( ,,2,1 +>=p n i .为了今后讨论方便,我们引进矩阵 ??????? ??=n y y y y 21,??????? ??=np n p p x x x x x x X 1221111111,?????? ? ??=p ββββ????10 ,????? ?? ??=n εεεε 21 于是,多元线性回归模型的数据结构为 εβ+=X y 称为多元样本回归方程,其中n p X rank <+=1)(,) ,(~21n n n n I O N ??σε且各个i ε相互独立. 由于矩阵X 是样本数据,X 的数据可以进行设计和控制,因此,矩阵X 称为回归设计矩阵或资料矩阵. 注释 对多元线性回归模型理论假设的进一步说明:

SPSS多元线性回归分析实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method 选择Stepwise.

进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue.

3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。 1. 多元线性回归的定义 说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 2. 多元回归线性分析的运用 具体地说,多元线性回归分析主要解决以下几方面的问题。 (1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它

多元线性回归模型案例分析.doc

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

多元线性回归分析

多元线性回归分析 为了研究两个变量之间的关系,最简单的方法是绘制散点图。就是把一个因素作为自变量x ,另一个因素作为因变量y ,将它们成对的观察值标在直角坐标图上,判断出各点分布是呈直线还是曲线,从而看出它们之间存在着怎样的关系,以上方法是解决两个变量之间的相关关系问题,然而,客观事物的变化往往受到多种因素的影响,即使其中一个因素起着主导作用,但有时其他因素的作用也是不可忽视的,这种对多因素的相关和回归,称为多元相关和回归因素分析,运算机理可以通过下面计算表示: 设影响因变量y 的自变量因素共有k 个:12,,,k x x x ,通过实验得到下列n 组观察值:(12,,,k x x x ,t y ), t=1,2,3 …n 。 一般地,如果因变量y 与解释变量12,,,k x x x 之间服从如下干系: 01122k k y b b x b x b x u =+++++ (4-1) 则对因变量y 及解释变量12,,,k x x x 作n 次观测后,所得到n 组观测样本 (t y ,12,,,t t k t x x x )(t=1,2, …,n)将满足如下关系: 01122 t t t k k t t y b b x b x b x u =++++ + (4-2) 这就是多元线性回归模型的一般形式。(t y ,12,,,t t k t x x x )(t=1,2,…,n)为第t 次观测样本,j b (j=0,2,…,k )为模型参数,t u 为随机误差项。 模型中的回归系数j b (j=0,2,…,k )就表示当其他解释变量不变的条件下,第j 个解释变量的单位变动对因变量均值的影响,多元线性回归模型中这样的回归系数,称为偏回归系数。 将n 次观测样本所遵从的n 个随机方程式(4-2)写成方程组形式,有: 1011122111k k y b b x b x b x u =+++++ 201 12 2 22 2 k k y b b x b x b x u =+++++ (4-3) …… …… …… 01122 n n n k k n n y b b x b x b x u =++++ + 其中,随机误差u 满足: ()0j E u = ()2 j V a r u σ = (4-4) (),0,j k C o v u u j k = ≠

多元线性回归分析案例

SPSS19.0实战之多元线性回归分析 (2011-12-09 12:19:11) 转载▼ 分类:软件介绍 标签: 文化 线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1 数据导入与定义 单击“打开数据文档”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。 图1-1 导入数据 导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“ ”-->“ ”将所选的变量改为数值型。如图1-2所示:

图1-2 定义变量数据类型 1.1.2 数据清理 数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示: 图1-3缺失值分析

表1-1 能源消耗量与产量数据缺失值分析 SPSS提供了填充缺失值的工具,点击菜单栏“ ”-->“ ”,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。 1.1.3 描述性数据汇总 描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。 SPSS提供了详尽的数据描述工具,单击菜单栏的“ ”-->“ ”-->“ ”,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。

多元线性回归方法介绍

多元线性回归方法介绍 回归分析主要研究因变量与自变量的关系,因变量是随机变量,自变量是因素变量,是可以加以控制的变量。多元回归分析一般解决以下问题:第一,确定因变量与多个因素变量之间联系的定量表达式,通常称为回归方程式或数学模型,并确定它们联系的密切程度;第二,通过控制可控变量的数值,借助于球而出的数学模型来预测或控制因变量的取值和精度;第三,进行因素分析,从影响因变量变化的因素中寻找出哪些因素对因变量的影响最为显著,哪些因素不显 著,以区别主要因素和次要因素。 在操作过程中,需要列出影响Y 的多个因素与Y 之间的关系方程。一般地,设因变量Y 于k 个自变量X1,X2,……,XK线性相关: Y=B0+ B1X1+ B2X2+ … + B k X k+ε(1) 其中Y 为可观察的随机变量,X1,X2,…,Xk为可观察的一般变量,B0,B1,B2,…,Bk为待定模型参数,其中B0为截距,ε为不可观测的随机误差。有n组独察的样本数据(yi,x i1,…,xik),i=1,2,…,n,带入方程(1)中,有: y i= b0+ b1x i1+ b2x i2+ … + b k x ik+ e i i=1,2,…, n其中n 个随机变量ei相互独立且服从同一正态分布Nor(0,σ2)。根据最小二乘原则,求B0,B1,B2,…,Bk的估计值b0,b1,…,bk,使上式的误差平方和 ∑(ei)2=∑[y i-(b0+b1x i1+b2x i2+…+b k x ik)]2最小,为此,分别将上式对b0,b1,…,bk求偏导数,令其等于0,当x1,x2,…,xk相互独立时,由极值原理, 可求出总体回归系数矩阵B 总体=[B0,B1,B2,…,Bk]T 的估计值矩阵B样本=[b0,b1,…,bk] T :B样本=(X T X) -1 X T X进而得到回归方程: y=b0+b1x1+b2x2+…+b k x k 本文将依据上述原理对后面的变量关系进行回归分析。

SPSS多元线性回归分析教程

线性回归分析的SPSS操作 本节内容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。 一、一元线性回归分析 1.数据 以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。数据编辑窗口显示数据输入格式如下图7-8(文件7-6-1.sav): 图7-8:回归分析数据输入 2.用SPSS进行回归分析,实例操作如下: 2.1.回归方程的建立与检验 (1)操作 ①单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x选入到自变量(Independent)框中。在方法即Method一项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。具体如下图所示:

图7-9 线性回归分析主对话框 ②请单击Statistics…按钮,可以选择需要输出的一些统计量。如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。Model fit项可输出相关系数R,测定系数R2,调整系数、估计标准误及方差分析表。上述两项为默认选项,请注意保持选中。设置如图7-10所示。设置完成后点击Continue返回主对话框。 图7-10:线性回归分析的Statistics选项图7-11:线性回归分析的Options选项 回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。由于此部分内容较复杂而且理论性较强,所以不在此详细介绍,读者如有兴趣,可参阅有关资料。 ③用户在进行回归分析时,还可以选择是否输出方程常数。单击Options…按钮,打开它的对话框,可以看到中间有一项Include constant in equation可选项。选中该项可输出对常数的检验。在Options对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则,这里我们采用系统的默认设置,如图7-11所示。设置完成后点击Continue返回主对话框。 ④在主对话框点击OK得到程序运行结果。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千 克 X/元 - P 1/(元/ 千克) P 2/(元/千克) P 3/(元/千克) 1980 397 1992 — 911 1981 413 《 1993 931 1982 439 · 1994 1021 1983 ) 459 1995 1165 : 1984 492 1996 1349 | 1985 528 1997 % 1449 1986 560 , 1998 1575 1987 624 * 1999 1759 1988 * 666 2000 1994 ) 1989 717 2001 2258 ) 1990 768 2002 ! 2478 1991 843 , (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下:

输出结果如下: 所以,回归方程为: ] 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响, 而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显著。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: ,

多元线性回归分析

摘要:中国是一个农业大国,几千年传统的原始落后的农耕社会使得中国的农业发展滞后于全社会经济的发展。新世纪中国发展的关键在于解决九亿农民的发展问题,其实质就在于提高农民的实际收入。建立投资额模型,研究某地区实际投资额与国民生产总值( GNP ) 及物价指数( PI ) 的关系,根据对未来GNP及PI的估计,预测未来投资额。以下是地区连续20年的统计数据,为了增加数据可比性,投资额和国民生产总值是以第一年为基期将数据换算后的。 : 关键词:投资额国民生产总值物价指数 1实验目的 掌握运用eviews软件进行多元回归分析的基本操作方法和步骤,并能够对软件运行结果进行解释。 2变量选择 建立投资额模型,研究某地区实际投资额与国民生产总值( GNP ) 及物价指数( PI ) 的关系,根据对未来GNP及PI的估计,预测未来投资额。以下是地区连续20年的统计数据,为了增加数据可比性,投资额和国民生产总值是以第一年为基期将数据换算后的。

下面是进行简单的多元回归: Dependent Variable: Y Method: Least Squares Date: 11/05/15 Time: 20:32 Sample: 1994 2013 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. X1 0.636132 0.068555 9.279108 0.0000 X2 -892.3898 127.2399 -7.013442 0.0000 C 334.7074 47.71633 7.014525 0.0000 R-squared 0.991022 Mean dependent var 234.8000 Adjusted R-squared 0.989965 S.D. dependent var 125.7070 S.E. of regression 12.59240 Akaike info criterion 8.041544 Sum squared resid 2695.663 Schwarz criterion 8.190904 Log likelihood -77.41544 Hannan-Quinn criter. 8.070701 F-statistic 938.2299 Durbin-Watson stat 0.828098 Prob(F-statistic) 0.000000 各个解释变量都都用过了t检验,总体也通过了F检验。 第二次作业 五、异方差的诊断与修正 1)图形检验法 首先,产生序列。e 2=resid^2

多元线性回归分析

4 关于公共租赁住房租金价格定价研究 摘要:公共租赁房在实施过程中仍然存在不少问题,如定价机制不合理、准入机 制不健全等问题,公共租赁房定价的高低是住房保障性的直接体现,是保障性资源能够切实满足中低收入住房困难家庭的关键因素。针对公共租赁房定价对公共租赁房政策的重大影响,本文将运用多元线性回归分析,研究影响我国城市公共租赁房租金形成的因素,进一步完善我国城市公共租赁房住房租金标准制定方面的对策。 关键词:公共租赁房租金定价影响因素多元线性回归 每个城市在制定公共租赁房租金水平时,政府必然会综合考虑当地的多方面的影响因素。由于每个城市的经济水平的差异化,在租金设置上“一刀切”的现象会影响中低等收入人群,使得需要保障的人群并没有得到保障,本文将从以下 几点进行研究影响公共租赁房的定价因素。 1.潜在宏观影响因素分析 1.1 地方生产总值对租金影响 生产总值(GDP)在分析衡量一个国家或地区的国民经济发展现实情况时是所有宏观经济指标里最重要的数据。很大程度上说明了经济发展的状况,而住房租金与地方经济发展密切相关。因此我们需要研究城镇公租房租金价格定价的时候,考虑到租赁住房的需求和供给都与地方经济发展有很大的关系,对城镇房屋租赁价格的研究而言,GDP 对其的影响是首当其冲应该被考虑的因素。 1.2 地方财政收入对租金影响 地方财政收入代表了一个地方政府的财力状况和地方税收收入情况。而因为我国土地财政盛行,一个地方的财政收入大小可以反应地方政府对房地产行业发展态度的侧面,并且税收收入多则说明该地区国民经济发展良好,进一步说国民经济发展良好的地区城市化进度一般较快。因此,考虑研究地方财政收入对城市租金的影响作用。 1.3 房价对租金影响 房屋租赁价格是其所有者房屋这种商品在一个时间段内的使用权出售给承租者所获取的金钱价值。有学者断言,房屋租金价格是房地产价格的另一种表现方式。因此,在这认为租金价格与房地产价格是存在一定关联的。 1.4 房地产固定投资对租金影响 从表面上看,房地产业的固定资产投资金额大,新增房屋数量的存在,理论

多元线性回归模型原理

研究在线性关系相关性条件下,两个或者两个以上自变量对一个因变量,为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上为复杂需借助计算机来完成。 计算公式如下: 设随机y与一般变量N,X2,…X k的线性回归模型为: y「° Ei 》2 Zk 其中I。,1,…鼻是k T个未知参数,:0称为回归常数,「,…“称为回归系数; y称为被解释变量;X[,x2,…x k是k个可以精确可控制的一般变量,称为解释变量。 当p =1时,上式即为一元线性回归模型,k _ 2时,上式就叫做多元形多元回归 模型。;是随机误差,与一元线性回归一样,通常假设 E( >0 var( 0 _'2 同样,多元线性总体回归方程为y x X X. 0 1 1 2 2 k k 系数\表示在其他自变量不变的情况下,自变量乂[变动到一个单位时引起的因变量y 的平均单位。其他回归系数的含义相似,从集合意义上来说,多元回归是多维空间上的一个平面。 多元线性样本回归方程为:7 = ? ■ ?X …* ? X, 0 1 1 2 2 k k 多元线性回归方程中回归系数的估计同样可以采用最小二乘法。由残差平方和 : SSE =為(y-?)=0 根据微积分中求极小值得原理,可知残差平方和SSE存在极小值。欲使SSE达到 最小,SSE对],「…乙的偏导数必须为零。 0 1 k 将SSE对、,],…込求偏导数,并令其等于零,加以整理后可得到k ? 1各方程 (y-?)X j = 0

-SSE 式: 2(y y) - 0 -SSE

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理 差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 丫 = 十卩?十£ 毫无疑问,多元线性回归方程应该为: Y = 0十艮&十角兀2 +…十£ 上图中的x1, x2, xp分别代表自变量” xp截止,代表有P个自变量,如果有“N组样本, 那么这个多元线性回归, 将会组成一个矩阵,如下图所示: 记n组样本分别是心…,备= 12…?丹)■令 r = yi ■ ■ * <1 1 ■ w 工|1 X2I 兀12 X22 * ?t v ] 厂A? A ■ ■ ■■ £ 二 &2 1儿J J…兀即丿 其中:代表随机误差,其中随机误差分为:可解释的误差 差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 2 :无偏性假设,即指:期望值为0 3 :同共方差性假设,即指,所有的随机误差变量方差都相等 4 :独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据 为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示: 那么,多元线性回归方程矩阵形式为: 和不可解释的误1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。

sales nestle type price eng:ine_s horsepow wheelbas width length curt 16 91? 16.360 0 21.5D0 1.8 140 101.2 673 172.4 39 384 19675 0 28.400 3.2225108 1 70 3 192.9 14.1 U 18.225 0 + 3.2 225106.9 70.5 192.0 8 58& 29 725 0 42 000 35 210 114 6 71.4 196 6 20.397 22255 0 23.990 1.8 150 102.S 69.2 178.0 13.780 23.555 0 33 950 2 8 200 1087 76.1 192.0 1 380 39 000 0 62.000 4.2310 113 0 74 0 1982 19 747 -0 26.990 2.5170 107.3 68.4 1760 9 231 2S675 0 33 400 28 193 107 J 63 5 176 0 17 637 36.125 0 38.900 2.8 193 111.4 70.9 188.0 91 561 12 475 0 21 975 3.1 175 109 0 72 7194 6 39.360 13 740 0 25.300 3 8 240 109.0 72 71962 27.851 20 190 0 31.965 3.8 205 113 8 74.7 2068 33257 13 360 0 27.8 S5 3 6 205 1122 73 5 200.0 6372& 22 525 0 39.B95 4.6 275 115.3 74.5 2072 16 943 27.100 0 44 475 46 275 112.2 75 0 201 0 6.536 25 725 0 39.665 4.6 275 108.D75.5 2006 11 185 18 225 0 31.010 3 0 200 1074 70.3 194.a 14 78S - 1 46.226 5.7 255 117.5 77.0 201.2 U5.51& 9 250 0 13.260 2.2 115 104.1 67 9 ieo9 135 126 11 225 0 16 535 3.1 170 107 0 694 190.4 24.62& 10310 0 18.890 3.1 175 107.5 72.S 2009 42.S93 11 525 Q 19 390 34 130 110 5 72 1197.9 点击分析回归——线性——进入如下图所示的界面:

相关文档
最新文档