相关与回归分析

相关与回归分析
相关与回归分析

第九章相关与回归分析

通过本章的学习,我们应该知道:

1.如何判别相关关系

2.回归分析的基本假定

3.一元线性回归分析的内容

4.如何做多元线性回归分析

5.如何将非线性回归模型转换成线性模型

相关与回归分析是现代统计学中非常重要的内容,它在自然科学、管理科学和社会经济领域有着十分广泛的应用。本章从介绍相关分析与回归分析的基本概念与分类入手,以一元线性回归模型为基础,引出包括多元线性回归分析及非线性回归分析中模型识别、参数估计、模型检验与预测等内容。

在分析变量之间关系的时,常用的基本模型有两个,一是相关模型(correlation model),一是回归模型(regression model)。实践中到底使用哪种模型取决于研究者的研究目的和数据的收集方式和条件。在相关分析中,变量X 和Y 都被视为随机变量,),(Y X 服从二元分布;而回归分析中,变量x 不是随机变量,它被假定为一般变量,在事先选好的已知值中取值,变量Y 是随机变量,在变量x 的给定取值处有相应的观测值。例如,考虑太阳镜的日销售数量Y 与日最高气温X 之间的关系问题。如果我们随机地选择36天,

记录下这36天的太阳镜销售量和日最高气温),(i i Y X ,36,1 =i ,它们是来自二维总体(随机变量))

,(Y X 的独立同分布样本;在这种情况下,应用相关模型进行分析。另一情况是,假如研究者决定只在日最高气温=x 25、30、33、35、36、37、38、39、40℃的那些天收集数据,在日最高气温为上述事先设定的温度的那些天中随机地抽取36天,然后测量记录下相应的太阳镜日销售量,如在每一个日最高气温取值处,随机抽取4天进行测量记录;此时变量x 就不再是随机变量,变量Y 是随机变量,往往应用回归模型进行分析。有时这种区别并不是这么明显。

第一节 相关分析

一、相关关系的概念及分类

(一)相关关系的概念

无论是在自然界还是社会经济领域,一种现象与另一种现象之间往往存在着依存关系,当我们用变量来反映这些现象的特征时,便表现为变量之间的依存关系。如某种商品的销售额(y )与销售量(x )之间的关系、商品销售额(y )与广告费支出(x )之间的关系以及粮食亩产量(y )与施肥量(1x )、降雨量(2x ) 、温度(3x )之间的关系等。统计学的主要研究对象是随机变量,在多个变量的时候,至少有一个变量是随机变量,因此我们对变量之间关系的分析是随机变量之间的关系或随机变量与确定变量之间的关系。

变量之间的依存关系可以分为两种:一是函数关系,指变量之间保持的严格的、确定的关系。如圆的面积(S)与半径之间的关系可表示为S = π2

R ,当圆的半径R 的值取定后,其圆的面积也随之确定。二是相关关系,指变量之间保持着不确定的依存关系。即变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定,当变量x 取某个值时,变量y 的取值可能有几个或无穷多个。例如人的身高与体重这两个变量,一般而言是相互依存的,但它们并不表现为确定的函数的关系。因为制约这两个变量的还有其他因素,如遗传因素、营养状况和运动水平等,以至于同一身高的人可以有不同的体重,同一体重的人又表现出不同身高。变量间的这种不严格的依存关系就构成了相关与回归分析的对象。 (二)相关关系的分类

1. 按相关的程度可分为完全相关、不完全相关和不相关

当一个变量的变化完全由另一个变量所决定时,称变量间的这种关系为为完全相关关系,这种严格的

依存关系实际上就是函数关系。当两个变量的变化相互独立、互不影响时,称这两个变量不相关(与下面的不线性相关或线性无关不同),实际上,这里的不相关就是(概率中的)独立,即变量间没有任何关系。当变量之间存在不严格的依存关系时,称为不完全相关。不完全相关关系是现实当中相关关系的主要表现形式,也是相关分析的主要研究对象。

2. 按相关的方向可分为正相关和负相关

当一个变量随着另一个变量的增加(减少)而增加(减少),即两者同向变化时,称为正相关,例如家庭收入与家庭支出之间的关系,一般随着家庭收入的增加,家庭支出也会随之增加。当一个变量随着另一个变量的增加(减少)而减少(增加),即两者反向变化时,称为负相关,如产品产量与单位成本之间的关系,单位成本会随着产量的增加而减少。

3. 按相关的形式可分为线性相关和非线性相关

当变量之间的依存关系大致呈现为线性形式,即当一个变量变动一个单位时,另一个变量也按一个大致固定的增(减)量变动,就称为线性相关。当变量间的关系不按固定比例变化时,就称之为非线性相关。

上述的这些相关关系我们可以用图9.1来示意。

图9.1 相关关系分类示意图

4. 按研究变量的多少可分为单相关、偏相关和复相关

两个变量之间的相关,称为单相关。一个变量与两个或两个以上其他变量之间的相关,称为复相关。在复相关的研究中,假定其他变量不变,专门研究其中两个变量之间的相关关系时称其为偏相关。

变量之间的相关关系需要用相关分析方法来识别和判断。相关分析,就是借助于图形和若干分析指标(如相关系数)对变量之间的依存关系的密切程度进行测定的过程。

二、相关关系的识别

(一)散点图

识别变量间相关关系最简单的方法是图形法。所谓图形法,就是将所研究变量的观察值以散点的形式绘制在相应的坐标系中,通过它们呈现出的特征,来判断变量之间是否存在相关关系,以及相关的形式、相关的方向和相关的程度等。

【例9.1】在研究我国人均消费水平的问题时,把全国人均消费记为y,把人均国内生产总值(人均

GDP )记为x 。根据数据集01摘录样本数据(i i y x ,),i =1,2,……,9,如表9.1所示,问两者之间存在什么样的相关关系。

表9.1 我国人均国内生产总值与人均消费金额数据 单位:元

【解】根据表9.1,画出(i i y x ,),i=1,2,...,n 的散点图,见图9.2。

图9.2 反映相关关系的散点图

从上图中我们看到本例的样本数据(i i y x ,)大致分别落在一条直线附近,这说明变量x 与y 之间具有明显的线性相关关系。另外,所绘制的散点图呈现出从左至右的上升趋势,它表明x 与y 之间存在着一定的正相关关系,即随着人均GDP 的上升,人均消费金额也会增加。

图形法虽然有助于识别变量间的相关关系,但它无法对这种关系进行精确的计量。因此在初步判定变量间存在相关关系的基础上,通常还要计算相关关系的度量指标。下面我们缩小研究的范围,仅仅研究两个变量间的线性相关关系。两个变量间线性相关关系的度量指标有很多,应用最广泛的是相关系数。

(二)相关系数

相关系数是度量两个变量(现象)间线性关系强度的数量指标。我们先从直观上了解两个变量之间的相关系数ρ的基本思想,然后给出相关系数的一般的、正式的定义,再考虑在不知道总体精确分布的情况下,如何由样本估计相关系数ρ,最后给出相关系数是否等于0的检验方法。

1. 直线相关系数的设计思想

为了从直观上了解相关系数的设计思想,我们考虑二元离散总体比较简单的一种情形。设二元离散总体),(Y X 只有N 对可能的取值(i i y x ,),N i ,,1 =,且N y Y x X P i i /1),(===,由此可以计算出随机变量X 和Y 均值分别为X X E μ=)(和Y Y E μ=

)(,方差分别为2)(X X Var σ=和2

)(Y Y Var σ=。通过

点(X μ,Y μ)画两条平行于X 轴和Y 轴的直线,将散点图分成四个部分,见图9.3。

图9.3 (X μ,Y μ)分割散点图

分布在Ⅰ、Ⅲ部分的点有0))((>--Y i X i y x μμ,分布在Ⅱ、Ⅳ部分的点满足0))((<--Y i X i y x μμ,如果使得))((Y i X i y x μμ--为较大正值的点),(i i y x 占有了总体分布的大部分概率,则有

N y x Y i N

i X

i

/))((1

μμ

--∑=大于0,且取值较大,这时全部可能的取值点中,大多数都分布在Ⅰ、Ⅲ部分,

所以X 和Y 是正相关;如果使得))((Y i X i y x μμ--为较大负值的点),(i i y x 占有了总体分布的大部分概率,则有

N y x Y i N

i X

i

/))((1

μμ

--∑=小于0,且其绝对值较大,这时全部可能的取值点中,大多数都分布在Ⅱ、

Ⅳ部分,所以X 和Y 是负相关;如果使得))((Y i X i y x μμ--为较大正值的点和较大负值的点占有的总体分布的概率大致相等,则有

N y x Y i N

i X

i

/))((1

μμ

--∑=很小或近似为0,这时点不规则地(有时是均匀地)

散布在四个部分,所以X 与Y 不相关。因此

N y x Y i N

i X

i

/))((1

μμ

--∑=可用来衡量X 与Y 的相关方向与程

度,值大表示变量间关系密切,值小表示变量间关系不密切。但

N y x Y i N

i X

i

/))((1

μμ

--∑=的值与X 、Y 的

计量单位及X 、Y 自身的变异程度都有关,为了使不同总体的相关系数可以互相对比,将

))((1

Y i N

i X

i

y x μμ

--∑=除以X 与Y 的标准差X σ、Y σ以消除变量值大小和离差值大小不等的影响。这样得

到,

Y

X Y i N

i X

i

N

y x σσμμ

ρ?--=

∑=/))((1

.

在上述二元总体分布的假定下,

))((1

Y i N

i X

i

y x μμ

--∑=/N 正是X 和Y 的协方差),(Y X Cov 。

2.相关系数与Pearson 相关系数

受到上述设计思想的启发,将其一般化为一般二维随机变量(包括离散型和连续型)。设二维随机变量

),(Y X 有二元分布,它可以视为总体;如果变量X 和Y 的方差)(X Var 和)(Y Var 都大于0,则

)

()()

,(),(Y Var X Var Y X Cov Y X Corr =

(9.1)

称为变量X 和Y 的相关系数或总体相关系数,常常简记为ρ或XY ρ,其中)])([(),(EY Y EX X E Y X Cov --=为变量X 和Y 的协方差。可以证明:(1)1||≤ρ;(2)1||=ρ的充分必要条件是存在常数α和)0(≠β使得X Y βα+=以概率1成立。上述性质说明:

(1)相关系数ρ的取值范围是从-1到1;||ρ的大小揭示了变量X 和Y 间线性相关关系的强弱,变量间的线性相关关系程度随着||ρ的减小而减弱,1±=ρ时,变量X 和Y 之间具有完全线性关系

X Y βα+=,反之亦成立;0=ρ说明变量X 和Y 之间没有线性相关关系,称为不线性相关或线性无关。

(2)ρ的符号说明变量间的线性相关关系的方向,ρ大于0,X 和Y 正线性相关,ρ小于0,X 和

Y 负线性相关。

(3)相关系数是说明线性联系程度的,相关系数很小的变量间可能存在非线性联系,如图9.1的第三幅图的变量间相关系数的绝对值是很小的。

(4)需要注意的是,变量X 和Y 不线性相关与X 和Y 独立是两个不同的概念。如果X 和Y 独立,则必有X 和Y 不线性相关;但是若X 和Y 不线性相关,却不一定有X 和Y 独立,它们之间可能存在着非线性相关关系。然而,若),(Y X 服从二元正态分布,X 和Y 不线性相关和独立是等价的。

如果二维随机变量),(Y X 的概率分布完全知道,则变量X 和Y 的相关系数ρ可以由(9.1)式计算出来,这只是理想的情况,实际问题中,我们往往不知道要研究变量),(Y X 的概率分布,有时至多知道它们的分布类型,如仅知道服从二元正态分布,但分布中的参数却不清楚(如果),(Y X 的概率分布完全知道了,它们间的关系自然很清楚了,就不需要做什么相关分析了!

),这时将无法利用(9.1)式计算出相关系

数ρ。此时要得到变量X 和Y 的相关系数ρ,可以从总体),(Y X 中随机地抽取容量为n 的样本),(,),,(11n n Y X Y X ,

它们独立、同分布,和总体),(Y X 的分布相同,如何由该样本估计总体变量X 和Y 的相关系数ρ呢?变量X 和Y 间的相关系数ρ,可以由样本通过

∑∑∑===----=

n

i i

n

i i

n

i i i

Y Y X X

Y Y X X

R 1

2

1

2

1

)

()()

)(( (9.2)

进行估计。(9.2)式中的统计量R 是随机变量(注:相关系数ρ只是一个常数,不是随机变量),它是ρ的一致估计量(相合估计量)和渐进无偏估计量,称为样本相关系数。由于(9.2)式中的统计量R 是由英国统计学家皮尔逊(Pearson )提出的,所以也常称为Pearson 相关系数。(9.2)式可以化为以下形式

2

1

1

221

1

2

1

1

1

)()(∑∑∑∑∑∑∑=======---=

n

i i n i i n i i n i i n

i i

n i i n i i i Y Y n X X n Y X Y X n R (9.3)

(9.3)式在计算时较为简单,经常用于实际计算。该公式看上去复杂,但由于没有了“积差”,计算要简便得多,另外该公式也便于用计算器上的统计功能计算。把样本),(,),,(11n n Y X Y X 的观测值

),(,),,(11n n y x y x 代入(9.3)式即得相关系数ρ的估计值

2

1

1

221

1

2

1

1

1

)()(∑∑∑∑∑∑∑=======---=

n

i i n i i n i i n i i n

i i

n

i i n

i i i y y n x x n y x y x n r (9.4)

样本相关系数是根据样本观察值计算的,随着取样的不同,相关系数的值也会有所变化。 【例9.2】根据例9.1的资料,计算人均消费与人均国内生产总值的直线相关系数。 【解】利用Excel 表计算出公式(9.4)中所需要的有关数据,见图9.4,再带入公式计算:

图9.4 相关系数的计算表

()

()

9938

.028734

94547496961395433057667928734

6139520229985292

2

2

22

2=-??-??-?=

---=∑∑∑∑∑∑∑y y n x x n y x xy n r

3. 相关系数的检验

例9.2计算的Pearson 相关系数9938.0=r 相对于0来说已经相当大了,是否说明人均消费与人均国内生产总值之间线性相关呢?仅仅看这个数值是不能确定二者之间的线性相关关系的。不要忘了这个数值仅仅是基于9个样本点计算出来的,它要受到抽样误差的影响。为了说明抽样误差对Pearson 相关系数的影响,请考虑图9.5所给出的二元总体(图中给出了总体的全部取值),实际上这两个变量之间没有线性相关关系,总体相关系数0=ρ。假如现在从总体中抽取了一个随机样本,在图中用圆圈标出,这个样本显示所考虑的两个变量之间有很强的线性关系,根据这个样本观测值计算Pearson 相关系数为98.0=r 。在这种情况下,样本相关系数的值很大,但是两个总体变量却是独立的。因此总体的相关系数需要经过正式的假设检验,才能做出比较可靠、科学的判断和结论。在实际应用中,一般都是根据样本数据计算Pearson 相关系数,然后在对总体相关系数进行检验。

图9.5 从二元总体中抽取的一个随机样本

假定总体变量),(Y X 服从二元正态分布),,,,(ρσσμμY X Y X N ,),(,),,(11n n Y X Y X 是来自该总体的一个随机样本。要检验的假设为0:0=ρH ;0:1≠ρH (备择假设或者为0:1>ρH ,0:1<ρH )。 则检验统计量为

2

12R

n R t --=

(9.5)

这里R 为(9.2)或(9.3)式中的统计量,可以证明在原假设成立的条件下,(9.5)式的统计量t 服从自由度为

2-n 的t 分布。

计算检验的t 统计量21/2r n r t --=,然后,根据给定的显著性水平α和自由度2-n ,查t 分布表中的相应临界值2/αt ,若2/αt t ≥,就拒绝原假设,接受备择假设,认为总体相关系数ρ显著不为零,总体变量间确实存在线性相关关系;反之,则不能拒绝原假设。或者计算p 值)|(|0t T P H ≥,如果p 值小于显著性水平α,则拒绝原假设。若备择假设为0:1>ρH ,则当αt t ≥时,拒绝原假设,接受备择假设,否则不能拒绝原假设;若备择假设为0:1<ρH ,则当αt t -≤时,拒绝原假设,接受备择假设,否则不能拒绝原假设。

【例9.3】根据上例结果,检验在α=0.05的显著性水平下,人均消费额与人均国内生产总值是否具有线性相关关系。

【解】若取显著性水平05.0=α,查表得到临界值得:3646.2)29(2/=-αt , 检验统计量的值为:2

9938

.01299938.0--=

t =23.65

由于2/αt t >,所以否定原假设,接受备择假设,表明总体相关系数不为零,即人均国内生产总值与人均销售金额之间确实存在着线性相关关系。自己试着检验:人均消费额与人均国内生产总值是否具有正线性相关关系。

由(9.2)或(9.3)式可知,统计量R 是随机变量,它有自己的分布,但是R 的分布与总体),(Y X 的二元分布有关。另外,由(9.5)式可知,R 是t 的函数,因此可以从t 分布的分布密度推导出统计量R 的分布密度和分布函数,这里不再给出R 的分布密度表达式。本书附表九相关系数临界值表实际上就是统计量R 分布的临界值表。总体相关系数检验更简单的方法是,先计算Pearson 样本相关系数r ,然后再查相关系数临界值表,查表时,要根据备择假设的情况和2-n 与α,查出相应的临界值。

(1) 对备择假设0:1≠ρH ,若)2(2/-≥n r r α,则拒绝原假设,接受备择假设,否则不能拒绝原假设; (2) 对备择假设0:1>ρH ,若)2(-≥n r r α,则拒绝原假设,接受备择假设,否则不能拒绝原假设; (3) 对备择假设0:1<ρH ,若)2(--≤n r r α,则拒绝原假设,接受备择假设,否则不能拒绝原假设。

对于例9.3,9=n ,05.0=α;因为是双边检验,查得666.0)7()2(025.02/==-r n r α,由于|r|=0.9938>0.666,

故人均国内生产总值与人均销售金额之间确实存在着线性相关关系。

最后要给大家说明的是,线性相关关系与因果关系是不同的。相关系数很大未必表示变量间存在因果关系,也可能两个变量同时受第三个变量的影响而使它们有很强的相关。比如,人的肺活量与人的身高会呈现高度相关,其实肺活量和身高都受人的体重的影响,因此如果固定人的体重来研究肺活量与身高的关系,则会发现相关性很低。这涉及偏相关系数的计算。又如,我们计算1980-2004年期间某地猪肉销售量与感冒片销售量的相关系数,它可能很大,但这并不说明猪肉销售量与感冒片销售量之间有线性相关关系,因为它们都受这个时期人口增长因素的影响,把两个从逻辑上不存在联系的两个变量放在一起做相关分析,没有意义,在统计上称之为“虚假相关”。

第二节 一元线性回归分析

一元线性回归(linear regression )是描述两个变量之间相互联系的最简单的回归模型(regression model )。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在经济问题研究中的应用原理。本节将详细讨论一元线性回归的建模思想、最小二乘估计及其性质、回归方程的有关检验、预测和控制的理论及应用。

一、一元线性回归

在许多问题的研究中,经常需要研究某一现象与影响它的某一最主要因素之间的关系。譬如,在消费问题的研究中,影响消费的因素很多,但我们可以只研究国内生产总值与消费额之间的关系,因为它是影响消费的最主要因素;通常我们对所研究的问题首先要收集与它有关的n 组样本数据(i i y x ,),i=1,2,…,n 。为了直观地发现样本数据的规律,我们把(i i y x ,)看成是平面直角坐标系中的点,画出这n 个样本点的散点图。图9.2就是我国人均国内生产总值与人均消费的散点图,而随后计算出的相关系数为0.9938,经过检验表明人均消费Y 与人均国内生产总值x 之间有着密切的相关关系。为进一步探讨变量Y 与x 之间的统计规律性,我们用下面的数学模型来描述它。

εββ++=x Y 10 (9.6)

(9.6)式将问题中变量Y 与x 之间的关系用两个部分描述。一部分是由于x 的变化引起Y 线性变化的部分,即x 10ββ+;另一部分是由其他一切随机因素引起的,记为ε。(9.6)式表达了变量x 与Y 之间密切相关,但密切程度又没有到由x 唯一确定Y 的这种特殊关系。(9.6)式称为变量Y 对x 的一元线性回归总体模型。一般我们称Y 为被解释变量,或因变量(dependent variable );x 为解释变量,或自变量(independent variable )。式中10ββ和是未知参数,称它们为回归系数(regression coefficient)。ε表示其他随机因素的影响。在(9.6)式中一般假定ε是不可观测的随机误差,它是一个随机变量,通常假定ε服从期望为零、方差为2

σ的正态分布。在这个假定下,进一步有),(~2

10σββx N x Y +,它表示在x 给定时随机变量Y 也服从正态分布,且x x Y E 10)(ββ+=,2

)var(σ=Y 。

(9.6)式从平均意义上表达了变量Y 与x 的统计规律性。这一点在应用上非常重要,因为我们经常关心的正是这个平均值。如上例在消费Y 与国内生产总值x 的研究中,我们所关心的正是当国内生产总值达到某个水平时,人均消费能达到多少。由(9.6)式,只要估计出回归系数0β和1β就可以算出当x 已知时x Y E 10)(ββ+=的值。通常

x x Y E 10)(ββ+= (9.7)

称为一元线性回归方程,在图形上它表示一条截距为0β、斜率为1β的直线,这条直线称为一元线性回归直线。如果x=0,则0β是x=0时Y 概率分布的均值;1β表示x 每变动一个单位时Y 概率分布的均值的变化,即当x 每增加一个单位时,Y 平均变化1β个单位。回归分析的主要任务之一就是通过n 样本观察值

(i i y x ,),i=1,2, …,n ,对10,ββ和2

σ进行估计。一般用1

0?,?ββ和2

?σ分别表示10,ββ和2

σ的估计值;称 x Y 1

0???ββ+= (9.8) 为Y 关于x 的一元线性经验回归方程。

二、参数10ββ,的最小二乘估计

为了由样本数据得到回归参数10,ββ的估计值,我们将使用普通最小二乘估计(Ordinary Least Square Estimation ,简记为OLSE)。对每一个样本观察值(i i y x ,),最小二乘法的基本思想就是希望线性回归直线与所有样本数据点都比较靠近,即要观察值(Observed value)i y 与其期望值i i i x x x Y E 10)(ββ+==的差

)()(10i i i i i x y x x Y E y ββ+-==-越小越好(图9.6是这种思想的直观表现),为防止差值正负抵消,于是考

虑这n 个差值的平方和达到最小,即

∑=--=n

i i i x y Q 1

21010)(),(ββββ (9.9)

达到最小。所谓最小二乘法,就是求1

0?,?ββ使得 ()[]()[]2

1

10

1

2

1

10

min ),(min ??

∑∑==+-==+-n

i i i

n

i i

i

x y Q x y ββ

ββββ (9.10)

图9.6 一元线性回归示意图

求出(9.10)式中的0

?β和1?β是一个求极值点的问题,这只需求(9.9)式的关于0β和1β的二元函数∑=--=n

i i i x y Q 121010)(),(ββββ极小值点。

由于Q 是关于0β和1β的非负二次函数,因而它的最小值总是存在的。根据微积分中求极值的原理,让),(10ββQ 分别对0β和1β求偏导,且令这两个偏导等于0得

()[]()[]???????=+--=??=+--=??∑∑==02021101

1

100i n

i i i n

i i i x x y Q x y Q

ββββββ 经整理后,得正规方程组:

()()?????=+=+∑∑∑∑∑i

i i i i

i y x x x y x n 12

010)(ββββ 求解正规方程组,得:

()

∑∑∑∑∑∑∑---=--=2

22

1)

())((?x x y y x x x x n y x y x n i

i i

i i i

i i i β

x y n

x n

y i i

1

10

???βββ-=-=∑∑ (9.11) (9.11)式中的10?,?ββ称为10,ββ的普通最小二乘估计,简称10,ββ的OLSE 。可以证明,10,ββ的最小二乘估计10?,?ββ满足无偏性,即0

0)?(ββ=E ,11)?(ββ=E 。我们记i e 为实际观察值i y 与其估计值i

i x y 10???ββ+=的偏差,称为残差,即i i i y y e ?-=,∑=n

i i e 1

2称作残差平方和(Residual Sum of Square )。 把(9.11)式中关于1

?β的表达式和上节(9.4)比较易得

()

()

r y y n x x n i i i i =--∑∑∑∑1

2

222?β或()()

1

2

22

2?β=--∑∑∑∑r x x n y y n i i i i 。 回归系数的最小二乘估计1?β和总体相关系数的估计Pearson 相关系数r 具有上述关系式,从而可知1

?β和r

同号,这和我们的直觉也是一致的。事实上,可以证明总体相关系数ρ和线性回归直线的斜率1β具有关系1βσσ=r X

Y ,这里就不再推导了。

最后我们给出误差项的方差2

σ的无偏估计2

2

)(?2

2

^

2

-=

--=∑∑n e n y y i

i

i σ

,其平方根σ

?也称为估计标准误差,有时也记作yx S ,展开可得2

???102

---==∑∑∑n xy

y y

S yx ββσ

,在计算时有些情况下用它比较

简单。

【例9.4】根据例9.1的资料,建立人均消费与人均国内生产总值的回归方程。

【解】利用上述公式就可具体计算回归方程的参数。根据图9.4已经计算好的有关数据,带入公式(9.11)得:

()

4414.061395

433057667928734

613952022998529?2

2

21

=-??-?=

--=∑∑∑∑∑i i i i i i x x n y x y x n β =?-=-=∑∑9

613954414.0928734??1

n x n y

i i

ββ181.5830 所以,回归方程为:x y 4414.05830.181^

+=。

三、对一元回归方程的评价

获得经验回归方程

x y 10???ββ+=后,我们不能就用它去作分析和预测,因为

x y 10???ββ+=是否真正描述了y 与x 之间的统计规律,还需必须通过统计检验。一元线性回归模型的评价分为拟合优度检验和方程的显著性检验,它是利用统计学中的抽样理论来检验回归方程的可靠性。

(一)一元线性回归模型拟合优度的评价

所谓拟合优度(goodness of fit ),是指样本观测值聚集在样本回归线周围的紧密程度。判断回归模型拟合程度好坏的最常用的指标是可决系数2

R ,又称判定系数,它是建立在对总变差平方和进行分解的基础之上的。

我们把y 的n 个观察值之间的差异,用观察值i y 与其平均值y 的偏差平方和来表示,称为总离差平方和SST (total deviation sum of squares )

21

)(-

=-=∑y y SST n

i i (9.12)

将SST 分解成如下:

21

1

2

1

2

1

2

1

)?()?)(?(2)?()??()(y y y y y y y y y y y

y y y SST n

i i i i n i i i n i i i i n i i n i i -+--+-=-+-=-=∑∑∑∑∑===== 其中,

()()

0??1

=--∑=y y y

y

i n

i i i

(课后有时间自己证明哦!)这样有:

()()()

2

1

2

1

2

1

??∑∑∑===-+-=-n

i i n

i i i

n

i i

y y y

y

y

y

(9.13) 其中:

()

2

1

?∑=-n

i i

y y

称为回归平方和SSR (regression sum of squares )

,()∑=-n

i i i y y 1

2

?称为残差平方和SSE (residual sum of squares ),这样(9.13)即为:

总偏差 = 回归偏差 + 剩余偏差,简记为:SST= SSR + SSE ,若两边同除以SST 得:

1=+SST

SSE

SST SSR (9.14) 显然,在总的离差平方和中回归平方和所占的比重越大,则回归效果越好,说明回归直线与样本观察值拟合得好;如果残差平方和所占的比重大,则回归直线与样本观察值拟合得不理想。把回归平方和与总离差平方和之比定义为可决系数(coefficient of determination),又称判定系数,即:

()()

∑∑--=

=2

22

?y y y y

SST SSR R i

i (9.15)

可决系数是对回归模型拟合程度的综合度量,可决系数越大,回归模型拟合程度越高。2

R 表示全部偏差中有百分多少的偏差可由x 与y 的回归关系来解释。可决系数2

R 具有非负性,取值范围在0到1之间,它是样本的函数,是一个统计量。等价地,SST

SSE

R =

-2

1也可以作为反映回归直线与样本观察值拟合好坏的一个指标,不同于可决系数的是,其值小,说明回归方程的偏离度小,即回归方程的代表性好。

(二)一元线性回归方程的显著性检验

对线性回归模型的显著性检验包括两个方面的内容:一是对整个回归方程的显著性检验(F 检验),另一个是对各回归系数的显著性检验(t 检验)。就一元线性回归模型而言,上述两个检验是等价的。

1. 整个回归方程的显著性检验的步骤:

(1)提出假设:0:0=i H β;i H β:1不全为0; (2)这里的F 检验其实就是方差分析的内容,见表9.2;

表9.2 一元线性回归方程的方差分析表

(3)给定显著性水平α,确定临界值)2,1(-n F α;

(4)若F )2,1(-≥n F α,则拒绝0H ,说明总体回归系数01≠β,即回归方程是显著的。 2. 回归系数的显著性检验的步骤:

(1)提出假设:0:10=βH ;0:11≠βH ;

(2)t 检验的计算公式为:1

^

1

S t β=

,其中1S 是回归系数估计量1

?β的标准差 ∑-

-==2

1

1)

()?(x x S Var S yx

β (9.17)

(3)给定显著性水平α,确定临界值)2(2/-n t α;

(4)若)2(2/-≥n t t α,则拒绝0H ,接受备择假设,即总体回归系数01≠β;否则不能拒绝0H 。 设都是一样的。哦?

【例9.5】根据例9.1的资料,计算可决系数、估计标准误差,并对回归方程进行检验(α=0.05)。 【解】首先将每个x 代入回归方程x y 4414.05830.181^

+=,得到一个^

y 序列,再根据公式(9.15)、

(9.16)、(9.17)和σ

?=yx S 的公式,将有关数据带入计算,我们可以用Excel 辅助计算,见图9.7。

图9.7 计算检验回归方程统计量的辅助表

可决系数:()()

9876.000

.280941265

.2774636?2

22==

--==

∑∑y y

y y

SST

SSR

r i

i

估计标准误差:yx S =

4833.709073.49672

935

.347752

)(2

^

==-=

--∑n y y

i i

或:

44.707

40

.347352

9202299852

4414.028*******.181945474962

^1

^

2

==

-?-?-=

---=

∑∑∑n xy y y

S yx ββ

用计算机来算就没这个问题了。下面进行检验:

t 检验: 0187.0142414424833

.70)(2

1==

-=

-

x x S S yx

63.230187.04414.01

^

1==

=S t β α=0.05,365.2)7()2(025.02/==-t n t α, 因为2/63.23αt t >=,所以拒绝原假设0H ,接受备择假设,即总体回归系数01≠β。

或者做F 检验:

MSR=SSR=

()

2

1

?∑=-n

i i

y y

=2774636.65 ;

2-=n SSE

MSE =

9071.49672

935

.347752

)(1

2

^

=-=

--∑=n y y

n

i i

5122.5589071

.496765

.2774636===

MSE MSR F α=0.05,59.5)7,1()2,1(05.0==-F n F α;因为F=558.5122>)2,1(-n F α,所以拒绝原假设0H ,说明总体回归系数01≠β。

图9.8 “回归”分析工具对话框

图9.9 “回归”分析结果截图

四、一元回归方程的预测区间

建立回归模型的目的就是为了能够用它进行预测,经过检验的回归方程可以用以区间估计,所谓回归分析的预测区间(prediction interval )是指对于给定的x 值,求出y 的平均值的置信区间或y 的一个个别值的预测区间,如图9.10所示。

图9.10 回归分析的区间估计

当自变量给定要预测因变量时,先将0x x =代入公式(9.8),得0?y

。0?y 是对应于0x 的点估计值,但我们往往更希望能给出因变量的一个预测值范围。

1. Y 的平均值)(0y E 的置信区间估计

残差为)(0^

00y E y -=δ,0

δ服从正态分布。

0δ的期望是:0)()()]([)(0100100^

00=+-+=-=x x y E y E E ββββδ

0δ的方差是:?????

???????--+=-=∑=-

-n

i i x x x x n y E y E 1220220^00)()(1)]([)var(σδ 这部分的公式推导比较复杂,可以参阅计量经济学教材。

用2

yx s

替代2

σ,则0δ的标准差是:∑=-

-

--+=n

i i yx

x x x x n

s 1

2

200)()(1

)(δσ 则)(0y E 的1-α的置信区间为:)(02/^

0δσα?±t y ,即:

∑=-

-

--+?±n

i i yx

x x x x n s t y 1

2

202/^

0)()(1

α (9.18) 2. Y 的个别值0y 的置信区间估计 残差为0^

00

y y e -=,0e 服从正态分布。

0e 的期望是:0)]([)(][)(0100100^

00=++-+=-=εββββE x x y y E e E 0e 的方差是:)var()var(0^

00y y e -=;因为^

0y 与0y 相互独立,且:

)var()]([)var(020^

0^

0δ=-=y E y E y ;2000100)var()var()var(σεεββ==++=x y ∴ ?

????

???????--++=+????????????--+=+=∑∑=-

-

=--n i i n i i x x x x n x x x x n y y e 12202

22122020^00)()(11)()(1)var()var()var(σσσ 用2

yx s

替代2

σ,则的标准差是:∑=-

-

--++=n i i yx

x x x x n

s e 1

2

200)()(1

1)(σ

则0y 的1-α的置信区间为:)(02/^

0e t y σα?±,即:

∑=-

-

--++?±n i i

yx

x x x x n s t y 1

2

202/^

0)()(1

1α (9.19)

归纳两个预测区间的特点:首先由于)var()var(00e <δ,故总体均值的预测区间比个别值的预测区间

要窄;其次样本容量n 越大,则残差的方差越小,预测精度越高;最后在n 一定时,当预测点-

=x x 0时,残差的方差最小,预测区间最窄,离-

x 越远,残差的方差越大,预测区间越宽,预测可信度下降。

【例9.6】根据例9.1的资料,若2004年的人均GDP 为10000元,求人均消费95%的置信区间。 【解】将100000=x 代入回归方程得^

0y =181.5830+0.4414×10000=4595.5830(元) 查表得365.2)7(2/=αt ,其它数据参见图9.7,代入公式(9.18)和(9.19): Y 的平均值的95%的置信区间:

00.14241442)6667.682110000(914833.70365.2583.4595)()(12

1

2

2

02/^

0-+

??±=--+?±∑=-

-

n

i i yx

x x x x n

s t y α

570.4746~596.4444987.150583.4595=±=(元)

Y 的个别值的95%的置信区间:

00.14241442)6667.682110000(9114833.70365.2583.4595)()(112

1

2

2

02/^

0-+

+??±=--++?±∑=-

-

n

i i yx

x x x x n

s t y α

491.4820~675.4370908.224583.4595=±=(元)

第三节 多元线性回归分析

上一节主要介绍了涉及一个自变量和一个因变量的简单线性回归模型。实际生活中,客观现象非常复杂,现象之间的联系方式和性质各不相同。影响因变量变化的自变量往往不止一个,而是多个,因此有必要对一个因变量与多个自变量联系起来进行分析。本节将重点介绍多元线性回归模型及其基本假设、回归模型未知参数的估计及其性质、回归方程及回归系数的显著性检验等。

一、多元线性回归模型

(一)多元线性回归(multiple liner regression )模型的一般形式

εββββ+++++=p p x x x Y ......22110 (9.20)

式中,

p βββ,......,,10是p+1个未知参数,称为回归系数。Y 称为被解释变量(因变量)

,而p x x x ,......,,21是p 个可以精确测量并可控制的一般变量,称为解释变量(自变量)

。p=1时,(9.20)式即为上一节分析的一元线性回归模型,2≥p 时,我们就称(9.20)式为多元线性回归模型,这里ε

相关分析与回归分析的异同

问:请详细说明相关分析与回归分析的相同与不同之处 相关分析与回归分析都是研究变量相互关系的分析方法,相关分析是回归分析的基础,而回归分析则是认识变量之间相关程度的具体形式。 下面分为三个部分详细描述两种分析方法的异同: 第一部分:相关分析 一、相关的含义与种类 (一)相关的含义 相关是指自然与社会现象等客观现象数量关系的一种表现。 相关关系是指现象之间确实存在的一定的联系,但数量关系表现为不严格相互依存关系。即对一个变量或几个变量定一定值时,另一变量值表现为在一定范围内随机波动,具有非确定性。如:产品销售收入与广告费用之间的关系。 (二)相关的种类 1. 根据自变量的多少划分,可分为单相关和复相关 2. 根据相关关系的方向划分,可分为正相关和负相关 3. 根据变量间相互关系的表现形式划分,线性相关和非线性相关 4.根据相关关系的程度划分,可分为不相关、完全相关和不完全相关 二、相关分析的意义与内容 (一)相关分析的意义 相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向。 (二)相关分析的内容 1. 明确客观事物之间是否存在相关关系 2. 确定相关关系的性质、方向与密切程度 三、直线相关的测定 (一)相关表与相关图 1. 相关表 在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表。 2. 相关图

把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。 (二)相关系数 1. 相关系数的含义与计算 相关系数是直线相关条件下说明两个变量之间相关关系密切程度的统计分析指标。相关系数的理论公式为: y x xy r δδδ2= (1)xy 2δ 协方差 x δ x 的标准差 y δ y 的标准差 (2)xy 2δ 协方差对相关系数r 的影响,决定:???<>数值的大小正、负)或r r r (00 简化式 ()()2222∑∑∑∑∑∑∑-?--= y y n x x n y x xy n r 变形:分子分母同时除以2 n 得 r =???????????? ??-???????????? ??-?-∑∑∑∑∑∑∑2222n y n y n x n x n y n x n xy =()[]()[]2222y y x x y x xy -*-?-=y x y x xy δδ-?- n x x x ∑-=2)(δ=()[]n x x x x ∑+?-222=()222x n x x n x +??-∑∑ = () 22x x - 2. 相关系数的性质

相关与回归分析

第十二章相关与回归分析 社会学研究不满足于对单变量的分析,往往要求进一步分析双变量之间的关系,然后再拓展到分析多变量之间的关系。第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。 第一节变量之间的相互关系 1.相关程度与方向 从一定意义上讲,函数关系是相关关系的一个特例,即变量间严格一一对应,这是相关程度最强的一种相关关系,称为完全相关(perfect association)。而变量相关程度的另一个极端值是无相关(no association)或零相关(zero association),即变量之间不存在任何数量上的依存关系。相关程度介于两个极端值之间的则是不完全相关,相关关系大多指的是这种情况,这时变量间在数量关系上有着不很严格的相互依存关系。 在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r=l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0

相关分析与回归分析SPSS实现

相关分析与回归分析 S P S S实现 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS软件进行相关分析和回归分析,具体包括: (1)皮尔逊pearson简单相关系数的计算与分析 (2)学会在SPSS上实现一元及多元回归模型的计算与检验。 (3)学会回归模型的散点图与样本方程图形。 (4)学会对所计算结果进行统计分析说明。 (5)要求试验前,了解回归分析的如下内容。 ?参数α、β的估计 ?回归模型的检验方法:回归系数β的显着性检验(t-检验);回归方程显着性检验(F-检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。 线性回归数学模型如下: 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量和解释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检验包括一级检验和二级检验。一级检验又叫统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性,具体又可以分为拟和优度评价和显着性检验;二级检验又称为经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等。 三、试验演示内容与步骤

最新实验五 相关和回归分析

实验五相关和回归 分析

实验五相关和回归分析 相关分析是指对变量之间的相关关系进行描述与度量的一种分析方法,简单相关分析通常指对两变量间相关关系的研究,其目的是确定两个变量之间是否存在相关关系,并对其相关关系的强度进行度量,常用方法是考察两个变量的散点图和计算变量间的相关系数。 多元线性回归分析研究多个变量的数量伴随关系,内容主要包括模型的假定与检验、参数的估计与检验、回归诊断与预测。 很多非线性回归问题都可以转化为线性回归问题处理,如多项式回归、指数回归、对数回归、幂函数回归等。 5.1 实验目的 掌握使用SAS进行简单相关分析和多元线性回归分析及非线性回归分析的方法。 5.2 实验内容 一、用INSIGHT模块作简单相关分析与一元线性回归分析 二、用“分析家”作多元线性回归分析 三、使用REG过程作回归分析 四、一元非线性回归分析

5.3 实验指导 一、用INSIGHT模块作简单相关分析与一元线性回归分析 【实验5-1】比萨斜塔是一建筑奇迹,工程师关于塔的稳定性作了大量研究工作,塔的斜度的测量值随时间变化的关系提供了很多有用的信息,表5-1给出了1975年至1987年的测量值(sy5_1.xls)。表中变量“斜度”表示塔上某一点的实际位置与假如塔为垂直时它所处位置之偏差再减去2900mm。 表5-1 比萨斜塔的斜度 年份x 75 76 77 78 79 80 81 82 83 84 85 86 87 斜度y(1/10mm) 642 644 656 667 673 688 696 698 713 717 725 742 757 试分析y(斜度)关于年份x的相关关系,写出y关于x的线性回归方程,并利 用所建回归方程预测1988年时比萨斜塔的斜度值。 1. 数据的导入 首先将上表在Excel中处理后导入成SAS数据集Mylib.sy5_1,如图5-1所 示,其中x表示年份y表示斜度。 2. 制作散点图 制作斜度y与年份x的散点图,以便判断变量之间的 相关性。步骤如下: (1) 在INSIGHT中打开数据集Mylib.sy5_1。 图5-1 数据集Mylib.sy5_1 (2) 选择菜单“Analyze(分析)”→“Scatter Plot (Y X) (散点图)”。 (3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x, 如图5-2左所示。 (4) 单击“OK”按钮,得到斜度y与年份x的散点图,如图5-2右所示。 从散点图中可以看出,斜度y与年份x之间具有一定的线性关系。

相关分析和回归分析SPSS实现

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS软件进行相关分析与回归分析,具体包括: (1)皮尔逊pearson简单相关系数的计算与分析 (2)学会在SPSS上实现一元及多元回归模型的计算与检验。 (3)学会回归模型的散点图与样本方程图形。 (4)学会对所计算结果进行统计分析说明。 (5)要求试验前,了解回归分析的如下内容。 参数α、β的估计 回归模型的检验方法:回归系数β的显著性检验(t-检验);回归 方程显著性检验(F-检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数与模型进行检验与判断,并进行预测等。 线性回归数学模型如下: y i 01x i12x i2k x i k i 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: ???? y i 0 1x i12x i2k x i k e i 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释

最新实验五:相关与回归分析

实验五:相关与回归 分析

实验(实训)报告 项目名称相关于回归分析 所属课程名称统计学 项目类型综合 实验(实训)日期 2014-06-01 班级 12计算机2班 学号 120104200206 姓名陈玉洁 指导教师陈雄强 浙江财经大学教务处制

(3)建立直线(曲线)回归方程; (4)计算回归方程的估计标准误差和判定系数; (5)对方程进行解释和应用等 【实验(实训)过程】(步骤、记录、数据、程序等) 在国家统计局网站上找到浙江省GDP、浙江省城镇人均可支配收入、浙江省城镇人均消费性支出的相关数据。(目前提供:2002年-2012年的数据)并将其录入Spss中,如下图所示: 1.分别求人均可支配收入与GDP、人均消费性支出与GDP、人均可支配收 入与人均消费支出的相关系数。 方法:在Spss工具栏中选择:分析-相关-双变量-加入GDP,income。Paycome—确定,得到如下所示的图表: 2.画出人均可支配收入与人均消费支出的散点图,求人均消费支出倚人均可支配收入的直线回归方程,解释方程结果,并找出方程的估计标准误差。 方法:1)在Spss工具栏中选择:图表-散点图-选择income为x轴,payout 为y轴。(两种方法)-确定,得到如下所示的图表:

2)然后又在Spss工具栏中选择:分析-回归-线性-将payout放起上,income放下-确定,得到如下的表格: 输入/移去的变量b 模型输入的变量移去的变量方法 1 income a. 输入 a. 已输入所有请求的变量。 b. 因变量: payout 模型汇总 模型R R 方调整 R 方标准估计的误差 1 .996a.993 .99 2 385.79526 a. 预测变量: (常量), income。 Anova b 模型平方和df 均方 F Sig. 1 回归 1.778E8 1 1.778E8 1194.728 .000a 残差1339541.821 9 148837.980 总计 1.792E8 10 a. 预测变量: (常量), income。 b. 因变量: payout 系数a

回归分析与相关分析联系 区别

回归分析与相关分析联系、区别?? 简单线性回归分析是对两个具有线性关系的变量,研究其相关性,配合线性回归方程,并根据自变量的变动来推算和预测因变量平均发展趋势的方法。 回归分析(Regression analysis)通过一个变量或一些变量的变化解释另一变量的变化。 主要内容和步骤:首先依据经济学理论并且通过对问题的分析判断,将变量分为自变量和因变量,一般情况下,自变量表示原因,因变量表示结果;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;接着要估计模型的参数,得出样本回归方程;由于涉及到的变量具有不确定性,接着还要对回归模型进行统计检验,计量经济学检验、预测检验;当所有检验通过后,就可以应用回归模型了。 回归的种类 回归按照自变量的个数划分为一元回归和多元回归。只有一个自变量的回归叫一元回归,有两个或两个以上自变量的回归叫多元回归。 按照回归曲线的形态划分,有线性(直线)回归和非线性(曲线)回归。 相关分析与回归分析的关系 (一)相关分析与回归分析的联系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。 (二)相关分析与回归分析的区别 1.相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 2.在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。 3.相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因此,在具体应用过程中,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上展开定量分析。

最新实验相关与回归分析

实验相关与回归分析

实验二、相关与回归分析 一、实验目的及要求 掌握利用SPSS 10.0软件进行相关分析和回归分析的基本操作方法,理解SPSS 10.0软件给出的相关分析和回归分析结果。 二、实验内容 了解SPSS 10.0软件中Statistics菜单的Correlate子菜单的功能;利用SPSS 10.0软件进行简单相关分析;了解SPSS 10.0软件中Statistics菜单的Regression子菜单的主要功能;利用SPSS 10.0软件进行多元线性回归和一元非线性回归分析。 三、实验仪器、设备及材料 硬件环境:PC 软件环境:操作系统 Windows 系列 SPSS 10.0 四、实验原理 计量地理学中关于地理数据相关分析和回归分析的基本理论及SPSS 10.0软件操作指南。 五、实验步骤 §1.1利用SPSS进行相关分析

SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中, 他一般包括以下三个过程: ?Bivariate过程:此过程用于进行两个/多个变量间的相关分析,如果是多个变量,则给出两两相关的分析结果。 ?Partial过程:Partial过程专门用于进行偏相关分析。 ?Distances过程:该过程在实际应用中用的非常少。有兴趣的同学自己查阅。 1.1.1Bivariate过程 1.1.1.1界面说明 【Variables框】 用于选入需要进行相关分析的变量,至少需要选入两个。 【Correlation Coefficients复选框组】 用于选择需要计算的相关分析指标,有: ?Pearson复选框选择进行积距相关分析,即最常用的参数相关分析 ?Kendall's tau-b复选框计算Kendall's等级相关系数 ?Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关) 【Test of Significance单选框组】 用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。 【Flag significant correlations】

相关系数与回归分析

第八章相关与回归分析 114、什么叫相关分析? 研究两个或两个以上变量之间相关程度大小以及用一定涵数来表达现象相互关系的方法。 115、什么叫相关关系? 相关关系是一种不完全确定的依存关系,即因素标志的每一个数值都可能有若干结果标志的数值与之对应。 116、判定现象之间有无相关关系的方法有哪些? 判断现象之间有无相关关系,首先要对其作定性分析,否则很可能把虚假相关现象拿来作相关分析。相关表和相关图都是判定现象之间有无相关关系的重要方法。而相关系数主要是用来测定现象之间相关的密切程度的指标,估计标准误差是判定回归方程式代表性大小的指标。所以判断方法有客观现象作定性分析、编制相关表、绘制相关图。 117、什么叫相关系数? 测定变量之间相关密切程度和相关方向的指标。 118、相关系数有何特点? 参与相关分析的两个变量是对等的,不分自变量与因变量,因此相关系数只有一个。相关系数有正负号反映相关关系的方向中,正负瓜果正相关,负号反映负相关。计算相关系数的两个变量都是随机变量。 119、某产品产量与单位成本的相关系数是-0.8;(乙)产品单位成本与利润率的相关系数是-0.95;(乙)比(甲)的相关程度高吗? 相关系数是说明相关程度大小的指标,相关系数的取值范围在±1之间,相关系数越接近±1,说明两变量相关程度越高,越接近于0,说明相关程度越低。因此,(乙)比(甲)的相关程度高。 120、什么叫回归分析? 对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,已从一个已知量推算另一个未知量,为估计预测提供一个重要方法。 121、与相关分析相比,回归分析有什么特点? 两个变量是不对等的,必须区自变量与因变量;因变量是随机的,自变量是可以控制的;对于一个没有因果关系的两个变量,可以求得两个回归方程,一个是Y倚X的回归方程,另一个是X倚Y的回归方程。 122、回归方程中回归系数的涵义是什么? 回归系数表示:当自变量X每增减一个单位时,因变量Y的平均增减值。 123、当所有的观测值都落在直线y c=a+bx上时,则x与y之间的相关系数为多少?

相关分析与回归分析实例

相关与回归分析法探究实例 ——上海市城市居民家庭人均可支配收入与 储蓄存款关系的统计分析 系别经济系 专业金融学 学号 姓名 指导教师 2011年1月1日

上海市城市居民家庭人均可支配收入与储蓄存款关系的统计分析 摘要:随着中国经济的迅速发展,我国居民的消费水平不断提高,居民储蓄存款作为消费支出的重要组成部分,直接关系到国家对资金的合理使用。本文采用相关分析与回归分析方法,对上海市居民家庭人均可支配收入与储蓄存款进行了定量地分析,探求了二者之间的关系。所得结论对研究中国居民储蓄行为的规律具有一定的参考价值。 关键词:居民家庭人均可支配收入,储蓄存款,相关分析,回归分析 自经济体制改革以后,我国国民收入分配的格局发生巨大变化。变化之一是居民收入在国民收入中的比重迅速提高。这使居民的消费和储蓄行为对于经济发展有越来越重要的意义。居民储蓄存款是社会总储蓄的重要组成部分,也是推动经济增长的重要资源。居民储蓄的快速增长,是我国经济发展的重要资金来源,是改革开放顺利进行的重要保证。过度储蓄构成经济的一种潜在威胁甚至现实扭曲,它的负面影响也不容忽视。为了了解我国居民储蓄的现状,认真分析影响居民储蓄变动的主要因素——居民家庭人均可支配收入,本文采用了多元统计中的相关分析及回归方法,借助于SPSS,对1997—2009年上海市城市居民家庭人均可支配收入与储蓄存款进行了分析和评价。 1.选择指标,收集数据资料 西方经济学通行的储蓄概念是,储蓄是货币收入中没有用于消费的部分。这种储蓄不仅包括个人储蓄,还包公公司储蓄、政府储蓄。储蓄的内容有在银行的存款、购买的有价证券及手持现金等。在其他条件不变的情况下,个人可支配收入与居民储蓄是正比例函数关系,是居民储蓄存款增长的基本因素。本文遵循了可比性、可操作性等原则,指标记为年份分别为a1,a2,a3,……,a11,a12,a13;人均可支配收入分别为b1,b2,b3,……,b11,b12,b13;居民储蓄存款分别为c1,c2,c3,……,c11,c12,c13。本文研究所分析的数据资料来源于上海统计网——上海统计年鉴2010目录。 表8.13 主要年份城市居民家庭人均可支配收入 单位:元 1997 8 439 5 969 150 69 2 251 1998 8 773 6 004 98 57 2 614 1999 10 932 7 326 156 68 3 382 2000 11 718 7 832 120 65 3 701 2001 12 883 7 975 119 39 4 750 2002 13 250 7 915 436 94 4 805 2003 14 867 10 097 377 130 4 263 2004 16 683 11 422 507 215 4 539 2005 18 645 12 409 798 292 5 146 2006 20 668 13 962 959 300 5 447 2007 23 623 16 598 1 158 369 5 498 2008 26 675 18 909 1 399 369 5 998 2009 28 838 19 811 1 435 474 7 118 注:本表数据为城市居民家庭收支抽样调查资料,由国家统计局上海调查总队提供。

实验二、相关与回归分析

实验二、相关与回归分析 一、实验目的及要求 掌握利用SPSS 10.0软件进行相关分析和回归分析的基本操作方法,理解SPSS 10.0软件给出的相关分析和回归分析结果。 二、实验内容 了解SPSS 10.0软件中Statistics菜单的Correlate子菜单的功能;利用SPSS 10.0软件进行简单相关分析;了解SPSS 10.0软件中Statistics菜单的Regression子菜单的主要功能;利用SPSS 10.0软件进行多元线性回归和一元非线性回归分析。 三、实验仪器、设备及材料 硬件环境:PC 软件环境:操作系统Windows 系列 SPSS 10.0 四、实验原理 计量地理学中关于地理数据相关分析和回归分析的基本理论及SPSS 10.0软件操作指南。 五、实验步骤 §1.1利用SPSS进行相关分析 SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程: ?Bivariate过程:此过程用于进行两个/多个变量间的相关分析,如果是多个变量,则给出两两相关的分析结果。 ?Partial过程:Partial过程专门用于进行偏相关分析。 ?Distances过程:该过程在实际应用中用的非常少。有兴趣的同学自己查阅。 1.1.1Bivariate过程 1.1.1.1界面说明 【Variables框】

用于选入需要进行相关分析的变量,至少需要选入两个。 【Correlation Coefficients复选框组】 用于选择需要计算的相关分析指标,有: ?Pearson复选框选择进行积距相关分析,即最常用的参数相关分析 ?Kendall's tau-b复选框计算Kendall's等级相关系数 ?Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】 用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。 【Flag significant correlations】 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。 【Options钮】 弹出Options对话框,选择需要计算的描述统计量和统计分析: ?Statistics复选框组可选的描述统计量。它们是: 1.Means and standard deviations每个变量的均数和标准差 2.Cross-product deviations and covariances各对变量的交叉积和以及协方差阵 ?Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pair wise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases list wise)。默认为前者,以充分利用数据。 1.1.1.2 分析实例 计算SPSS自带的样本数据judges.sav中意大利法官(judge1)和韩国法官(judge2)得分的相关性。 由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman 相关系数。操作如下: 1.Variables框:选入judge1、judge2 2.Pearson复选框:选中 3.Spearman复选框:选中 4.单击OK钮

相关分析与回归分析实例doc资料

相关分析与回归分析 实例

相关与回归分析法探究实例 ——上海市城市居民家庭人均可支配收入与 储蓄存款关系的统计分析 系别经济系 专业金融学 学号 姓名 指导教师 2011年1月1日

上海市城市居民家庭人均可支配收入与储蓄存款关系的统计分析 摘要:随着中国经济的迅速发展,我国居民的消费水平不断提高,居民储蓄存款作为消费支出的重要组成部分,直接关系到国家对资金的合理使用。本文采用相关分析与回归分析方法,对上海市居民家庭人均可支配收入与储蓄存款进行了定量地分析,探求了二者之间的关系。所得结论对研究中国居民储蓄行为的规律具有一定的参考价值。 关键词:居民家庭人均可支配收入,储蓄存款,相关分析,回归分析 自经济体制改革以后,我国国民收入分配的格局发生巨大变化。变化之一是居民收入在国民收入中的比重迅速提高。这使居民的消费和储蓄行为对于经济发展有越来越重要的意义。居民储蓄存款是社会总储蓄的重要组成部分,也是推动经济增长的重要资源。居民储蓄的快速增长,是我国经济发展的重要资金来源,是改革开放顺利进行的重要保证。过度储蓄构成经济的一种潜在威胁甚至现实扭曲,它的负面影响也不容忽视。为了了解我国居民储蓄的现状,认真分析影响居民储蓄变动的主要因素——居民家庭人均可支配收入,本文采用了多元统计中的相关分析及回归方法,借助于SPSS,对1997—2009年上海市城市居民家庭人均可支配收入与储蓄存款进行了分析和评价。 1.选择指标,收集数据资料 西方经济学通行的储蓄概念是,储蓄是货币收入中没有用于消费的部分。这种储蓄不仅包括个人储蓄,还包公公司储蓄、政府储蓄。储蓄的内容有在银行的存款、购买的有价证券及手持现金等。在其他条件不变的情况下,个人可支配收入与居民储蓄是正比例函数关系,是居民储蓄存款增长的基本因素。本文遵循了可比性、可操作性等原则,指标记为年份分别为a1,a2,a3,……,a11,a12,a13;人均可支配收入分别为b1,b2,b3,……,b11,b12,b13;居民储蓄存款分别为c1,c2,c3,……,c11,c12,c13。本文研究所分析的数据资料来源于上海统计网——上海统计年鉴2010目录。 表8.13 主要年份城市居民家庭人均可支配收入 单位:元 1997 8 439 5 969 150 69 2 251 1998 8 773 6 004 98 57 2 614 1999 10 932 7 326 156 68 3 382 2000 11 718 7 832 120 65 3 701 2001 12 883 7 975 119 39 4 750 2002 13 250 7 915 436 94 4 805 2003 14 867 10 097 377 130 4 263 2004 16 683 11 422 507 215 4 539 2005 18 645 12 409 798 292 5 146 2006 20 668 13 962 959 300 5 447 2007 23 623 16 598 1 158 369 5 498 2008 26 675 18 909 1 399 369 5 998 2009 28 838 19 811 1 435 474 7 118 注:本表数据为城市居民家庭收支抽样调查资料,由国家统计局上海调查总队提供。 表8.10 居民储蓄存款(1997~2009)

相关分析和回归分析的区别

相关分析和回归分析的区别:1, 在相关分析中,解释变量X与被解释变量Y之间处于平等的位置。而回归分析中,解释变量与被解释变量必须是严格确定的。2 相关分析中,被解释变量Y与解释变量X全是随机变量。而回归,被解释变量Y是随机的,解释变量X可能是随机的,可能是非随机的确定变量。3 相关的研究主要主要是为刻画两变量间线性相关的密切程度。而回归不仅可以揭示解释变量X和被解释变量Y的具体影响形式,而且还可以由回归方程进行预测和控制。如果两变量间互为因果关系,解释变量与被解释变量互换位置,相关分析结果一样,回归分析结果不同。 样本回归函数与总体回归函数的区别: 1 总体是未知的,是客观唯一存在的。样本是根据样本数据拟合的,每抽取一个样本,变可以拟合一条样本回归线。 2 总体中的β0和β1是未知参数,表现为常数。而样本中的是随机变量,其具体数值随样本观测值的不同而变化。3 随机误差ui 是实际Yi值与总体函数均值E(Yi)的离差,即Yi与总体回归线的纵向距离,是不可直接观测的。而样本的残差ei是yi与样本回归线的纵向距离,当拟合了样本回归后,可以计算出ei的具体数值。一元的五个基本假定: 1 随机扰动项ui的均值为零,即E(ui)=0 2 随机扰动项ui的方差为常数Var(ui)=E[ui-E(ui)]^2=E(ui^2)=σ^2 3 任意两个随机扰动项ui和uj互不(i不等于j)互不相关,其其协方差为0 Cov(ui,uj)=0 4 随机扰动项ui与解释变量Xi线性无关 Cov(ui,Xi)=0 5 随机扰动项服从正态分布,即ui~N(0,σ^2) 样本分段比较法适用于检验样本容量较大的线性回归模型可能存在的递增或递减型的异方差性,思路是首先量样本按某个解释变量从大到小或小到大顺序排列,并将样本均匀分成两段,有时为增强显著性,可去掉中间占样本单位1/4或1/3的部分单位;然后就各段分别用普通最小二乘法拟合回归直线,并计算各自的残差平方和,大的用RSS1,小的用RSS2表示,如果数值之比明显大于1,则存在异方差 异方差性的后果:1 参数估计值虽然是无偏的,但却不是有效的。 2 参数的显著性检验失去意义。3 模型的预测失效: 一方面,由于上述后果,使得模型不具有良好的统计性质。另一方面,在预测值的置信区间也包含有随机误差项共同的方差σ^2。所以,当模型出现异方差,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测零度,预测功能失效。

统计学基础 第八章 相关与回归分析

统计学基础第八章相关与回归分析 【教学目的】 1.掌握相关系数的测定和性质 2.明确相关分析与回归分析的特点 3.建立回归直线方程,掌握估计标准误差的计算 【教学重点】 1.相关关系、相关分析和回归分析的概念 2.相关系数计算 3.回归方程的建立和依此进行估计和预测 【教学难点】 1.相关分析和回归分析的区别 2.相关系数的计算 3.回归系数的计算 4.估计标准误的计算 【教学时数】 教学学时为8课时 【教学内容参考】 第一节相关关系 一、相关关系的含义 宇宙中任何现象都不是孤立地存在的,而是普遍联系和相互制约的。这种现象间的相互联系、相互制约的关系即为相关关系。 相关关系因其依存程度的不同而表现出相关程度的差别。有些现象间存在着严格的数据依存关系,比如,在价格不变的条件下销售额量之间的关系,圆的面积与半径之间的关系等等,均具有显著的一一对应关系。这些关系可由数学中的函数关系来确切的描述,因而也可以认为是一种完全相关关系。有些现象间的依存关系则没有那么严格。当一种现象的数量发生变化时,另一种现象的数量却在一定的范围内发生变化,比如身高与体重的关系就是如此。一般来说,身高越高,体重越重,但二者之间的关系并非严格意义上的对应关系,身高1.75米的人,对应的体重会有多个数值,因为影响体重的因素不只身高而已,它还会受遗传、饮食习惯等因素的制约和影响。社会经济现象中大多存在这种非确定的相关关系。 在统计学中,这些在社会经济现象之间普遍存在的数量依存关系,都成为相关关系。在本章,我们主要介绍那些能用函数关系来描述的具有经济统计意义的相关关系。 二、相关关系的特点 1.现象之间确实存在数量上的依存关系 如果一个现象发生数量上的变化,则另一个现象也会发生数量上的变化。在相互依存的两个变量中,可以根据研究目的,把其中的一个变量确定为自变量,把另一个对应变量确定为因变量。例如,把身高作为自变量,则体重就是因变量。 2.现象之间数量上的关系是不确定的 相关关系的全称是统计相关关系,它属于变量之间的一种不完全确定的关系。这意味着一个变量虽然受另一个(或一组)变量的影响,却并不由这一个(或一组)变量完全确定。例如,前面提到的身高和体重之间的关系就是这样一种关系。 三、相关关系的种类 现象之间的相互关系很复杂,它们涉及的变动因素多少不同,作用方向不同,表现出来的形态也不同。相关关系大体有以下几种分类:

实验五相关分析与回归分析

一、问题描述 2016年1月12日 13:04 学习并使用SPSS软件进行相关分析和回归分析,具体包括: (1) 皮尔逊pearson简单相关系数的计算与分析 (2) 学会在SPSS上实现一元及多元回归模型的计算与检验。 (3) 学会回归模型的散点图与样本方程图形。 (4) 学会对所计算结果进行统计分析说明。 二、实验原理 2016年1月12日 13:13 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。 线性回归数学模型如下: 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量和解释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检验包括一级检验和二级检验。一级检验又叫统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性,具体又可以分为拟和优度评价和显著性检验;二级检验又称为经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等。 三、数据录入 2016年1月13日 20:05 有“连续变量简单相关系数的计算与分析_时间与成绩”数据文件,以此录入做相关分析:

相关分析和回归分析SPSS实现

相关分析和回归分析 S P S S实现 TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS软件进行相关分析与回归分析,具体包括: (1)皮尔逊pearson简单相关系数的计算与分析 (2)学会在SPSS上实现一元及多元回归模型的计算与检验。 (3)学会回归模型的散点图与样本方程图形。 (4)学会对所计算结果进行统计分析说明。 (5)要求试验前,了解回归分析的如下内容。 参数α、β的估计 回归模型的检验方法:回归系数β的显着性检验(t-检验);回归 方程显着性检验(F-检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数与模型进行检验与判断,并进行预测等。 线性回归数学模型如下: 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量与解释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检验包括一级检验与二级检验。一级检验又叫统计学检验,它是利用统计学的抽样理论来检验样本回归方程的可靠性,具体又可以分为拟与优度

第九章 相关与回归分析方法

第九章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( B )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( B )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( D )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( A )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( D )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均(A )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是(A )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( A )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( A )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量(A )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( B )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( C )。 A.变量之间的数量关系 B.变量之间的变动关系

相关文档
最新文档