武汉市PM2.5影响因素多元回归分析

武汉市PM2.5影响因素多元回归分析
武汉市PM2.5影响因素多元回归分析

武汉市PM2.5影响因素多元回归分析

摘要

本文对武汉市2013 年1 月—2013 年8 月PM2.5 质量浓度和影响因素数据资料

进行整理统计,对影响大气污染的各个污染指标进行综合分析,分别建立了PM2.5 质量浓度与其他污染指标存在不同的相关性,这类模型具有一定的实际应用价值,分

别采用“强行进入法”“逐步进入法”建立了PM2.5 指标的多元线性回归模型,比较了

对缺失值进行不同的方法处理时,差异不是特别大;还有就是共线性的问题,多重共

线性并没有影响到整个模型的拟合,因而不会对模型得到因变量的点估计值有影响。

通过定性分析,定量计算以及对各物理量之间的相互作用过程研究,得出PM2.5 质

量浓度变化特征和各影响因素之间的关系。结果表明,对于5 个基本指标,两两之

间,出了臭氧与二氧化氮以及臭氧与可吸入颗粒物,其余的指标在0.01 的水平上都

是显著相关的;通过F 假设检验得出在0.01 的水平上,PM2.5 与其余指标均是显著

相关的,其中,PM2.5 与臭氧呈现负相关,与其余量呈现正相关,与一氧化碳的相关

系数最高;在最后进行了检验分析。在进行验证时,我们利用线性模拟,二次模拟分

别与原始数据进行比较,得到的拟合效果比较好,是我们所要的结果;在最后面,根

据线性多元回归模型得到的结果,做出相应的预测并且判断出一氧化碳对PM2.5 的

影响是最大的,提出了一些相应的措施,能够有效地控制大气污染。

关键词:PM2.5 污染特征相关性回归分析

万方数据

华中科技大学硕士学位论文

II

Abstract

In this paper, Wuhan January 2013 2013 August PM2.5 mass concentrations and

factors influencing collate statistical data , effects of atmospheric pollution on various

pollution indicators comprehensive analysis of PM2.5 mass concentrations were established

with other pollution indicators have different correlations such models have some practical

value respectively, using "enter" " stepwise" to establish a multiple

linear regression model

PM2.5 indicators compared to the missing values different approach , the difference is not

particularly large ; there is collinearity problem of multicollinearity does not affect the fit

of the entire model , and thus will not get the model variables because the point estimate

values affected. Through qualitative analysis , quantitative calculation as well as the

physical interaction between the various studies , the relationship between PM2.5 mass

concentration derived characteristics and the influencing factors. The results show that for

the five basic indicators between any two out of ozone and nitrogen dioxide , and ozone and

particulate matter , the rest of the index at the 0.01 level were significantly associated ;

through F hypothesis test results in 0.01 on the level , PM2.5 and other indicators were

significantly correlated , in which , PM2.5 and ozone negatively correlated positively related

to its margin , the highest correlation coefficient with carbon monoxide ; were tested in the

final analysis . Upon verification, we use linear analog, two simulations were compared

with the original data were fitted get better results, we want results; in the final surface,

according to the results obtained by the linear regression model, make the appropriate

predictions and determine the impact of carbon monoxide on PM2.5 is the largest, made a

number of appropriate measures to effectively control air pollution. Key words: PM2.5 Pollution characteristics correlation Regression analysis

万方数据

华中科技大学硕士学位论文

III

目录

摘要................................................................... .......................................... I

Abstract ............................................................ ......................................... II

1 引言

1.1 研究背景与意义................................................................... .. (1)

1.2 国外研究................................................................... (2)

1.3 国内研究................................................................... (2)

2 SPSS相关性分析

2.1 基础理论知识................................................................... . (4)

2.2 数据的预处理................................................................... . (5)

2.3 PM2.5与各因素之间的关系 (8)

2.4 初步结果分析................................................................... .. (10)

3 PM2.5的多元回归模型

3.1 回归模型设定................................................................... .. (11)

3.2 缺失值问题................................................................... (16)

3.3 共线性问题................................................................... (16)

3.4 “强行进入法”下的回归模型 (19)

3.5 “逐步进入法”下的回归模型 (24)

3.6 PM2.5多元线性模型的验证以及预测 (33)

4 总结

致谢................................................................... . (38)

参考文献................................................................... .. (36)

万方数据

华中科技大学硕士学位论文

1

1 引言

1.1 研究背景与意义

前段时间出现的恶劣的天气让人们逐渐的认识到了一个词语:雾霾。雾霾是人

为活动与气候条件共同作用而发生的灾害性天气现象。另外,中国经济的粗放型发

展模式与当前雾霾的产生有很大的关系,在粗放型经济发展模式下,如何处理治理

污染和经济增长是一个问题,要怎样做才能兼顾二者。现在社会要进行可持续发展,建设成一个可持续发展的社会,倘若只是依靠破坏环境,牺牲环境取得的经济

增长又怎么可能是可持续的?灰蒙蒙的天气让越来越多的中国公众注意到PM2.5,它是一个由英文和数字组成的专业术语。它潜伏在空气中,伤害人的健康,更严重

的是它能给社会造成巨大的经济损失。

我们是如何来分辨出PM2.5的呢? 粒子最重要的性质就是气溶胶颗粒物的大

小。按粒径可把颗粒物分为总悬浮颗粒物(TSP)和可吸入颗粒物(PM10和PM2.5),其

中TSP是指空气动力直径小于或等于100.0 m的颗粒物,PM10是指空气动力学直径

小于或等于10.0 m的颗粒物。PM2.5(也称为可入肺颗粒物)是指空气动力学直径

小于或等于2.5 m的颗粒物。在地球大气成分中,PM2.5含量很少,但它对空气质

量和能见度的影响却很大。另外,粒径小于0.1μm的粒子又被称为超细粒子[1]。PM2.5的主要来源是人为排放。人类不仅排放某些气体污染物(这些气体污染物在

空气中可以转化为PM2.5),有时候也是直接排放PM2.5的。对于直接排放来说,它

们主要来自燃烧过程,比如说,生物质(秸秆、木柴)的燃烧,化石燃料(煤、汽油、柴油)的燃烧,还有就是垃圾的肆意焚烧等。挥发性有机物,氮氧化物和二氧

化硫等这些是属于可以在空气中转化成PM2.5的。另外的那些人为来源包括扬尘,粉尘等。大气中的细颗粒物PM2.5,它对人体的伤害很大,因为它们一般会依附于

氮氧化物,重金属颗粒,还有硫化物等污染因子上[2][3][4]。

万方数据

华中科技大学硕士学位论文

2

1.2 国外研究

在上个世纪下半叶,日本,英国等这些发达国家也出现过重雾霾天气(工业化迅速发展时期),而且造成了很严重的苦果。在过去的20 年里,国外广泛开展了

PM2.5 的研究,主要是涉及PM2.5 的污染特征,排放清单以及PM2.5 对人体健康和大

气能见度的影响等方面,其中在美国加州地区是进行细微颗粒物研究最多的地方。研

究表明,PM2.5 的浓度不是单一因素的后果,它是综合作用的结果,它取决于化学变

化,地理条件,气象条件等复杂因素相互作用;不同的地区PM2.5 的浓度值可能也会

有所不同,对于夏季来说,这个比率在秋季比夏季高171。

现在几十年已经过去,曾经那些饱受污染苦果的国家它们的环境也得到了很大

的改善,比如说,,美国洛杉矶享有“天使之城”的美誉也再度回来,英国曾被称

为“雾都”,如今也已经摘掉了。针对雾霾问题,它们采取了很多行之有效的措施,在这方面很值得我们的学习。它们在治理雾霾方面采取了有效措施,归纳为两

点:一是法治;二是源头治理。治理雾霾,不是一时兴起,不是短暂的行动,其它

国家经过半个多世纪才能取得一定效果,所以我们要做好打长久战的准备

[5][6][7][8]。

1.3 国内研究

国家环保部曾统计过,每年出现灰霾污染的天数达到100 天以上的城市数量不小。PM2.5 污染的影响很大:会给人的身体健康带来很大危险,城市大气中出现的灰

霾现象它也做出了很大的贡献。2011 年末,PM2.5 被纳入了国家的新标准。2012 年,

PM2.5 的信息公开方面都取得了不同程度的进步,但是对于我们国家来说,现在我们

国家进入了一个污染的面积正在扩大的时期。我们关于PM2.5 在很多方面还没有明

确的结论,比如说,它的来源是什么?我们怎么样来治理?对公众造成了什么伤害?

什么时候能处理好PM2.5,让人们可以呼吸上新鲜空气?[9][10][11][12]。

自2006年开始,武汉大学的有关专家已经开始做关于PM2.5的研究,通过他们

设置在武大测绘工程与遥感国家重点实验室楼顶的监测站采样数据显示,从2011年

万方数据

华中科技大学硕士学位论文

3

7月到2012年底,武汉大气中的PM2.5质量浓度平均值(国家质量标准所限的75 g /m3)为167 3 g /m ,远远高于国家所规定的。

PM2.5首次被写入政府工作报告是在2012年全国“两会”上。对PM2.5的关注度正在日

益增大,这也在一方面折射出现如今我国环境污染的严峻性。从2013年9月国务

《大气污染防治行动计划》以来,不少地区加大了对污染空气的违法企业的处罚力

度[13][14][15]。

环境是人的生存之本、发展之基。人们能够在一个良好的环境中生产和生活,可以放心地喝上干净的水,能够呼吸到呼吸新鲜的空气。治理雾霾不能再坐以待毙

了,这一件刻不容缓的大事,导致雾霾形成的各种隐患需要我们彻彻底底地发掘出

来,从而可以一一把它们根除。治理雾霾离不开全民的参与。引起雾霾的主要污染

物之一就是PM2.5,所以研究各个污染物成了刻不容缓的事情。在雾霾面前,我们

每个人都既是受害者,但与此同时我们也都负有一份责任,治理雾霾不是一件简简

单单的事情,需要我们大家共同的努力,所以我们不可能把它推给政府,企业,每

个人都应该贡献自己的力量,积少成多,积小成大。比如,培养节约节能的生活方

式。同时,及时地监督与敦促相关部门与企业在治理雾霾上有所作为也是公民的一

项权利和义务。单个人的小举动微不足道,但是当我们国家13亿人的力量汇聚到一

起时,你就会发现这是一种强大的力量[16][17][18]。

万方数据

华中科技大学硕士学位论文

4

2 SPSS相关性分析

2.1 基础理论知识[19][20][21][22]

客观事物之间都是存在关系的,而它们之间的关系大致可以分为两大类:

函数关系和统计关系

我们最常接触到的所说的相关分析是指用来分析事物之间统计关系的方法。通常我们在研究一个问题的过程中,一般是先对单变量进行分析,接着再对双变量之间

的关系进行分析,最后拓展到对多变量之间的关系进行分析。然而多变量分析与单变

量的分析却有一个最大的不同之处,那就是:客观事物之间的关联性开始被慢慢披露

出来。我们在统计学的学习或者研究中,研究客观事物之间相互关联的数量特征具有

十分重要的理论意义和实践意义。

而在提到变量之间的关系时,我们首先想到的就是变量间具有的确定性关系,它所具有的特点是:当自变量确定后,因变量也就完全被确定了。对于确定性的关系,

我们一般把它表示成函数的关系的形式,如:圆的半径和周长之间的关系C=2 r,其

中r 是圆的半径,这就是我们所说的函数关系。

具有确定性关系的变量,我们可以很好的来测量它们。与之不同,我们很难来看变量之间的非确定性关系,它是确定存在的,并且有的关系强,有的关系弱,而且它

们的程度各有不同,那么如何来测度事物之间的统计关系的强弱一直是我们关注的

问题,这是我们研究的重点,也是研究难点。非确定性关系,也即统计关系的特点是

给定了一个变量值之后,另外一个变量也就是因变量可以在一定的范围内变动,而不

是仅仅一个确定的值。例如,人的身高和体重之间的关系,同样身高的人,他们的体

重可能会有很大的差异,因为除了受身高的影响,体重还受其他因素的影响;另外子

女身高和父母身高,校园环境和学生体质,吸烟量和寿命,犯罪与否和年龄,家庭收

入和支出,之间的关系等。

进一步地,统计关系可以再进一步地分为线性相关关系和非线性相关关系。具体万方数据

华中科技大学硕士学位论文

5

的关系我们可以从下面的分支上更加形象地看到:

函数关系

非线性相关

客观事物之间的关系

统计关系正线性相关

线性相关

负线性相关

如果事物间存在因果关系,那么它们必然是相关的;但是当事物之间存在相关关系时,它并不一定就是因果关系,也有可能是伴随关系。相关关系是多种多样的,下

面我们把它们大致归纳为6种类型:

X Y

X Y

X Y

X

X Y

X Y

X Y

X

强正相关关系:一变量的增加,导致另一变量的明显增加

是的主要影响因素

弱正相关关系:一变量的增加,导致另一变量的增加,但是增加幅度不明显是影响Y的因素,但是不是唯一因素

强负相关关系:一变量的增加,导致另一变量的明显减少

是的主要影响因素

相关关系

弱正相关关系:一变量的增加,导致另一变量的减少,但是减小幅度不明显是影响Y的因素,但是不是唯一因素

非线性相关关系:X,Y之间没

有明显的线性关系,但存在着某种非线性关

系X仍是影响Y的因素

不相关:X,Y之间不存在相关关系

X不是影响Y的因素

2.2

数据的预处理:

我们对数据进行相关性分析,具体的步骤如下:

输入:武汉市PM2.5预处理数据;

输出:相关系数矩阵

1 2 3 4 5

1 1 1

2 1

3 1

4 1

5 1

2 1 2 2 2

3 2

4 2

5 2

3 1 3 2 3 3 3

4 3

( , ) ( , ) ( , ) ( , ) ( , ) ( , )

( , ), ( , ) ( , ) ( , ) ( , ) ( , )

( , ) ( , ) ( , ) ( , ) ( , ) ( , )

or

( , ) ( , ) ( , ) ( , ) ( , ) (

R y y R x y R x y R x y R x y R x y

R y x R x x R x x R x x R x x R x x

R y x R x x R x x R x x R x x R x x

C

R y x R x x R x x R x x R x x R

,,,,,

,,,,

,,,,,

,,,,,5 3

4 1 4 2 4 3 4 4 4

5 4

5 1 5 2 5 3 5 4 5 5 5

, )

( , ) ( , ) ( , ) ( , ) ( , ) ( , )

( , ) ( , ) ( , ) ( , ) ( , ) ( , )

x x

R y x R x x R x x R x x R x x R x x

R y x R x x R x x R x x R x x R x x

,,,,,

,,,,,

万方数据

华中科技大学硕士学位论文

6

运用SPSS软件的两个变量相关性分析工具分析这些指标两两之间的相关性。并

且使用双侧检验得出指标之间的显著性水平[23][24]。表2-1 相关系数矩阵

Correlations

(二氧化

硫)x1

(二氧化

氮)x2

(可吸入

颗粒物)

x3

(一氧化

碳)x4

(臭

氧)x5

(PM2.

5)y

(二氧化硫)

x1

Pearson

Correlation

1 .807** .678** .659** -.179** .726**

Sig. (2-tailed) .000 .000 .000 .006 .000

N 238 238 236 238 238 238

(二氧化氮)

x2

Pearson

Correlation

.807** 1 .727** .626** -.063 .734**

Sig. (2-tailed) .000 .000 .000 .336 .000

N 238 238 236 238 238 238

(可吸入颗粒

物)x3

Pearson

Correlation

.678** .727** 1 .586** -.069 .779**

Sig. (2-tailed) .000 .000 .000 .295 .000

N 236 236 236 236 236 236

(一氧化碳)

x4

Pearson

Correlation

.659** .626** .586** 1 -.381** .822**

Sig. (2-tailed) .000 .000 .000 .000 .000

N 238 238 236 238 238 238

(臭氧)x5

Pearson

Correlation

-.179** -.063 -.069 -.381** 1 -.352**

Sig. (2-tailed) .006 .336 .295 .000 .000

N 238 238 236 238 238 238

(PM2.5)y

Pearson

Correlation

.726** .734** .779** .822** -.352** 1

Sig. (2-tailed) .000 .000 .000 .000 .000

N 238 238 236 238 238 238

**. Correlation is significant at the 0.01 level (2-tailed).

但是在实际的应用中,我们会发现,如果单纯的通过计算相关系数的方法来研

究变量间的相关性关系是不准确[14][15]。例如:两变量间的数据对为(1,1),(2,2),(3,3),(4,4),(5,5),(6,6),(7,1).如果我们不通过

图形来看的话,只是通过公式来计算它们的相关系数的话,得到的简单相关系数约

万方数据

华中科技大学硕士学位论文

7

为0.395,那么根据这个数据我们可以得到的结论是两个变量间呈现弱相关关系,但是我们来看一下它的散点图,如下所示:

图2-1

观察上图,我们可以看到,如果我们把图中的红色大圆圈不考虑(踢出去的话),那么这两个变量之间是呈现完全正线性相关关系的,而并不是弱相关关系。我们仅仅

通过计算公式来计算得到的相关系数较低是由于红色的异常数据点导致的。因此,我

们在做变量间相关性的研究时要注意做到将绘制散点图,结合散点图与计算相关系

数的方法,单纯依靠相关系数或者散点图都无法准确地反映出变量之间的相关性,把

它们两者结合是非常必要的。

2.3 PM2.5与各因素之间的关系

本篇文章我们要研究的是PM2.5与其他污染物之间的影响,所以下面我们重点

来看一下PM2.5与二氧化硫(1 x ),二氧化氮( 2 x ),可吸入颗粒物( 3 x ),一氧化

碳( 4 x ),臭氧( 5 x )的散点图,至于二氧化硫(1 x ),二氧化氮( 2 x ),可吸入颗粒

物( 3 x ),一氧化碳( 4 x ),臭氧( 5 x )它们两两之间的散点图就不在此一一列出了,

万方数据

华中科技大学硕士学位论文

8

具体的图形参看本文后面。

图2-2 PM2.5与二氧化硫的散点图

如果只是仅仅观察上面的散点图的话,就会发现PM2.5与二氧化硫呈现正相关关系,

但是这个相关性很弱,几乎看不出来。

图2-3 PM2.5与二氧化氮的散点图

从上面的PM2.5与二氧化氮的散点图我们可以得到这样的结果:PM2.5与二氧化氮之间呈现正相关关系,但是也不强。

万方数据

华中科技大学硕士学位论文

9

图2-4 PM2.5与可吸入颗粒物的散点图

仅从散点图我们可以很容易的看到:PM2.5与可吸入颗粒物呈现完全正相关关系。图2-5 PM2.5与一氧化碳的散点图

PM2.5与一氧化碳的散点图也告诉了我们这两个变量之间是呈现较强正相关关系的

(几个异常的数据点是个例外)。

万方数据

华中科技大学硕士学位论文

10

图2-6 PM2.5与臭氧的散点图

从上图中我们可以大致看出来PM2.5与臭氧是呈现负相关的:PM2.5的值高的时候臭氧的数值偏低,反之PM2.5的值偏低的时候臭氧的数值偏高。

2.4 初步结果分析

从表2-1中相关性矩阵可以做出如下分析:

1.分析自变量之间的关系:对于这5个基本指标二氧化硫(1 x ),二氧化氮( 2 x ),

可吸入颗粒物( 3 x ),一氧化碳( 4 x ),臭氧( 5 x ),它们两两之间,只有臭氧与二氧化

氮,臭氧与可吸入颗粒物在0.01的水平上不是显著相关的,其余的指标在0.01水平上

是显著相关的。

2.分析自变量与因变量之间的关系:我们主要是来研究PM2.5的,所以通过上表中的最后一行我们可以得出PM2.5与其余指标之间的相关性。通过F假设检验,得到在

0.01的水平上,PM2.5与其余指标均是显著相关的。其中,PM2.5与臭氧是负相关的,

而与其他指标呈现正相关,与一氧化碳(4 x )的相关系数最高。

万方数据

华中科技大学硕士学位论文

11

3 PM2.5的多元回归模型

考虑到2 SO , 2 CO ,CO,可吸入颗粒物以及3 O 等AOI参数与PM2.5的关系非常复

杂,单一因素的影响通常随着其他条件的变化而变化。因此,在相关性分析的基础

上,本文继续采用多元回归模型对PM2.5日均浓度与2 SO ,2 CO ,CO,可吸入颗粒

物以及3 O 等关系进行建模分析。通过模型的建立,不仅能够确定影响PM2.5浓度的

主要因素,而且能够通过这些参数的变化来预测PM2.5的指数,为规避高污染事件,降低健康,出行等风险提供指导[25][26][27][28]。

3.1 回归模型设定[25][26][27][28]

我们在进行建模时,当然要在模型设定中的一些问题,具体如下:

A1.正交假定

A2.独立同分布假定

A3.正态分布假定

回归分析依赖于所设定的模型是正确无误的,模型的参数估计和相对应的假设检验都是建立在这一大前提之下的。而在实际的研究中,研究者一般都是根据某个理

论或某些经验的研究结果来设定回归模型。而在事实上,在社会科学的研究之中,我

们通常是没法有十足的把握来认为我们所设定的模型是正确的。一旦在模型设定中

存在问题,那么,据此来进行的参数估计和对应的假设检验也都是存在问题的。在这

里,我们仅来介绍其中两类与模型设定有关的错误,目的是“提高对模型设定本身是

否正确”这一潜在假定的敏感和警觉。

第一类错误是模型中纳入了某些无关的自变量;

第二类错误是模型中忽略了某些的相关变量;

前者错误是针对本不该纳入却被我们纳入模型的自变量,后者错误则是针对本该纳入却未被研究者们纳入模型的自变量。

万方数据

华中科技大学硕士学位论文

12

纳入无关自变量.在回归分析中,我们在进行模型设定的时候,可能会加入某

些无关的自变量(irrelevant independent variable)。换句话来说,尽管在总体

中存在一个或多个自变量对因变量的偏效应是不存在的(也就是其总体回归系数为

零),但还是会把它们纳入模型当中[27][28][29]。

我们一般假设总体中的模型如下:

i0 1 i1 2 i2 3 i3 i y x x x

(3.1)并且该模型满足上述两个假设:A1,A2,但是在控制住1 x 和2 x 以后,3 x 对

y 是没有影响的,即3 0。但是我们在估计模型之前,却是并不知道这一点的,

从而我们得到的拟合结果,即回归模型包括了无关自变量3 x ,即:

i0 1 i1 2 i2 3 i3 y b b x b x b x

(3.2)那么,对于无关自变量3 x 的纳入对模型的参数估计会不会有影响?如果有

影响,那又会产生怎样的影响呢?对于1 b 和2 b 的无偏性而言,包括自变量3 x 是不

会产生危害的。根据高斯--马尔科夫定理:在误差零均值,同方差,且互不相关的

线性回归模型中,回归系数的最佳无偏线性估计(BLUE)就是最小方差估计(一般

而言,任何回归系数的线性组合的最佳无偏线性估计就是它的最小方差估计。在这

个线性回归模型中,误差既不需要假定正态分布,也不需要假定独立(但是需要不

相关这个更弱的条件),还不需要假定同分布),最小二乘估计就是对总体参数的

无偏估计,即:E(b) ,这个结论对于 的任意取值都是成立的,包括取值为

0,即 =0的时候。所以,在多元回归中含有无自关变量并不会影响OLS(普通最小

二乘法)估计结果的无偏性。当然,我们基于某个样本数据而得到的估计值3 b 也有

可能并不恰好等于零——虽然它在所有随机样本中的平均取值为零。

然而,我们纳入无关自变量也并不是完全无害。假设在我们的模型中不存在自变量3 x ,仅仅包含1 x 和2 x 两个自变量,即:

万方数据

华中科技大学硕士学位论文

13

* * *

i0 1 i1 2 i2 y b b x b x (3.3)

我们可以通过相关的理论或者其它来证明,(3.2),(3.3)中的回归系数0 b ,

1 b ,

2 b 和*

0 b ,*

1 b ,*

2 b 的方差是不同的。除非无关自变量

3 x 与1 x ,2 x 均不是相关的,若否,*

0 b ,*

1 b ,*

2 b 的方差将比0 b ,1 b ,2 b 的方差小。换言之,如果无关自变量

3 x 与

1 x ,

2 x 存在相关关系,那么就会导致相应的回归系数(即1 b ,2 b )的标准误差会增

大,并且增大的程度取决于无关自变量3 x 与1 x ,2 x 之间的相关程度。也就是说,如

果总体中的自变量3 x 对因变量y 没有偏效应,那么把它(3 x )加入模型只可能增加

多重共线性的问题,从而减弱估计的有效性。所以,当3 0的时候,我们更愿意倾

向于不将无关自变量3 x 纳入模型中。

可能我们总是有很好更多的理由来加入更多的自变量,但是,不要加入那些无关的自变量。因为如果这样做,我们:

①有可能错过理论上有意义的发现;

②违背了简约原则;

③浪费了自由度;

④导致估计精度的下降。

忽略有关自变量.如果我们在模型的设定中忽略了某些本应该纳入但是却未被

纳入的有关自变量(relevant independent variable),也就是下面的两种情况:

a. 所忽略的变量与模型中的其他变量无关;

b. 所忽略的变量与模型中的其他变量相关。

在前一种情况下,是不会发生忽略变量偏误(omitted-variable bias)的;然而在后一情形下,则是有可能发生忽略定理偏误的。比如说,真实的模型本应该是

包含1 x ,2 x 和3 x 的,记为:

万方数据

华中科技大学硕士学位论文

14

y X1

(3.4)但是我们却只包含了1 x 和2 x ,忽略了3 x ,模型记为:

2 y X (3.5)

当我们在(3.5)中无意识地忽略了相关变量3 x 时,3 x 实际上已经变成了误差项

3 3 x 的一部分。针对第一种情况,因为3 x 与1 x ,2 x 都不相关,A1这个假定是

不变的,最小二乘估计无偏;但是对于第二种情况,如果3 x 与1 x 相关,被忽略的自

变量3 x 变成了误差项 的一部分,那么就会使得2 x 与误差项之间不会再保持独立。

这也就意味着,此时,A1假定不会再得到满足,从而,回归系数 将变成总体参数

的有偏估计,而偏误的方向取决于被忽略的自变量3 x 对因变量效应的方向以及该自

变量与1 x 之间关系的方向。下面我们用如下所示表格来说明被忽略自变量3 x 对1 估

计偏误的所有情形。偏误的大小是直接取决于该忽略自变量与模型中其他自变量之

间的关系的,它们之间的相关性越强,那么忽略变量的偏误就会越大。

表3-1 被忽略变量回归系数偏误的不同属性

Corr(1 x , 3 x )>0 Corr( 1 x , 3 x )<0

3 0

正向偏误负向偏误

3 0

负向偏误正向偏误

在实际的研究当中,我们通常是无法知道被忽略的自变量的作用究竟是什么以及它与模型中已纳入的自变量之间的相关关系,故而我们也很难确定偏误的方向和大

小。

据此,我们可以看到,模型设定中忽略有关的自变量并不一定会导致忽略变量发生偏误。忽略变量发生偏误需要满足两个条件:

一是有关性条件,即被忽略自变量要对因变量有影响;

万方数据

华中科技大学硕士学位论文

15

二是相关性条件,即被忽略自变量与已纳入模型的其他自变量存在相关[20]。

3.2 缺失值问题[23][24][29]

但是我们所处理的数据中含有缺失值,对此我们必须要对数据进行处理。有三种方法:

①按列表排除个案。当我们一次选择多个变量进行分析时,只要某个变量含

有缺失值,就在所有分析过程中将含有该变量的记录删除。

②按对排除个案。成对来剔除带有缺失值的观测量,只有在计算过程中我们

用到的某个变量含有缺失值时,才会将相应的记录删掉。比如来计算两个变量的相

关系数时,只要求把这两个变量中含有缺失值的记录行删除掉就可以了。如果某个

记录的这两个变量中并没有缺失值,而在其它变量中有,那么这个记录仍然用于当

前相关系数的计算。

③使用该变量的均值替换其缺失值。

下面我们分别用两种方法来研究,“强行进入法”和“逐步进入法”。前者是软件默认的方法,而后者则是综合了“向前进入法”和“向后进入法”,所以两者的可

行性及可信度是很高的。

3.3 共线性问题[23][24][25][30]

为什么我们要单独把共线性问题列出来考虑呢?因为共线性的自变量会典型地增大系数估计的方差。例如,我们来考虑有两个变量的回归

Y= 0+ 1X1 2X2

(3.6)并且假设1 X 和2 X 的样本的相关系数是12 r 。我们来定义下面的符号:2 ( ) j i j j SX X X X(3.7)

我们可以来证明:

万方数据

华中科技大学硕士学位论文

16

2

2

12

1 1

var( ) ( )( ), ( 1, 2)

1 j

ji

j

r SX X

(3.8)

当12 r 0时,1 ,2 的方差会取得最小值。当12 r 越接近1时,这些方差便会被大大地

放大了。例如,如果2

12 r 0.96时,1 1 SX X 保持不变,1 的方差是2

12 r 0时的25倍。

这样的话,跟那些使用非共线性的自变量的问题相比较的话,使用共线性的自变量可

能会让估计出来的变量的系数让我们不能接受。

我们假设有p 个自变量。p 2时的情况与p 0时的情况是类似的。我们可以证明,

第j 个系数的方差是:

2

2

1 1

var( ) ( )( ), ( 1, 2, , )

1 j

jji

j p

R SX X

(3.9)

2

1

1 j R

被称为第j 个方差扩大因子,我们把它简单地记为j VIF 。我们假定这些的j X 是可以取样的,使得2 0 j R ,并且会使j j SX X 保持不变,那么VIF 表示的是由于自变量

间的相关系数而由共线性引起的方差的增大。

共线性还会影响预测值大方差,但是效果是不太明显的。对某些的预测值,共线性的自变量能够精确的比具有相同j j SX X 值的正交自变量(对于正交自变量我们已

经相当的熟悉了,这儿就不做过多的解释)有更加小的方差。

在我们进行下面的回归模型之前,我们会想到:如果自变量(解释变量x )之间存在线性相关的关系,即所谓的多重共线性问题,怎么办?因为若是发生解释变量间

的多重共线性问题会给回归方程带来许多影响。比如说,偏回归系数的置信区间增

大,偏回归系数估计困难,偏回归系数假设检验的结果不显著,偏回归系数的估计方

差会随着解释变量x 相关性的增大而增大,偏回归系数估计值的不稳定性增强等。对

此我们需要对解释变量间的多重共线性进行测度,一般有一下几种方式:

容忍度.容忍度是解释变量i x 间多重共线性测度的重要统计量。它的容忍度定万方数据

华中科技大学硕士学位论文

17

义为:

Toli 1 Ri2

方差膨胀因子.方差膨胀因子与容忍度存在一个关系:互为倒数,即:

2

1

1 i

i

VIF

R

由容忍度的取值范围我们可知,方差膨胀因子是大于1的。解释变量间的共线性如果

越强的话,2

i R 越接近1,i VIF 越大[31]。

特征值和方差.诊断解释变量间有没有存在多重共线性的另外一种有效的方法

是特征值。它的基本思想是:若解释变量间确实存在较强的相关性,那么它们之间必

然存在信息的重叠,那么我们应该把这些重叠的信息提取出来,使其成为既能反映解

释变量的信息,又能成为相互独立的因素。我们可以根据这一思路,可从解释变量的

相关系数矩阵出发,计算出相关系数矩阵的特征值。从而,最大特征值可以解释说明

解释变量信息的比例是最高的(一般可达到70%),至于其他的特征值则随着数值的

减小对解释变量方差的解释能力是依次减弱的。在所有的特征值中,如果最大特征值

远远地大于其他的特征值,那么就说明这些解释变量是具有多重共线性,并且是

比较

严重的,因为仅仅凭借这一个特征值我们就基本刻画出了所有解释变量的绝大部分

信息。解释变量标准化后的方差是1.若某个特征值既能够刻画某解释变量方差的较

大部分比例,同时又可以解释另外一个解释变量方差的较大部分比例,那么就能说明

此两个解释变量间存在很强的线性相关关系[32][33]。

考虑到污染物分布的正态分布特性以及复杂变量之间的线性关系,本文采用如下线性多元回归模型:

1 2 k y a b x c x k x

使用SPSS软件进行多元线性回归分析。PM2.5数值作为因变量,其余的数值作为自变量。在接下来的数据拟合分析中,我们将采用“强行进入法”和“逐步进入法”

分别进行PM2.5多元回归模型的建立。

万方数据

华中科技大学硕士学位论文

18

3.4 “强行进入法”下的回归模型[23][24]__

“强行进入法”是指所选择的的自变量全部进入回归模型,这是软件默认的模型

方式。

3.4.1 Step1:运行SPSS软件对监测数据进行数据拟合分析

使用SPSS软件多元线性回归中的”强行进入法“,得到的回归结果如下式所示:1 2 3 4 5 32.956 0.173 y x 0.442x 0.882x 2.207x 0.334x

3.4.2 Step2: 模型检验

①回归方程拟合优度2 R 检验

表3-2 “强行进入法”下的拟合优度2 R 检验

(对于缺失值的处理方法是:按列表排除个案)

Model Summary

关于财政收入影响因素 的统计分析报告.doc

关于财政收入影响因素的统计分析报告 14经济统计1班 陈秋昱 陈翔强 毛翔宇 2016年4月13日

目录 影响我国财政收入因素的统计分析 (3) 一、引言 (3) 二、财政收入影响因素的分析 (3) 2.1变量的选择 (3) 2.2数据说明 (3) 三、模型建立 (4) 3.1模型数据 (4) 3.2相关分析 (6) 3.3模型建立 (7) 四、模型检验 (7) 五、个别数据的折线图分析 (9) 5.1从业人数与国家财政收入间关系 (9) 5.2居民消费价格指数于财政收入间关系 (9) 5.3财政收入占GDP的时间变化 (10) 六、从模型中得到的结果 (10) 6.1财政收入对GDP的依存度 (10) 6.2财政收入对能源消费总量的依存度 (10) 6.3财政收入对实际利用外资的依存度 (11) 6.4财政收入对居民消费价格指数的依存度 (11) 七、结论 (11)

影响我国财政收入因素的统计分析 摘要:影响一国财政收入的因素有很多,如税收收入,三大产业产值,固定资产投资等,本文选取GDP、能源消费总量、从业人员总数、全社会固定资产投资总额、实际利用外资总额、全国城乡居民储蓄存款年底总额、居民人均消费水平、消费品零售总额、居民消费价格指数这9个指标,建立了财政收入影响因素的模型,分析了影响财政收入主要因素及其影响程度。 一、引言 财政作为最为重要的政府活动,是政府职能的具体体现,能够有力地促进经济的发展,促进人民生活水平的提高,并能够调节资源配置。因此,财政收入的变化情况关系着一个国家经济的发展和社会的进步。财政收入的主要来源有税收,国有资产经营收益,政府性基金收益等。同时,一个国家财政收入的规模还要受到经济规模等诸多因素的影响。因此我们以财政收入为因变量,GDP、能源消费总量、从业人员总数、全社会固定资产投资总额等9 个经济指标为自变量,利用R软件进行回归分析,建立财政收入影响因素模型,分析影响我国财政收入的主要因素为何。 二、财政收入影响因素的分析 2.1变量的选择 研究影响财政收入的影响因素离不开基本经济指标,许多文献资料中都把税收、GDP这两个指标列为影响财政收入最重要的影响因素。而本文通过对较多指标的综合分析,企图在众多而复杂的指标当中寻找财政收入比较重要的决定因素。 2.2数据说明 1、财政收入:财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 2、GDP:国内生产总值(GDP=Gross Domestic Product)是指一个国家(国界范围内)所有常驻单位在一定时期内生产的所有最终产品和劳务的市场价值。GDP 是国民经济核算的核心指标,也是衡量一个国家或地区总体经济状况重要指标。 3、能源消费总量:能源消费总量是一定时期内全国或某地区用于生产、生活所消费的各种能源数量之和。是反映全国或全地区能源消费水平、构成与增长速度的总量指标。 3

(完整版)多元回归分析中变量的选择——SPSS的应用毕业设计

毕业论文 题目多元回归分析中的变量选取 ——SPSS的应用 院(系)数学与统计学院 专业年级 2010级统计学 指导教师职称副教授

多元回归分析中的变量选取——SPSS的应用 殷婷 摘要 本文不仅对于复杂的统计计算通过常用的计算机应用软件SPSS来实现,同时通过对两组数据的实证分析,来研究统计学中多元回归分析中的变量选取,让大家对统计中的多元回归数据的选取和操作方法有更深层次的了解。一组数据是对于淘宝交易额的未来发展趋势的研究,一组数据时对于我国财政收入的研究。本文通过两个实证从不同程度上对数据选取的研究运用通俗的语言和浅显的描述将SPSS在多元回归分析中的统计分析方法呈现在大家面前,让大家对多元回归分析以及SPSS软件都可以有更深一步的了解。通过SPSS软件对数据进行分析,对数据进行处理的方法进行总结,找出SPSS对于数据处理和分析的优缺点,最后得在对变量的选取和软件的操作提出建议。 关键词:统计学 SPSS 变量的选取多元回归分析 Abstract

In this paper, not only for complex statistical calculations done by the commonly used computer application software of SPSS, through the empirical analysis of the two groups of data at the same time, to study the statistics of the variables in the multivariate regression analysis, let everybody to select multiple regression in statistical data and operation methods this paper, through two empirical to select data from different extent research using a common language and plain the SPSS statistical analysis method in multiple regression analysis of present in front of everyone, let everyone to multiple regression analysis and SPSS software can of the selection of variables and software. Keywords: Statistical SPSS The selection of variables multiple regression analysis 目录 摘要 (1) 英文摘要 (1) 引言 (3) 第一章回归分析 (3) 1.1自变量的选择 (4) 1.2国内外研究现状 (5) 第二章案例分析一:淘宝交易额的研究 (6) 2.1数据的来源及变量的选取 (6) 2.2相关分析 (7) 2.2.1散点图 (7)

犯罪率影响因素的线性回归分析

犯罪率影响因素的线性回归分析 摘要 犯罪是人类社会的顽疾,人类为对付犯罪付出了沉重的代价。据国际社会统计,犯罪所造成的危害远远超过二战所造成的损失。犯罪作为一种社会现象,是由各种因素决定的,马克思认为是社会客观历史条件,特别是经济条件决定着犯罪。故我们运用现代科学技术方法,充分利用信息资源,尝试建立一个回归模型,解释刑事犯罪率的变化,降低刑事犯罪率,保障社会和谐。 关键词:刑事犯罪率;基尼系数;城市化率; Linear regression analysis of factors influencing the criminal crime rate ABSTRACT Crime is disease in the human society, mankind against crime to pay a high price. According to international society .The harm of crime, is beyond the losses of lives and property caused by warⅡ. Crime, as a social phenomenon, is decided by various factors, the mark thinks social objective history conditions, and especially economic condition decides crime. We use modern science and technology, make full use of information resources, and try to establish a regression model to explain the changes in crime rates, lower crime rate, ensure social harmony. Key words: crime;criminal Gini coefficient;Urbanization rate;

农民收入影响因素的多元回归分析

农民收入影响因素的多元回归分析 自改革开放以来,虽然中国经济平均增长速度为9.5 % ,但二元经济结构给经济发展带来的问题仍然很突出。农村人口占了中国总人口的70 %多,农业产业结构不合理,经济不发达,以及农民收入增长缓慢等问题势必成为我国经济持续稳定增长的障碍。正确有效地解决好“三农”问题是中国经济走出困境,实现长期稳定增长的关键。其中,农民收入增长是核心,也是解决“三农”问题的关键。本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,寻找其根源,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。 一、回归模型的建立 (1)数据的收集 根据实际的调查分析,我们在影响农民收入因素中引入3个解释变量。即:X2-财政用于农业的支出的比重, X3-乡村从业人员占农村人口的比重, X4-农作物播种面积

(1)回归模型的构建 Y i=1+2X2+3X3+4X4+u i 二、回归模型的分析 (1)多重共线性检验 系数a 模型非标准化系数标准系数 t Sig. 共线性统计量 B 标准误差试用版容差VIF 1 (常量) -2983.479 803.141 -3.715 .003 X2 -14.221 15.007 -.141 -.948 .361 .579 1.726 X3 5.201 3.760 .258 1.383 .190 .368 2.717 X4 .021 .006 .614 3.677 .003 .459 2.177 a. 因变量: y 表1 多重共线性是指解释变量之间存在相关关系,判断解释变量之间的多重共线性一般可看方差膨胀因子VIF和容忍度这两个指标,如果解释变量之间存在多重共线性,一般采用逐步剔除VIF最大的解释变量来消除解释变量之间多重共线性的问题。从表1可知,解释变量,X1,X2,X3三者的方差膨胀因子VIF分别为1.726,2.717和2.177,均小于10。且三者的容忍度均大于0.1。所以可以判断解释变量X1,X2,X3三者之间不存在多重共线性。 (2)模型异方差的检验 异方差产生的原因有:数据质量原因、模型设定原因。由异方差 引起的后果一般会导致回归系数估计结果误差较大、有关统计检验失 去意义、模型的预测失效等危害,所以在建立模型的过程中必须要检 验模型之间是否存在异方差。若存在异方差解决办法——加权最小二 乘法。

影响因素分析汇总

影响因素分析汇总

高三地理复习材料(影响因素分析汇总)1.影响太阳辐射强弱的因素: ①太阳高度角(纬度决定);②大气状况(天气、气候);③海拔高低(主要是大气密度)。 2.影响气温高低的因素: ①纬度位置(太阳辐射);②地形地势(海拔? 闭塞?背风坡?迎风坡?对气流阻隔?);③ 大气环流;④海陆位置及海陆分布(海洋性? 大陆性?);⑤洋流;⑥下垫面热容量,反射 率等(植被状况)。 3.影响降水多少的因素: ①大气环流(气压带、风带;季风环流;大气 活动中心);②地形(迎风坡?背风坡?气流 阻隔?);③海陆位置(离海远近?离岸风、 向岸风?);④洋流。 4.影响气压大小的因素: ①地势(海拔)→气压随高度增加而降低;②气温→同一高度气温高气压低。 5.影响气候的因素: ①纬度位置(太阳辐射);②大气环境(降水); ③下垫面(海陆位置,地形,洋流,地表状况 等);④人类活动(影响小气候和全球变暖)。6地表形态的影响因素: ①内力作用:地震,火山,变质作用;②外力作用:风化,侵蚀,搬运,沉积,固结成岩。 7.影响海水温度的因素: ①太阳辐射(热量收支)←纬度;②洋流; ③陆地气候。 8.海水盐度大小的影响因素: ①降水量、蒸发量(气候、纬度);②洋流; ③结冰、融冰;④河流径流的注入;⑤与外界 海水交换状况(海域是否闭塞)。 9.影响潮汐大小的因素: ①地形条件(是否呈口大内小喇叭状开口); ②气象条件(风向);③天文条件(日、月、 地位置)。 10.影响水资源多少的因素: ①降水量、蒸发量(河川径流量大小);②水循环活跃程度。 11.影响渔场形成因素: ①大陆架:海水深浅及获得阳光多少;②径流: 营养物质多少;③纬度:温带水域;④洋流: 寒暖流交汇或上升流。 12.影响降水形成的因素: ①有充足水汽、有凝结核、有上升气流;②大气环流;③地形;④洋流。 13.影响暴雨形成的因素: ①源源不断水汽供应;②强烈上升气流;③形成降水的天气系统持续时间长。 14.影响地震烈度的影响因素: ①地震本身的震级和震源深度;②地表状况 (震中距大小);③地质构造情况(断层发 育?);④地面建筑物抗震程度。 15.农业发展的区位因素: ①自然条件:气候、地形、水源、土壤;②社 会经济因素:市场、劳动力、交通、政策、科 技、农业机械。 16.乳畜业发展的区位条件: ①自然:气候适宜种植牧草和饲料作物;②市 场:城市众多,人口密集,市场需求大;③交 通:交通便利;④科技:先进的科技。 【高三地理复习材料第 2 页共 13 页】

spss多元回归分析报告案例

企业管理 对居民消费率影响因素的探究 ---以湖北省为例 改革开放以来,我国经济始终保持着高速增长的趋势,三十多年间综合国力得到显著增强,但我国居民消费率一直偏低,甚至一直有下降的趋势。居民消费率的偏低必然会导致我国内需的不足,进而会影响我国经济的长期健康发展。 本模型以湖北省1995年-2010年数据为例,探究各因素对居民消费率的影响及多元关系。(注:计算我国居民的消费率,用居民的人均消费除以人均GDP,得到居民的消费率)。通常来说,影响居民消费率的因素是多方面的,如:居民总 收入,人均GDP,人口结构状况1(儿童抚养系数,老年抚养系数),居民消费价格指数增长率等因素。 1.人口年龄结构一种比较精准的描述是:儿童抚养系数(0-14岁人口与 15-64岁人口的比值)、老年抚养系数(65岁及以上人口与15-64岁人口的比值〉或总抚养系数(儿童和老年抚养系数之和)。0-14岁人口比例与65岁及以上人口比例可由《湖北省统计年鉴》查得。

一、计量经济模型分析 (一)、数据搜集 根据以上分析,本模型在影响居民消费率因素中引入6个解释变量。X1:居民总收入(亿元),X2:人口增长率(‰),X3:居民消费价格指数增长率,X4:少儿抚养系数,X5:老年抚养系数,X6:居民消费占收入比重(%)。 Y:消费率(%)X1:总收入 (亿元) X2:人口增 长率(‰) X3:居民消 费价格指 数增长率 X4:少儿抚 养系数 X5:老年抚 养系数 X6:居民消 费比重(%) 1995 1997 200039 2001 2002 2003 2004 2005 2006 2007 2008 2009

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

因素分析法

因素分析法(Factor Analysis Approach),又称指数因素分析法,是利用统计指数体系分析现象总变动中各个因素影响程度的一种统计分析方法,包括连环替代法、差额分析法、指标分解法、定基替代法。因素分析法是现代统计学中一种重要而实用的方法,它是多元统计分析的一个分支。使用这种方法能够使研究者把一组反映事物性质、状态、特点等的变量简化为少数几个能够反映出事物内在联系的、固有的、决定事物本质特征的因素。 因素分析法的最大功用,就是运用数学方法对可观测的事物在发展中所表现出的外部特征和联系进行由表及里、由此及彼、去粗取精、去伪存真的处理,从而得出客观事物普遍本质的概括。其次,使用因素分析法可以使复杂的研究课题大为简化,并保持其基本的信息量。 2应用编辑 是通过分析期货商品的供求状况及其影响因素,来解释和预测期货价格变化趋势的方法。期货交易是以现货交易为基础的。期货价格与现货价格之间有着十分紧密的联系。商品供求状况及影响其供求的众多因素对现货市场商品价格产生重要影响,因而也必然会对期货价格重要影响。所以,通过分析商品供求状况及其影响因素的变化,可以帮助期货交易者预测和把握商品期货价格变化的基本趋势。在现实市场中,期货价格不仅受商品供求状况的影响,而且还受其他许多非供求因素的影响。这些非供求因素包括:金融货币因素,政治因素、政策因素、投机因素、心理预期等。因此,期货价格走势基本因素分析需要综合地考虑这些因素的影响。 商品供求状况对商品期货价格具有重要的影响。基本因素分析法主要分析的就是供求关系。商品供求状况的变化与价格的变动是互相影响、互相制约的。商品价格与供给成反比,供给增加,价格下降;供给减少,价格上升。商品价格与需求成正比,需求增加,价格上升;需求减少,价格下降。在其他因素不变的条件下,供给和需求的任何变化,都可能影响商品价格变化,一方面,商品价格的变化受供给和需求变动的影响;另一方面,商品价格的变化又反过来对供给和需求产生影响:价格上升,供给增加,需求减少;价格下降,供给减少,需求增加。这种供求与价格互相影响、互为因果的关系,使商品供求分析更加复杂化,即不仅要考虑供求变动对价格的影响,还要考虑价格变化对供求的反作用。 连环替代法 它是将分析指标分解为各个可以计量的因素,并根据各个因素之间的依存关系,顺次用各因素的比较值(通常即实际值)替代基准值(通常为标准值或计划值),据以测定各因素对分析指标的影响。 例如,设某一分析指标M是由相互联系的A、B、C三个因素相乘得到,报告期(实际)指标和基期(计划)指标为: 报告期(实际)指标M1=A1 * B1 * C1 基期(计划)指标 M0=A0 * B0 * C0 在测定各因素变动指标对指标R影响程度时可按顺序进行: 基期(计划)指标M0=A0 * B0 * C0 (1)

机组耗水率影响因素的回归分析

机组耗水率影响因素的回归分析 摘要 数理统计是具有广泛应用的数学分支,在生产过程和科学实验中,总会遇到多个变量,同一过程中的这些变量往往是相互依赖,相互制约的,也就是说他们之间存在相互关系,这种相互关系可以分为确定性关系和相关关系。变量之间的确定性关系和相关关系在一定条件下是可以相互转换的。本来具有函数关系的变量,当存在试验误差时,其函数关系往往以相关的形式表现出来相关关系虽然是不确定的,却是一种统计关系,在大量的观察下,往往会呈现出一定的规律性,这种函数称为回归函数或回归方程[1]。回归分析是一种处理变量之间相关关系最常用的统计方法,用它可以寻找隐藏在随机后面的统计规律。确定回归方程,检验回归方程的可信度等是回归分析的主要内容。按回归模型类型可划分为线性回归分析和非线性回归分析。 本文运用多元线性回归分析方法建立耗水率与出库流量、库水位的模型。首先收集数据并利用MATLAB软件[2]进行数据处理,作出散点图。分析图发现耗水率与出库流量、库水位有明显的线性关系。在此基础上假设并建立模型。对回归参数做点估计及区间估计,并作出显著性检验,发现显著效果良好,然后利用残差图[3]检验回归效果,发现异常点,进而改进模型,最后利用回归方程做点预测和区间预测。 关键词:相互关系;多元线性回归分析;线性回归方程;显著性检测

目录 1 设计目的 (1) 2 设计原理 (1) 2.1 线性回归方程的建立 (1) 2.2 参数估计 (1) 2.3 回归模型的假设检验 (2) 2.4 回归系数的假设检验和区间估计 (3) 2.5 利用回归模型进行预测 (3) 3 设计题目 (4) 4 实现过程 (4) 4.1 回归方程的确立 (4) 4.2 回归方程显著性检验 (6) 4.3 模型改进 (7) 4.4 回归预测 (8) 5 设计总结 (10) 参考文献 (10)

我国国内旅游收入影响因素的多元回归分析

我国国内旅游收入影响因素的多元分析 班级:统计学129 姓名: 杨芳 学号:200712918 2010年3月3日

问题背景: 我国的旅游业一直保持较高的发展速度,旅游作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。我国的旅游业分为国际旅游和国内旅游两大市场,虽然国际旅游外汇收入的年均增长率高于国内旅游收入,但国内旅游收入在中国旅游收入中占50%以上的比例,因此,有必要对影响我国国内旅游业快速发展的因素进行分析。数据的选择及处理: 影响国内旅游收入的因素有很多,本文选择了影响国内旅游收入因素(y)的因素有人均收入(x1)、国内旅游人数(x2)、城镇人均旅游支出(x3)、农村人均旅游支出(x4)、公路里程(x5)、铁路里程(x6)。 国内旅游收入数据资料 年份国内旅游收 入(亿元) 人均收 入(元) 国内旅游 人数(百 万人次) 城镇人均 旅游支出 (元) 农村人 均旅游 支出 (元) 公路里程 (万公 里) 铁路里 程(万公 里) 1994 1023.51 4044 524 414.67 54.88 111.78 5.9 1995 1375.7 5046 629 464.02 61.47 115.7 6.2389 1996 1638.38 5846 640 534.1 70.45 118.58 6.49 1997 2112.7 6420 644 599.8 145.68 122.64 6.6 1998 2391.18 6796 695 607 197 127.85 6.64 1999 2831.92 7159 719 614.8 249.5 135.17 6.74 2000 3175.54 7858 744 678.6 226.6 140.27 6.87 2001 3522.4 8622 784 708.3 212.7 169.8 7.0058 2002 3878.36 9398 878 739.7 209.1 176.52 7.19 2003 3442.27 10542 870 684.9 200 180.98 7.3 2004 4710.7 12336 1102 731.8 210.2 187.07 7.44 2005 5285.9 14053 1212 737.1 227.6 334.52 7.54376 2006 6229.74 16165 1394 766.4 221.9 345.6999 7.70838 2007 7770.6 19524 1610 906.9 222.5 358.3715 7.79659 数据来自《中国统计年鉴2008》 国内旅游收入(亿元):指国内游客在国内旅行、游览过程中用于交

SPSS多元线性回归分析报告实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件:spss19.0 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method选择Stepwise. 进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、

Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue. 3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

就业人数影响因素的回归分析

计量经济学案例分析 就业人数影响因素的回归分析 学院:数理学院 班级: 学号: 姓名:

、刖言 我国虽然社会经济体制转型还没有最终完成,但劳动力商品化和按要素分配已经占主导地位,收入分配差距拉大,基尼系数超过0.4,必然失业率的作用越来越大。 内需不足依赖出口的局面已经形成,就业问题日益严重。我国目前劳动生产率还不太高,市场的潜力十分巨大,处在市场经济不发展,政府的力量还很强的阶段。 般说来,发展中国家都急于赶超发达国家,很难处理好发展和增长、内涵扩大再生产和外延扩大再生产的关系。正是这些最基本的战略关系没有处理好,使各种经济结构失衡,造成产品积压和消费不足、就业岗位短缺并存且日益严重的局面。 人口和劳动就业直接影响着经济发展和社会稳定,关系到人们的切身利益。扩 大就业,促进再就业,关系改革发展稳定的大局,关系人们生活水平的提高,关系国家的长治久安,不仅是重大的经济问题,也是重大的政治问题。在就业问题上, 中国政府始终将促进就业作为国民经济和社会发展的战略性任务。 就业作为国家宏观调控经济政策的四大目标之一,是与人们关系最为密切的一 环。而中国作为一个人口大国,要彻底解决该问题是个不小的挑战。本文旨在通过对1985年到2011年27年数据进行分析,建立一个关于就业人数影响因素的多元线性回归模型,找出其中影响的主要因素,从而能够得出更有针对性的扩大就业的意见。 二、数据的收集与录用 本文选取数据为1985—2011年27年的人民币兑美元汇率、总人口数(万人)、国内生产总值(亿元)、全社会固定资产投资(亿元)、进出口总额(亿元)、各项税收(亿元)、流通中现金供应量(亿元)、就业人数(万人),数据均来源于国家统计局网站中国统计年鉴2011.见下表

基于多元线性回归模型的影响居民消费水平相关因素分析

计量分析软件课程论文 论文题目:基于多元线性回归模型的影响居民消费 水平相关因素分析 姓名:学号: 学院:专业: 联系电话: 年月日 基于多元线性回归模型的影响居民消费 水平相关因素分析 一、研究背景 中国GDP总量超越日本,成为仅次于美国的第二大经济体,但我国人均GDP 依然很低,全球排名87位,这很大程度上制约了居民消费水平的提高。到2020年实现全面建成小康社会的目标,十八大明确提出提高居民人均收入和人均消费水平,共享改革开放成果。我国居民消费水平在改革开放后有了很大提高,但消费水平依然很低,消费量占GDP比重依然很小。为此,本文旨在根据全国经济宏观政策、国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等因素的变化情况,来分析如何提高居民消费水平,以判断是否能使居民消费水平有很大的提高。本文通过对1978-2010年影响居民消费水平因素数据的分析,找到影响居民消费水平的主要原因,通过计量经济分析方法来建立合理的模型,探讨影响居民消费增长的长期趋势规律,并给政府提出合理的建议,以提高居民消费水平。 二、影响居民消费水平的因素 宏观经济模型) + GDP- + + =,经济发展应该紧紧抓住消费这一 I (M C X G 驾马车,而居民消费水平的高低受制于多种因素。凯恩斯消费理论认为居民消费主要受收入影响,我国居民消费一直很低,消费意愿不强,本文通过计量分析找

到影响我国居民消费水平的主要因素,从根本上改善消费不足,促进我国经济的持续稳定健康发展。 消费分为居民消费和,居民消费包括农村居民消费和城镇居民消费。本文结合居民消费水平的影响因素,列出了国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等相关因素,进行计量分析,得到回归模型。 三、居民消费水平模型的总体分析框架 (1)多元线性回归法OLS 概述[1] 回归分析是计量经济分析中使用最多的方法,在现实问题研究中,因变量往往受制于多个经济变量的影响,通过统计资料,根据多个解释变量的最优组合来建立回归方程预测被解释变量的回归分析称为多元线性回归法。其模型基本形式为: 其中0β、1β、2β、3β…k β是1+k 个未知参数,称为多元回归系数。Y 称为被解释变量,t X 1、t X 2、t X 3…kt X 是k 个可以精确测量和可控的一般解释变量, t μ是随机误差项。当2≥k 时,上式为多元线性回归模型。 (2)多元回归模型的建立 定义被解释变量和解释变量,被解释变量为居民消费水平(Y 元),解释变量为国内生产总值(1X 亿元)、职工平均工资指数(2X )、城镇居民消费价格指数(3X )、普通中学及高等学校在校生数(4X 万人)、卫生机构数(5X 个)和基本设施铁路公路货运量(6X 万吨)。 (3)统计数据选取 本文所有数据均来自中国统计局和中国统计局外网中国统计年鉴。[2] 1978 184 21261 169732 195301 1979 208 175142 382929 1980 238 180553 493327 1981 264 190126 471336 1982 288 193438 492737 1983 316 196017 520197

影响因素分析汇总(一)

影响因素分析汇总(一) 1. 影响太阳辐射强弱的因素: ①太阳高度角(纬度决定)②大气状况(天气、气候) ③海拔高低(主要是大气密度) 2. 影响气温高低的因素: ①纬度位置(太阳辐射) ②地形地势(海拔?闭塞?背风坡?迎风坡?对气流阻 隔?) ③大气环流④海陆位置及海陆分布(海洋性?大陆性?) ⑤洋流⑥下垫面热容虽,反射率等(植被状况) 3. 影响降水多少的因素: ①大气环流(气压带、风带;季风环流;大气活动中心) ②地形(迎风坡?背风坡?气流阻隔?) ③海陆位置(离海远近?离岸风、向岸风?) ④洋流 4. 影响气压大小的因素: ①地势(海拔)7气压随高度增加而降低 ②气温7同一高度气温高气压低 5. 影响气候的因素: ①纬度位置(太阳辐射)②大气环境(降水)

③下垫面(海陆位置,地形,洋流,地表状况等) ④人类活动(影响小气候和全球变暖) 6地表形态的影响因素: ①内力作用:地震,火山,变质作用 ②外力作用:风化,侵蚀,搬运,沉积,固结成岩 7.影响海水温度的因素: ①太阳辐射(热虽收支)—纬度 ②洋流③陆地气候 10. 影响水资源多少的因素: ①降水虽、蒸发虽(河川径流虽大小) ②水循环活跃程度 11. 影响渔场形成因素: ①大陆架:海水深浅及获得阳光多少 ②径流:营养物质多少 ③纬度:温带水域 ④洋流:寒暖流交汇或上升流 12. 影响降水形成的因素: ①有充足水汽、有凝结核、有上升气流 ②大气环流③地形④洋流 13. 影响暴雨形成的因素: ①源源不断水汽供应

②强烈上升气流 ③形成降水的天气系统持续时间长 14. 影响地震烈度的影响因素: ①地震本身的震级和震源深度 ②地表状况(震中距大小) ③地质构造情况(断层发育?) ④地面建筑物抗震程度 15. 农业发展的区位因素: ①自然条件:气候、地形、水源、土壤 ②社会经济因素:市场、劳动力、交通、政策、科技、农业机械 16. 乳畜业发展的区位条件: ①自然:气候适宜种植牧草和饲料作物 ②市场:城市众多,人口密集,市场需求大 ③交通:交通便利④科技:先进的科技 17. 工业发展的区位因素: ①原料,动力(燃料)②土地、水源 ③劳动力④市场⑤交通运输 ⑥农业基础、技术⑦政府政策 18. 新义工业,高技术产业发展区位因素: ①地理置优越②环境优美与气候宜人

多元回归分析SPSS

多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。

设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b 0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x 1对y的偏回归系数;同理b2为固定时,x2每增加一 个单位对y的效应,即,x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b 0为常数项,为回归系数,b1为固定时,x2每增加 一个单位对y的效应,即x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b 0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自 变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之 因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b 0,b1,b2的数值。亦可用下列矩阵法求得

多元逐步回归算法

逐步回归分析的基本思想 在实际问题中, 人们总是希望从对因变量y有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量y进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y 影响显著的变量, 而不显著的变量已被剔除。 逐步回归分析的实施过程是每一步都要对已引入回归方程的变量计算其偏回归平方和(即贡献), 然后选一个偏回归平方和最小的变量, 在预先给定的水平下进行显著性检验, 如果显著则该变量不必从回归方程中剔除, 这时方程中其它的几个变量也都不需要剔除(因为其它的几个变量的偏回归平方和都大于最小的一个更不需要剔除)。相反, 如果不显著, 则该变量要剔除, 然后按偏回归平方和由小到大地依次对方程中其它变量进行检验。将对影响不显著的变量全部剔除, 保留的都是显著的。接着再对未引人回归方程中的变量分别计算其偏回归平方和, 并选其中偏回归平方和最大的一个变量, 同样在给定水平下作显著性检验, 如果显著则将该变量引入回归方程, 这一过程一直继续下去, 直到在回归方程中的变量都不能剔除而又无新变量可以引入时为止, 这时逐步回归过程结束。 在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和(partial regression sum of squares)的大小,由大到小把自变量依次逐个引入。每引入一个变量,就 ≤时,将该自变量引入回归方程。新变量引入回归方程后,对方对它进行假设检验。当Pα 程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。回归结束,最后所得方程即为所求得的“最优”回归方程。 逐步回归分析的特点:双向筛选,即引入有意义的变量(前进法),剔除无意义变量(后退法) 多元线性回归的应用 1.影响因素分析 2.估计与预测用回归方程进行预测时,应选择 具有较高2 R值的方程。 3.统计控制指利用回归方程进行逆估计,即通 过控制自变量的值使得因变量Y为 给定的一个确切值或者一个波动范 围。此时,要求回归方程的2R值要 大,回归系数的标准误要小。 1.样本含量 应注意样本含量n与自变量个数m的比例。通常,

影响因素分析汇总

高三地理复习材料(影响因素分析汇总) 1 ?影响太阳辐射强弱的因素: ①太阳高度角(纬度决定);②大气状况(天气、气候);③海拔高低(主要是大气密度)。2?影响气温高低的因素: ①纬度位置(太阳辐射);②地形地势(海拔?闭塞?背风坡?迎风坡?对气流阻隔?); ③大气环流;④海陆位置及海陆分布(海洋性?大陆性?);⑤洋流;⑥下垫面热容量,反射率 等(植被状况)。 3?影响降水多少的因素: ①大气环流(气压带、风带;季风环流;大气活动中心);②地形(迎风坡?背风坡?气流阻 隔?);③海陆位置(离海远近?离岸风、向岸风?);④洋流。 4?影响气压大小的因素: ①地势(海拔)t气压随高度增加而降低;②气温t同一高度气温高气压低。 5?影响气候的因素: ①纬度位置(太阳辐射);②大气环境(降水);③下垫面(海陆位置,地形,洋流,地表状况 等);④人类活动(影响小气候和全球变暖)。 6地表形态的影响因素: ①内力作用:地震,火山,变质作用;②外力作用:风化,侵蚀,搬运,沉积,固结成岩。7?影响海水温度的因素: ①太阳辐射(热量收支)-纬度;②洋流;③陆地气候。 8.海水盐度大小的影响因素: ①降水量、蒸发量(气候、纬度);②洋流;③结冰、融冰;④河流径流的注入;⑤与外 界海水交换状况(海域是否闭塞)。 9?影响潮汐大小的因素: ①地形条件(是否呈口大内小喇叭状开口);②气象条件(风向);③天文条件(日、月、地位 置)。

10?影响水资源多少的因素: ①降水量、蒸发量(河川径流量大小);②水循环活跃程度。 11.影响渔场形成因素: ①大陆架:海水深浅及获得阳光多少;②径流:营养物质多少;③纬度:温带水域;④洋流:寒 暖流交汇或上升流。 12?影响降水形成的因素: ①有充足水汽、有凝结核、有上升气流;②大气环流;③地形;④洋流。 13?影响暴雨形成的因素: ①源源不断水汽供应;②强烈上升气流;③形成降水的天气系统持续时间长。 14. 影响地震烈度的影响因素: ①地震本身的震级和震源深度;②地表状况(震中距大小);③地质构造情况(断层发育?): ④地面建筑物抗震程度。 15. 农业发展的区位因素: ①自然条件:气候、地形、水源、土壤;②社会经济因素:市场、劳动力、交通、政策、科技、农业 机械。 16. 乳畜业发展的区位条件: ①自然:气候适宜种植牧草和饲料作物;②市场:城市众多,人口密集,市场需求大;③交通:交通 便利;④科技:先进的科技。 17. 工业发展的区位因素: ①原料,动力(燃料);②土地、水源;③劳动力;④市场;⑤交通运输;⑥农业基础、 技术;⑦政府政策 18?新兴工业,高技术产业发展区位因素: ①地理置优越;②环境优美与气候宜人;③科技基础;④教育和劳动力素质水平;⑤交通运输;⑥地 价、地租高低。 19. 古代中低纬度河流冲积平原区城市兴起的区位因素: ①气候:气候温暖湿润;②地形:地形平坦;③水源:灌溉水源充足;④土壤:土壤深厚肥沃,导致 灌溉农业发达,提供农副产品多。 20. 城市的区位因素:

相关文档
最新文档