实验相关与回归分析

实验二、相关与回归分析

一、实验目的及要求

掌握利用SPSS 10.0软件进行相关分析和回归分析的基本操作方法,理解SPSS 10.0软件给出的相关分析和回归分析结果。

二、实验内容

了解SPSS 10.0软件中Statistics菜单的Correlate子菜单的功能;利用SPSS 10.0软件进行简单相关分析;了解SPSS 10.0软件中Statistics菜单的Regression子菜单的主要功能;利用SPSS 10.0软件进行多元线性回归和一元非线性回归分析。

三、实验仪器、设备及材料

硬件环境:PC

软件环境:操作系统Windows 系列

SPSS 10.0

四、实验原理

计量地理学中关于地理数据相关分析和回归分析的基本理论及SPSS 10.0软件操作指南。

五、实验步骤

§1.1利用SPSS进行相关分析

SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:

?Bivariate过程:此过程用于进行两个/多个变量间的相关分析,如果是多个变量,则给出两两相关的分析结果。

?Partial过程:Partial过程专门用于进行偏相关分析。

?Distances过程:该过程在实际应用中用的非常少。有兴趣的同学自己查阅。

1.1.1Bivariate过程

1.1.1.1界面说明

【Variables框】

用于选入需要进行相关分析的变量,至少需要选入两个。

【Correlation Coefficients复选框组】

用于选择需要计算的相关分析指标,有:

?Pearson复选框选择进行积距相关分析,即最常用的参数相关分析

?Kendall's tau-b复选框计算Kendall's等级相关系数

?Spearman复选框计算Spearman相关系数,即最常用的非参数相关分析(秩相关)【Test of Significance单选框组】

用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Flag significant correlations】

用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。

【Options钮】

弹出Options对话框,选择需要计算的描述统计量和统计分析:

?Statistics复选框组可选的描述统计量。它们是:

1.Means and standard deviations每个变量的均数和标准差

2.Cross-product deviations and covariances各对变量的交叉积和以及协方差阵

?Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pair wise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases list wise)。默认为前者,以充分利用数据。

1.1.1.2 分析实例

计算SPSS自带的样本数据judges.sav中意大利法官(judge1)和韩国法官(judge2)得分的相关性。

由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman 相关系数。操作如下:

1.Variables框:选入judge1、judge2

2.Pearson复选框:选中

3.Spearman复选框:选中

4.单击OK钮

1.1.1.3 结果解释

输出结果如下所示:

Correlations

(1)

在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。

注:如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看到精确的P值大小。

上表的标题内容翻译如下:

(2)Nonparametric Correlations

此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。

1.1.2 Partial过程

1.1.

2.1界面说明

【Variables框】

用于选入需要进行偏相关分析的变量,至少需要选入两个。

【Controlling for框】

用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普通的相关分析。

【Test of Significance单选框组】

意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。

【Display actual significince level复选框】

用于确定是否在结果中给出确切的P值,一般选中。

【Options钮】

弹出Options对话框,选择需要计算的描述统计量和统计分析:

Statistics复选框组可选的描述统计量。它们是:

1.Means and standard deviations每个变量的均数和标准差

2.Zero-order correlations给出包括协变量在内所有变量的相关方阵

Missing Values单选框组定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。

1.1.

2.2结果解释

与Bivariate过程的结果显示类似,只不过这时显示的相关系数是偏相关系数。

§1.2 利用SPSS进行回归分析

SPSS的回归分析功能被集中在Statistics菜单的Regression子菜单中。其中: Linear 过程可完成二元或多元的线性回归分析;Curve Estimation过程可以用于拟合各种各样的曲线;Binary Logistic过程可以用于拟合Logistic曲线。

1.2.1 Linear过程

1.2.1.1界面详解

在菜单中选择Regression==>liner,系统弹出线性回归对话框如下:

其中:

【Dependent框】

用于选入回归分析的应变量。

【Block按钮组】

由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。

【Independent框】

用于选入回归分析的自变量。

【Method下拉列表】

用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove (强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前Independent 框中的所有变量均有效。

【Selection Variable框】

选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。

【Case Labels框】

选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。

【WLS>>钮】

可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。

【Statistics钮】

弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:

o Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates 可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中

Confidence intervals则输出每个回归系数的95%可信区间;选中covariance

matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。

o Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。

o Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2和调整的R2, 标准误及方差分析表。

o R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。

o Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。

o Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。

o Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。

以上各项在默认情况下只有Estimates和Model fit复选框被选中。

【Plot钮】

弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。

【Save钮】

许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。

【Options钮】

设置回归分析的一些选项,有:

o Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F

值来设置。

o Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。

o Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任

一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终

是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases

pairwise);将缺失值用该变量的均数代替(Replace with mean)。

1.2.1.2 多元线性回归实例

某种商品的需求量Y、价格X1 和消费者收入X2 的统计资料如所示,试估计Y对X1 和X2 的线性回归方程。

用SPSS 估计参数步骤如下:

1、在SPSS 中输入变量数据,设变量名分别为Y、X1、X2。

2、选择主菜单[Analyze]=>[Regression]=>[Linear…],显示如下图所示的对话框。

3、选择Y 进入[Dependent]因变量框,选择X1、X2 进入[Independent(s)]自变量列表框,单击[OK]。

4、回归结果输出:

注:参照所学理论知识学会看输出结果。

1.2.2 Curve Estimation过程

Curve Estimation过程可以用于拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。

Curve Estimation过程中有特色的对话框界面内容如下:

下面我们分别解释一下它们的具体功能。

【Dependent框】

用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量分别拟合模型。

【Independent单选框组】

用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。

【Models复选框组】

是该对话框的重点,用于选择所用的曲线模型,可用的有:

?Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同;

?Quadratic:拟合二次方程Y = b0+b1X+b2X2;

?Compound:拟合复合曲线模型Y = b0×b1X;

?Growth:拟合等比级数曲线模型Y = e(b0+b1X);

?Logarithmic:拟合对数方程Y = b0+b1lnX;

?Cubic:拟合三次方程Y = b0+b1X+b2X2+b3X3;

?S:拟合S形曲线Y = e(b0+b1/X);

?Exponential:拟合指数方程Y = b0 eb1X;

?Inverse:数据按Y = b0+b1/X进行变换;

?Power:拟合乘幂曲线模型Y = b0X b1;

?Logistic:拟合Logistic曲线模型Y = 1/(1/u + b0×b1X),如选择该线型则要求输入上界。

注:上面的几种线型和其他的模块有重复,如Logistic、Liner等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。

【Include constant in equation复选框】

确定是否在方程中包含常数项。

【Plot models复选框】

要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。

【save钮】

弹出SAVE对话框,用于定义想要存储的中间结果,如预测值、预测值可信区间、残差等。

【Display ANOVA table复选框】

要求显示模型检验的方差分析表。

注:曲线拟合是非常复杂的问题,往往有多少条曲线,就会有多少种意见,最后还是要结合专业知识来决定,千万不能轻易下结论。

1.2.3 Binary Logistic过程

Binary Logistic过程可以用于拟合Logistic曲线,有兴趣的同学可以自学。

六、实验报告要求

内容要求:(1)实验时间和实验地点;(2)实验操作过程归纳;(3)参照理论知识对相关分析和回归分析输出结果进行解释。

七、实验注意事项

遵守实验室管理规范和计算机操作规范。

八、思考题目

在进行逐步回归分析时,如果α改变,回归结果会有变化吗?如果设定不同的α会有不同的回归方程,则如何判定何优何劣呢?

相关文档
最新文档