SPSS实验8-二项Logistic回归分析

SPSS实验8-二项Logistic回归分析
SPSS实验8-二项Logistic回归分析

SPSS作业8:二项Logistic回归分析

为研究和预测某商品消费特点和趋势,收集到以往胡消费数据。数据项包括是否购买,性别,年龄和收入水平。这里采用Logistic回归的方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量。变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。

(一)基本操作:

(1)选择菜单Analyz e-Regression-Binary Logistic;

(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Enter方法,结果如下:

分析:上表显示了对品质变量产生虚拟变量的情况,产生的虚拟变量命名为原变量名(编码)。可以看到,对收入生成了两个虚拟变量名为Income(1)和Income(2),分别表示是否中收入和是否高收入,两变量均为0时表示低收入;对性别生成了一个虚拟变量名为Gedder(1),表示是否女,取值为0

时表示为男。

消费的二项Logistic分析结果(二)(强制进入策略)

分析:上表显示了Logistic分析初始阶段(第零步)方程中只有常数项时的错判矩阵。可以看到:269人中实际没购买且模型预测正确,正确率为100%;162人中实际购买了但模型均预测错误,正确率为0%。模型总的预测正确率为62.4%。

消费的二项Logistic分析结果(三)(强制进入策略)

分析:上表显示了方程中只有常数项时的回归系数方面的指标,各数据项的含义依次为回归系数,回归系数标准误差,Wald检验统计量的观测值,自由度,Wald检验统计量的概率p值,发生比。由于此时模型中未包含任何解释变量,因此该表没有实际意义。

分析:上表显示了待进入方程的各个变量的情况,各数据项的含义依次为Score检验统计量的观测值,自由度和概率p值。可以看到,如果下一步Age 进入方程,则Score检验统计量的观测值为1.268,概率p值为0.26。如果显著性水平a为0.05,由于Age的概率p值大于显著性水平a,所以是不能进入方程的。但在这里,由于解释变量的筛选策略为Enter,所以这些变量也被强行进入方程。

消费的二项Logistic分析结果(五)(强制进入策略)

分析:上表显示了Logistic分析第一步时回归方程显著性检验的总体情况,各数据项的含义依次为似然比卡方的观测值,自由度和概率p值。可以看到,在本步所选变量均进入方程(Method=Enter)。与前一步相比,似然比卡方检验的观测值18.441,概率p值为0.001。如果显著性水平a为0.05,由于概率p值小于显著性水平a,应拒绝零假设,认为所有回归系数不同时为0,解释变量的全体与Logit P之间的线性关系显著,采用该模型是合理的。

在这里分别输出了三行似然比卡方值。其中,Step行是本步与前一步相比的似然卡方比;Block行是本块(Block)与前一块相比的似然卡方比;Model 行是本模型与前一模型相比的似然卡方比。在本例中,由于没有设置解释变量块,且解释变量是一次性强制进入模型,所以三行结果都相同。

分析:上表显示了当前模型拟合优度方面的指标,各数据项的含义依次为-2倍的对数似然函数值,Cox&SnellR^2。-2倍的对数似然函数值越小则模型的拟合优度越高。这里该值较大,所以模型的拟合优度并不理想。从NagelkerkeR^2也可以看到其值接近零,因此拟合优度比较低。

分析:上表显示了当前所得模型的错判矩阵。可以看到,脚注中的The Cut value is .500意味着:如果预测概率值大于0.5,则认为被解释变量的分类预测值为1,如果小于0.5,则认为被解释变量的分类预测值为0.;在实际没购买的269人中,模型正确识别了236人,识别错误了131人,正确率为19.1%。模型总的预测正确率为61.9%。与前一步相比,对未购买的预测准确度下降了,对购买的预测准确度上升了,但总体预测精度仍下降了。因此模型预测效果并不十分理想。

消费的二项Logistic分析结果(八)(强制进入策略)

分析:上表显示了当前所得模型中各个回归系数方面的指标。可以看出,如果显著性水平a为0.05,由于Age的Wald检验概率p值大于显著性水平a,不应拒绝零假设,认为该回归系数与0无显著差异,它与Logit P的线性关系是不显著的,不应保留在方程中。由于方程中包含了不显著的解释变量,因此该模型是不可用的,应重新建模。

下面是对模型做进一步分析,解释变量的筛选采用基于极大似然估计的逐步筛选策略(Forward:LR),分析的具体操作以及结果如下:

(二)基本操作:

(1)选择菜单Analyz e-Regression-Binary Logistic;

(2)选择是否购买作为被解释变量到Dependent框中,选其余各变量为解释变量到Covariates框中,采用Forward:LR方法,在Option框中对模型做近一步分析,结果如下:

消费的二项Logistic分析结果(一)(逐步筛选策略)

消费的二项Logistic分析结果(二)(逐步筛选策略)

分析:上面第一个表显示了变量逐步筛选过程中对数似然比卡方检验的结果,用于回归方程的显著性检验。这里略去了第零步分析的结果。结果上面的两个表共同分析。在Step1中,模型中包含常数项和INCOME。如果此时剔除INCOME将使-2LL减少10.543,即10.543是INCOME进入模型引起的,-285.325即为零模型的对数似然比;在Step2中,模型中包含常数项,INCOME,GENDER。此时剔除GENDER,即-2LL将减少5.917,即5.917是在Step1基础上GENDER所引起的,-280.053即为Step1模型的对数似然比,此时-2*285.325+2*280.053=10.543,即INCOME引起的。其他同理。可以看到,如果显著性水平a为0.05,由于各步的概率p值均小于显著性水平a,因此此时模型中的解释变量全体与Logit P的线性关系是显著,模型合理。

消费的二项Logistic分析结果(三)(逐步筛选策略)

分析:上表显示了解释变量筛选的过程和各解释变量的回归系数检验结果。可以看到,最终的模型(第二步)中包含了性别和收入变量,各自回归系数显著性检验的Wald观测值对应的概率p值都小于显著性水平a,因此均拒绝零假设,意味它们与Logit P的线性关系是显著,应保留在方程中。表中的第七,第八列分别是发生比的95%的置信区间。

最终年龄变量没有引入方程,因为如果引入则相应的Score检验的概率p值大于显著性水平a,不应拒绝零假设,它与Logit P的线性关系不显著,不应进入方程。具体结果如下:

消费的二项Logistic分析结果(四)(逐步筛选策略)

分析:上表显示了模型拟合优度方面的测度指标。最终模型的-2倍的对数似然函数值为554.190,仍然较高,说明模型的拟合优度不甚理想。同时,

NagelkerkeR^2距1较远,也说明了模型的拟合优度不高。消费的二项Logistic分析结果(六)(逐步筛选策略)

消费的二项Logistic分析结果(七)(逐步筛选策略)

分析:上面是Hosmer-Lemeshow检验的结果。最终模型中,Hosmer-Lemeshow统计量的观测值为8.943,概率p值为0.063,大于显著性水平a,因此不应拒绝零假设,认为该组的划分与被解释变量的取值不相关,说明模型的拟合优度较低。它与NagelkerkeR^2分析的结果是一致的。

消费的二项Logistic分析结果(八)(逐步筛选策略)

Step number: 2

Observed Groups and Predicted Probabilities

160 ┼┼││││F ││R 120 ┼┼E ││Q ││U │ 1 │E 80 ┼ 1 1 1 ┼N │ 1 1 1 1 1 │C │ 0 0 1 1 1 │Y │ 0 0 1 1 1 │

40 ┼ 0 0 0 0 0 0 ┼

│ 0 0 0 0 0 0 │

│ 0 0 0 0 0 0 │

│ 0 0 0 0 0 0 │

Predicted ─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼─────────┼──────────

Prob: 0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

Group: 0000000000000000000000000000000000000000000000000011111111111111111111111111111111111111111111111111

Predicted Probability is of Membership for 购买

The Cut Value is .50

Symbols: 0 - 不购买

1 - 购买

Each Symbol Represents 10 Cases.

图:消费的二项Logistic分析预测分类图

分析:上表显示了各模型的错判矩阵。第一个模型的总体正确率为62.4%,对不购买人群预测的准确率极高,但对购买人群预测的准确率极低;第二个模型的总体正确率为60.6%,对不购买人群预测的准确率下降了,但对购买人群预测的准确率提高了。从应用角度看第二个模型较第一个模型的应用性略强一些。

在上图中,符号0表示实际未购买,1表示实际购买,一个符号代表10个样本。预测概率值大于0.5的样本属于购买类,小于0.5的属于未购买类。可以看出:在模型预测出的购买类中,仍有40个左右(4个0,精确值为44)实际未购买;同样,在模型预测出的未购买类中,仍有110个左右(11个1,精确值为126)实际购买了。模型的预测效果并不很理想。

通过以上的分析知道,该模型的预测效果不很理想。也就是说,仅通过性别和收入来预测是否购买商品是不全面的,还应考虑其他因素。但是该模型仍可以用于分析是否购买和收入之间的关系。由上面的分析结果,可以写出Logistic回归方程:

Logit P =-1.11 + 0.504 gender(1)

Logit P =-1.11 + 0.504 gender(1)+ 0.096 income(1)

Logit P =-1.11 + 0.504 gender(1)+ 0.761 income(2)

上面的第一个式子反映了女性与男性在购买上的差异。女性较男性使Logit P平均增长0.504个单位。结合发生比可知,女性的购买发生比是男性的1.656倍,因此女性更倾向购买该商品。进一步分析,上面的第二个式子反映了女性顾客群中中等收入较低等收入在购买上的差异。对于女性顾客群,中等收入较低等收入使Logit P平均增长0.096个单位。结合发生比可知,女性顾客群中,中等收入的购买发生比是低等收入的1.101倍(有95%的把握在0.658至1.67之间),略高一些,但差异并不十分明显。而通过上面的第三个式子可知,对于女性顾客群,高等收入较低等收入使Logit P平均增长0.761个单位。结合发生比可知,女性顾客群中,高等收入的购买发生比是低等收入的2.139倍(有95%的把握在1.099至2.493之间),显然高出较多。因此分析的结论是:年龄对是否购买该商品并无显著影响,较男性来说,女性成为现实客户的可能性大,且高收入阶层较其他收入阶层有较高的购买可能。

原始数据:

【实验报告】SPSS相关分析实验报告

SPSS相关分析实验报告 篇一:spss对数据进行相关性分析实验报告 实验一 一.实验目的 掌握用spss软件对数据进行相关性分析,熟悉其操作过程,并能分析其结果。 二.实验原理 相关性分析是考察两个变量之间线性关系的一种统计分析方法。更精确地说,当一个变量发生变化时,另一个变量如何变化,此时就需要通过计算相关系数来做深入的定量考察。P值是针对原假设H0:假设两变量无线性相关而言的。一般假设检验的显著性水平为0.05,你只需要拿p值和0.05进行比较:如果p值小于0.05,就拒绝原假设H0,说明两变量有线性相关的关系,他们无线性相关的可能性小于0.05;如果大于0.05,则一般认为无线性相关关系,至于相关的程度则要看相关系数R值,r越大,说明越相关。越小,则相关程度越低。而偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程,其检验过程与相关分析相似。三、实验内容 掌握使用spss软件对数据进行相关性分析,从变量之间的相关关系,寻求与人均食品支出密切相关的因素。 (1)检验人均食品支出与粮价和人均收入之间的相关关系。 a.打开spss软件,输入“回归人均食品支出”数据。

b.在spssd的菜单栏中选择点击,弹出一个对话窗口。 C.在对话窗口中点击ok,系统输出结果,如下表。 从表中可以看出,人均食品支出与人均收入之间的相关系数为0.921,t检验的显著性概率为0.0000.01,拒绝零假设,表明两个变量之间显著相关。人均食品支出与粮食平均单价之间的相关系数为0.730,t检验的显著性概率为 0.0000.01,拒绝零假设,表明两个变量之间也显著相关。 (2)研究人均食品支出与人均收入之间的偏相关关系。 读入数据后: A.点击系统弹出一个对话窗口。 B.点击OK,系统输出结果,如下表。 从表中可以看出,人均食品支出与人均收入的偏相关系数为0.8665,显著性概率p=0.0000.01,说明在剔除了粮食单价的影响后,人均食品支出与人均收入依然有显著性关系,并且0.86650.921,说明它们之间的显著性关系稍有减弱。通过相关关系与偏相关关系的比较可以得知:在粮价的影响下,人均收入对人均食品支出的影响更大。 三、实验总结 1、熟悉了用spss软件对数据进行相关性分析,熟悉其操作过程。 2、通过spss软件输出的数据结果并能够分析其相互之间的关系,并且解决实际问题。 3、充分理解了相关性分析的应用原理。

应用统计spss分析报告

应用统计spss分析报告

学生姓名:肖浩鑫学号:31407371 一、实验项目名称:实验报告(三) 二、实验目的和要求 (一)变量间关系的度量:包括绘制散点图,相关系数计算及显著性检验; (二)一元线性回归:包括一元线性回归模型及参数的最小二乘估计,回归方程的评价及显著性检验,利用回归方程进行估计和预测; (三)多元线性回归:包括多元线性回归模型及参数的最小二乘估计,回归方程的评价及显著性检验等,多重共线性问题与自变量选择,哑变量回归; 三、实验内容 1. 从某一行业中随机抽取12家企业,所得产量与生产费用的数据如下: 企业编号产量(台)生产费用(万元)企业编号产量(台)生产费用(万元) 1 40 130 7 84 165 2 42 150 8 100 170 3 50 155 9 116 167 4 5 5 140 10 125 180 5 65 150 11 130 175 6 78 154 12 140 185 (1)绘制产量与生产费用的散点图,判断二者之间的关系形态。 (2)计算产量与生产费用之间的线性相关系数,并对相关系数的显著性进行检验(),并说明二者之间的关系强度。

2. 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据: 地区人均GDP(元)人均消费水平(元) 北京22460 7326 辽宁11226 4490 上海34547 11546 江西4851 2396 河南5444 2208 贵州2662 1608 陕西4549 2035 (1)绘制散点图,并计算相关系数,说明二者之间的关系。 (2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 (3)计算判定系数和估计标准误差,并解释其意义。(4)检验回归方程线性关系的显著性()(5)如果某地区的人均GDP为5000元,预测其人均消费水平。 (6)求人均GDP为5000元时,人均消费水平95%的置信区间和预测区间。 3. 随机抽取10家航空公司,对其最近一年的航班正点率和顾客投诉次数进行调查,数据如下:

SPSS实验报告_线性回归_曲线估计

《数据分析实务与案例实验报告》 曲线估计 学号:2013111104000614 班级:2013 应用统计 姓名: 日期: 2 0 1 4 – 12 – 7 数学与统计学学院

一、实验目的 1. 准确理解曲线回归分析的方法原理。 2. 了解如何将本质线性关系模型转化为线性关系模型进行回归分析。 3. 熟练掌握曲线估计的SPSS 操作。 4. 掌握建立合适曲线模型的判断依据。 5. 掌握如何利用曲线回归方程进行预测。 6. 培养运用多曲线估计解决身边实际问题的能力。 二、准备知识 1. 非线性模型的基本内容 变量之间的非线性关系可以划分为 本质线性关系和本质非线性关系。所谓本质线性关系是指变量关系形式上虽然呈非线性关系,但可以通过变量转化为线性关系,并可最终进行线性回归分析,建立线性模型。本质非线性关系是指变量之间不仅形式上呈现非线性关系,而且也无法通过变量转化为线性关系,最终无法进行线性回归分析,建立线性模型。本实验针对本质线性模型进行。 下面介绍本次实验涉及到的可线性化的非线性模型,所用的变换既有自变量的变换,也有因变量的变换。 乘法模型: 123y x x x βγδαε= 其中α,β,γ,δ 都是未知参数,ε是乘积随机误差。对上式两边取自然对数得到 123ln ln ln ln ln ln y x x x αβγδε=++++

上式具有一般线性回归方程的形式,因而用多元线性回归的方法来处理。然而,必须强调指出的是,在求置信区间和做有关试验时,必须是2ln (0,)n N I εδ: , 而不是2n N I εδ:(0,) ,因此检验之前,要先检验ln ε 是否满足这个假设。 三、实验内容 已有很多学者验证了能源消费与经济增长的因果关系,证明了能源消费是促进经济增长的原因之一。也有众多学者利用C-D 生产函数验证了劳动和资本对经济增长的影响机理。所有这些研究都极少将劳动、资本、和能源建立在一个模型中来研究三个因素对经济增长的作用方向和作用大小。 现从我国能源消费、全社会固定资产投资和就业人员的实际出发,假定生产技术水平在短期能不会发生较大变化,经济增长、全社会固定资产投资、就业人员、能源消费可以分别采用国内生产总值、全社会固定资产投资总量、就业总人数、能源消费总量进行衡量,并假定经济增长与能源消费、资本和劳动力的关系均满足C-D 生产函数。 问题中的C-D 生产函数为: Y AK L E αβγ= 式中:Y 为GDP ,衡量总产出;K 为全社会固定资产投资,衡量资本投入量;L 为就业人数,衡量劳动投入量;E 为能源消费总量,衡量能源投入量;A,α,β, γ 为未知参数。根据C-D 函数的假定,一般情形α,β,γ均在0和1之间,但当α,β,γ中有负数时,说明这种投入量的增长,反而会引起GDP 的下降,当α,β,γ中出现大于1的值时,说明这种投入量的增加会引起GDP 成倍增加,这在经济学现象中都是存在的。 以我国1985—2004年的有关数据建立了SPSS 数据集,参见

SPSS相关分析报告实验报告材料

本科教学实验报告 (实验)课程名称:数据分析技术系列实验

实验报告 学生姓名: 一、实验室名称: 二、实验项目名称:相关分析 三、实验原理 相关关系是不完全确定的随机关系。在相关关系的情况下,当一个或几个相互联系的变量取一定值得时候,与之相应的另一变量的值虽然不确定,但它仍然按照某种规律在一定的范围内变化。 按照数据度量的尺度不同,相关分析的方法也不同,连续变量之间的相关性常用Pearson简单相关系数测定;定序变量的相关系数常用Spearman秩相关系数和Kendall 秩相关系数测定;定类变量的相关分析要使用列连表分析法。 四、实验目的 理解相关分析的基本原理,掌握在SPSS软件中相关分析的主要参数设置及其含义,掌握SPSS软件分析结果的含义及其分析。 五、实验内容及步骤 实验内容:以雇员表为例,共有474条数据,运用相关分析方法对变量间的相关关系进行分析。

1)分析性别与工资之间是否存在相关关系。 2)分析教育程度与工资之间是否存在相关关系。 实验要求:掌握相关分析方法的计算思路及其在SPSS环境下的操作方法,掌握输出结果的解释。 1. 分析性别与工资之间是否存在相关关系。 分析:性别属于定类变量,是离散值,因使用卡方检验。 Step1.操作为Analyze \ Descriptive Statistics \ Crosstabs Step2.将性别(Gender)和收入(Current Salary)分别移入Rows列表框和Columns 列表框。

Step3.单击Statistics按钮,在弹出的子对话框中选中默认的Chi-square,进行卡方检验。退回到主对话框,单击ok。

SPSS实验报告(一)

SPSS实验报告(一)

湖南涉外经济学院 实验报告 课程名称:应用统计软件分析(SPSS) 专业班级: 姓名 学号: 指导教师: 职称:副研究员 实验日期: 2016.4.19 成绩评定指导教 师 签字 签字 日期

学生实验报告实验序号 一、实验目的及要求 实验目的 通过本次实验,使学生熟练掌握转换菜单和数据菜单的具体功能及操作,熟练应用两个菜单中的计算变量、重新编码、选择个案、个案排序、分类汇总等几个主要过程 实验要求 能够根据相关要求选用正确的过程对变量或者文件进行管理和操作,得到结果,并能对得出的结果进行解释。 二、实验描述及实验过程 实验描述一、下载数据(以下情况选一种): (一)分地区(31个省市区)环境污染治理投资数据(2014年) 环境污染治理投资总额(亿元),城市环境基础设施建设投资额(亿元) ,城市燃气建设投资额(亿元) ,城市集中供热建设投资额(亿元),城市排水建设投资额(亿元),城市园林绿化建设投资额(亿元),城市市容环境卫生建设投资额(亿元)

工业污染源治理投资(万元) 建设项目“三同时”环保投资额(亿元) (二)分地区(31个省市区)经济发展总体数据(2014年) 国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值,人口总量,城镇失业率,基尼系数等 (三)各省市房地产开发2014年相关数据 投资额,房地产开发企业个数,从业人员数,收入,税金,利润,资产,负债,平均销售价格,等等。 (四)各省市科技2014年相关数据 包括GDP,研发投入,研发投入强度(研发投入/GDP),R&D研发人员,专利授权数,发明专利授权量。 (五)查找相关行业(钢铁行业、水泥行业、医药制造、工程机械、汽车制造业、旅游酒店行业、航空、电子商务企业等)上市公司2015年度数据。包括销售收入、利润、固定资产净值、总资产利润率、营业利润率、销售净利率、净资产收益率、流动比率、资产负债率、主营业务收入增长率、营收账款周转率、存货周转

实验7相关及回归分析SPSS应用

实验7 相关与回归分析 7.1实验目的 熟练掌握一元线性回归分析的SPSS应用技能,掌握一元非线性回归分析的SPSS应用技能,对实验结果做出解释。 7.2相关知识(略) 7.3实验内容 7.3.1一元线性回归分析的SPSS实验 7.3.2一元非线性回归分析的SPSS实验 7.4实验要求 7.4.1准备实验数据 1.线性回归分析数据 (The Wall 美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》 Street Journal Almanac 1999)上。航班正点到达的比率和每10万名乘客投诉 的次数的数据,见表7-1所示。 表7-1 美国航空公司航空正点率与乘客投诉次数资料 2.非线性回归分析数据 1992~2013年某国保费收入与国内生产总值的数据,试研究保费收入与国内生产

总值的关系的数据,见表7-2所示。 表7-2 1992~2013年某国保费收入与国内生产总值数据 单位:万元 7.4.2完成一元线性回归分析的SPSS 实验,对实验结果作出简要分析。 7.4.3完成一元非线性回归分析的SPSS 实验,对实验结果作出简要分析。 7.5实验步骤 7.5.1 完成一元线性回归分析的SPSS 实验步骤 1.运用SPSS 绘制散点图散点图。 第一步:在excel 中输入数据 图7-1 第二步:将excel 数据导入spss 单击打开数据文档按钮(或选择菜单文件→打开)→选择文件航空公司航班

正点率与投诉率.xls 图7-2 第三步:选择菜单图形→旧对话框→散点/点状,在散点图/点图对话框中, 选择简单分布按钮 图7-3 第三步:在简单散点图对话框中,将候选变量框中的投诉率添加到Y轴,航班正点率添加到X轴,点击确定:

多元线性回归SPSS实验报告

回归分析基本分析: 将毕业生人数移入因变量,其他解释变量移入自变量。在统计量中选择估计和模型拟合度,得到如图 注解:模型的拟合优度检验:

第二列:两变量(被解释变量和解释变量)的复相关系数R=0.999。 第三列:被解释向量(毕业人数)和解释向量的判定系数R2=0.998。 第四列:被解释向量(毕业人数)和解释向量的调整判定系数R2=0.971。在多个解释变量的时候,需要参考调整的判定系数,越接近1,说明回归方程对样本数据的拟合优度越高,被解释向量可以被模型解释的部分越多。 第五列:回归方程的估计标准误差=9.822 回归方程的显著性检验-回归分析的方差分析表 F检验统计量的值=776.216,对应的概率p值=0.000,小于显著性水平0.05,应拒绝回归方程显著性检验原假设(回归系数与0不存在显著性差异),认为:回归系数不为0,被解释变量(毕业生人数)和解释变量的线性关系显著,可以建立线性模型。 注解:回归系数的显著性检验以及回归方程的偏回归系数和常数项的估计值第二列:常数项估计值=-544.366;其余是偏回归系数估计值。

第三列:偏回归系数的标准误差。 第四列:标准化偏回归系数。 第五列:偏回归系数T检验的t统计量。 第六列:t统计量对应的概率p值;小于显著性水平0.05,拒接原假设(回归系数与0不存在显著性差异),认为回归系数部位0,被解释变量与解释变量的线性关系是显著的;大于显著性水平0.05,接受原假设(回归系数与0不存在显著性差异),认为回归系数为0被解释变量与解释变量的线性关系不显著的。 于是,多元线性回归方程为: y=-544.366+0.032x1+0.009x2+0.001x3-0.1x5+3.046x6 回归分析的进一步分析: 1.多重共线性检验 从容差和方差膨胀因子来看,在校学生数和教职工总数与其他解释变量的多重共线性很严重。在重新建模中可以考虑剔除该变量

多元统计学SPSS实验报告一

华东理工大学2016–2017学年第二学期 《多元统计学》实验报告 实验名 称实验1数据整理与描述统计分析

教师批阅:实验成绩: 教师签名: 日期: 实验报告正文: 实验数据整理 (一)对“employee”进行数据整理 1.观察量排序 ( based on current salary) 2.变量值排序(based on current salary : rsalary) 3.计算新的变量(incremental salary=current salary - beginning salary)

4.拆分数据文件(based on gender) 结论:There are 215 female employees and 259 male employees. 5.分类汇总 (break variable: gender ; function: mean ) 结论:The average current salary of female is . The average current salary of male is . (二)分别给出三种工作类别的薪水的描述统计量 实验描述统计分析 1)样本均值矩阵 结论:总共分析六组变量,每组含有十个样本。 每股收益(X1)的均值为;净资产收益率(X2)的均值为;总资产报酬率(X3)的均值为;销售净

利率(X4)的均值为;主营业务增长率(X5)的均值为;净利润增长率(X6)的均值为. 2)协方差阵 结论:矩阵共六行六列,显示了每股收益(X1)、净资产收益率(X2)、总资产报酬率(X3)、销售净利率(X4)、主营业务增长率(X5)和净利润增长率(X6)的协方差。 3)相关系数 结论:矩阵共六行六列,显示了每股收益 (X1)、净资产收益率(X2)、总资产报酬 率(X3)、销售净利率(X4)、主营业务增 长率(X5)和净利润增长率(X6)之间的 相关系数。 每格中三行分别显示了相关系数、显著性 检验与样本个数。 4)矩阵散点图

spss软件分析异常值检验实验报告

实验五:残差分析 【实验目的】 (1)通过残差检验,掌握残差分析的方法 (2)异常值检验 【仪器设备】 计算机、spss软件、何晓群《实用回归分析》表和表的数据 【实验内容、步骤和结果】 对何晓群《实用回归分析》表的数据进行残差分析 原始数据如表1,其中y表示货运总量(亿吨)x1表示工业总产值(亿元)x2表示农业总产值(亿元)x3表示居民非商业支出(亿元) 表1. 对表1数据用spss软件进行分析得以下各表

由上表可知复相关系数R=,决定系数R方=,由决定系数看出回归方程的显著性不高,接下来看方差分析表3 由表3知F值为较小,说明x1、x2、x3整体上对y的影响不太显著。 表4系数 模型非标准化系数标准系数 t Sig. B标准误差试用版 1(常量).096 x1.385.100 x2.535.049 x3.277.284

表4系数 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) .096 x1 .385 .100 x2 .535 .049 x3 .277 .284 回归方程为 123348.280 3.7547.10112.447y x x x =-+++

图1.学生化残差

差 残差: 对数据用spss进行分析得 表6异常值的诊断分析

数据不存在异常值.绝对值最大的删除学生化残差为SDR=,因而根据学生化删除残差诊断认为第6个数据为异常值.其中中心化杠杆值,cook距离为位于第一大.因此第6个数据为异常值. 对何晓群《实用回归分析》表的数据进行残差分析 原始数据为 : 表个啤酒品牌的广告费用和销售量

统计学原理SPSS实验报告

实验一:用SPSS绘制统计图 实验目的:掌握基本的统计学理论,使用SPSS实现基本统计功能(绘制统计图) 对SPSS的理解:它是一款社会科学统计软件包,同时也广泛应用于经济,金融,商业等各个领域,基本功能包括数据管理,统计分析,图表分析,输出管理等。 实验算法:掌握SPSS的基本输入输出方法,并用SPSS绘制相应的统计图(例如:直方图,曲线图,散点图,饼形图等) 操作过程: 步骤1:启动SPSS。单击Windows 的[开始]按钮(如图1-1所示),在[程序]菜单项[SPSS for Windows]中找到[SPSS 13.0 for Windows]并单击,得到如图1-2所示选择数据源界面。 图1-1 启动SPSS

图1-2 选择数据源界面 步骤2 :打开一个空白的SPSS数据文件,如图1-3。启动SPSS 后,出现SPSS 主界面(数据编辑器)。同大多数Windows 程序一样,SPSS 是以菜单驱动的。多数功能通过从菜单中选择完成。

图1-3 空白的SPSS数据文件 步骤3:数据的输入。打开SPSS以后,直接进入变量视图窗口。SPSS的变量视图窗口分为data view和variable view两个。先在variable view中定义变量,然后在data view里面直接输入自定义数据。命名为mydata并保存在桌面。如图1-4所示。 图1-4 数据的输入 步骤4:调用Graphs菜单的Bar过程,绘制直条图。直条图用直条的长短来表示非连续性资料(该资料可以是绝对数,也可以是相对数)的数量大小。选择的数据源见表1。 步骤5:数据准备。激活数据管理窗口,定义变量名:年龄标化发生率为RATE,冠心病临床型为DISEASE,血压状态为BP。RATE按原数据输入,DISEASE按冠状动脉机能不全=1、猝死=2、心绞痛=3、心肌梗塞=4输入,BP按正常=1、临界=2、异常=3输入。

回归分析实验报告

实验报告 实验课程:[信息分析] 专业:[信息管理与信息系统] 班级:[ ] 学生姓名:[ ] 指导教师:[请输入姓名] 完成时间:2013年6月28日

一.实验目的 多元线性回归简单地说是涉及多个自变量的回归分析,主要功能是处理两个变量之间的线性关系,建立线性数学模型并进行评价预测。本实验要求掌握附带残差分析的多元线性回归理论与方法。 二.实验环境 实验室308教室 三.实验步骤与内容 1打开应用统计学实验指导书,新建excel表 2.打开SPSS,将数据输入。 3.调用SPSS主菜单的分析——>回归——>线性命令,打开线性回归对话框,指定因变量(工业GDP比重)和自变量(工业劳动者比重、固定资产比重、定额资金流动比重),以及回归方式;逐步回归(图1)

图1 线性对话框 4.在统计栏中,选择估计以输出回归系数B的估计值、t统计量等,选择Duribin-watson以进行DW检验;选择模型拟合度输出拟合优度统计量值,如R^2、F统计量值等(图2)。 图2 统计量栏

5.在线性回归栏中选择直方图和正态概率图以绘制标准化残差的直方图和残差分析与正态概率比较图,以标准化预测值为纵坐标,标准化残差值为横坐标,绘制残差与Y的预测值的散点图,检验误差变量的方差是否为常数(图3)。 图3 绘制栏 6.提交分析,并在输出窗口中查看结果,以及对结果进行分析。 系统在进行逐步分析的过程中产生了两个回归模型,模型1先将与因变量(销售收入)线性关系的自变量地区人口引入模型,建立他们之间的一元线性关系。而后逐步引入其他变量,表1中模型2表明将自变量人均收入引入,建立二元线性回归模型,可见地区人口和人均收入对销售收入的影响同等重要。

spss相关分析实验报告

实验五相关分析实验报关费 一、实验目的: 学习利用spss对数据进行相关分析(积差相关、肯德尔等级相关)、偏相关分析。利用交叉表进行相关分析。 二、实验内容: 某班学生成绩表1如实验图表所示。 1.对该班物理成绩与数学成绩之间进行积差相关分析和肯德尔等级相关 分析。 2.在控制物理成绩不变的条件下,做数学成绩与英语成绩的相关分析(这 种情况下的相关分析称为偏相关分析)。 3.对该班物理成绩与数学成绩制作交叉表及进行其中的相关分析。 三、实验步骤: 1.选择分析→相关→双变量,弹出窗口,在对话框的变量列表中选变量 “数学成绩”、“物理成绩”,在相关系数列进行选择,本次实验选择 皮尔逊相关(积差相关)和肯德尔等级相关。单击选项,对描述统计 量进行选择,选择标准差和均值。单击确定,得出输出结果,对结果 进行分析解释。 2.选择分析→相关→偏相关,弹出窗口,在对话框的变量列表选变量“数 学成绩”、“英语成绩”,在控制列表选择要控制的变量“物理成绩” 以在控制物理成绩的影响下对变量数学成绩与英语成绩进行偏相关分 析;在“显著性检验”框中选双侧检验,单击确定,得出输出结果, 对结果进行分析解释。 3.选择分析→描述统计→交叉表,弹出窗口,对交叉表的行和列进行选 择,行选择为数学成绩,列选择为物理成绩。然后对统计量进行设置, 选择相关性,点击继续→确定,得出输出结果,对结果进行分析解释。 四、实验结果与分析:

表1

五、实验结果及其分析:

分析一:由实验结果可观察出,数学成绩与物理成绩的积差相关系数r=,肯德尔等级相关系数r=可知该班物理成绩和数学成绩之间存在显著相关。

spss实验报告最终版本

实验课程专业统计软件应用 上课时间2012 学年 1 学期15 周(2012 年12 月18日—28 日) 学生姓名李艳学号2010211587 班级0331002 所在学院经济管 上课地点经管3 楼指导教师胡大权理学院

实验内容写作 第六章 一实验目的 1、理解方差分析的基本概念 2、学会常用的方差分析方法 二实验内容 实验原理:方差分析的基本原理是认为不同处理组的均值间的差别基本来源有两个:随机误差,如测 量误差造成的差异或个体间的差异,称为组内差异 根据老师的讲解和课本的习题完成思考与练习的5、6、7、8题。 第5题:为了寻求适应某地区的高产油菜品种,今选5个品种进行试验,每一种在4块条件完全相同的试验田上试种,其他施肥等田间管理措施完全一样。表 6.20所示为每一品种下每一块田的亩产量,根 据这些数据分析不同品种油菜的平均产量在显著水平0.05下有无显著性差异。 第一步分析 由于考虑的是控制变量对另一个观测变量的影响,而且是5个品种,所以不宜采用独立样本T检验,应该采用单因素方差分析。 第二步数据的组织 从实验材料中直接导入数据 第三步方差相等的齐性检验 由于方差分析的前提是各水平下的总体服从方差相等的正态分布,而且各组的方差具有齐性,其中正 态分布的要求并不是非常严格,但是对于方差相等的要求还是比较严格的,因此必须对方差相等的前提进 行检验。

第四步多重比较分析 通过上面的步骤,只能判断不同的施肥等田间操作效果是否有显著性差异,如果要想进一步了解究竟那 个品种与其他的有显著性均值差别等细节问题,就需要单击上图中的两两比较按钮。 第五步运行结果及分析 多重比较结果表:从该表可以看出分别对几个不同的品种进行的两两比较。最后我们可以得出结论第4品种是最好的。其他的次之。 第6题:某公司希望检测四种类型类型轮胎A,B,C,D的寿命,如表 6.21所示。其中每种轮胎应用在随选择的6种汽车上,在显著性水平0.05下判断不同类型轮胎的寿命间是否存在显著性差异。 第一步分析 由于考虑的是一个控制变量对另一个控制变量的影响,而且是4种轮胎,所以不宜采用独立样本T 检验,应该采用单因素方差分析。 第二步数据的组织 从实验材料中直接导入数据。 第三步方差相等的齐性检验 由于方差分析的前提是各水平下的总体服从方差相等的正态分布,而且各组的方差具有齐性,其中正态分 布的要求并不是非常严格,但是对于方差相等的要求还是比较严格的,因此必须对方差相等的前提进行检 验。选择菜单“分析”—均值比较—单因素ANOVA。

相关分析与回归分析SPSS实现

相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用SPSS 软件进行相关分析和回归分析,具体包括: (1) 皮尔逊pearson 简单相关系数的计算与分析 (2) 学会在SPSS 上实现一元及多元回归模型的计算与检验。 (3) 学会回归模型的散点图与样本方程图形。 (4) 学会对所计算结果进行统计分析说明。 (5) 要求试验前,了解回归分析的如下内容。 ? 参数α、β的估计 ? 回归模型的检验方法:回归系数β的显著性检验(t -检验);回归 方程显著性检验(F -检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简单线性相关关系的系数是Pearson 简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并进行预测等。 线性回归数学模型如下: i ik k i i i x x x y εββββ+++++= 22110 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对回归系数进行估计,得到如下的样本回归函数: i ik k i i i e x x x y +++++=ββββ????22110 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量

管理同学spss描述统计分析实验报告

描述统计分析 一、实验目的与要求 1. 了解统计描述的常用工具及SPSS 中的统计描述模块。 2. 掌握分类变量和连续变量的统计描述方法及指标。 二、实验内容提要 1.根据数据,分析受访者的年龄分布情况,尝试分城市/合并描述。 2.根据SPSS 自带数据Employee ,分析员工性别、受教育程度、少数民族、职位类别的分布情况,并尝试分析这些属性之间的关系以及这些属性和工资之间的关系。 三、实验步骤 根据数据 在数据栏中找到拆分文件,点击,将城市添加到分组方式中,对城市进行拆分,点击确定。 在分析中选择描述统计下的描述,点击确定。 描述统计量 S0. 城市 N 极小值 极大值 均值 标准差 100北京 S3. 年龄 378 18 65 有效的 N (列表状态) 378 200上海 S3. 年龄 387 18 65 有效的 N (列表状态) 387 300广州 S3. 年龄 382 18 65 有效的 N (列表状态) 382 根据SPSS 自带数据Employee 在分析一栏中的描述统计下找到频率,点击确定。 性别分析表 Gender 频率 百分比 有效百分比 累积百分比 有效 Female 216 Male 258 合计 474 受教育程度分析表

Educational Level (years) 频率 百分比 有效百分比 累积百分比 有效 8 53 12 190 14 6 15 116 16 59 17 11 18 9 19 27 20 2 .4 .4 21 1 .2 .2 合计 474 少数民族分析表 Minority Classification 频率 百分比 有效百分比 累积百分比 有效 No 370 Yes 104 合计 474 2.选择分析,描述统计下的交叉表,点击确定,分析性别和受教育程度之间的情况,将性别添加到行,将受教育程度添加到列中,点击确定。

SPSS软件应用于相关分析与回归分析

实验五 SPSS软件应用于 相关分析与回归分析 学院:动物科技学院 班级:动科101 姓名:李貌 学号:2010020407

实验五SPSS软件应用于相关分析与回归分析 一、实验目的: 1、理解线性相关分析和回归分析的意义及应用并对有关数据进行分析。 2、熟悉SPSS软件应用于相关分析和回归分析的操作和步骤。 3、进一步掌握运用SPSS软件处理数据和分析数据的能力。 二、实验内容: 玉米在盐胁迫后的萎焉程度(R)与根中蛋白(R)、叶中蛋白(L)、脯氨酸(pro)之间关系如下,试进行变量间的相关分析、回归分析。 萎焉度(Y)/% 根中蛋白(R)/% 叶中蛋白(L)/% 脯氨酸(pro)/% 0.9300 0.79 0.98 0.093 0.9547 0.99 1.02 0.105 0.9661 0.91 1.58 0.119 0.9678 1.01 1.47 0.155 0.9725 1.14 1.89 0.234 0.9735 1.36 1.32 0.251 0.9856 1.36 1.76 0.217 1.0032 1.19 2.61 0.271 1.0045 1.21 2.33 0.227 1.0075 1.06 2.88 0.270 1.0186 1.58 2.40 0.282 1.0201 1.30 2.40 0.557 1.0245 1.81 2.37 0.650 1.0260 1.88 2.59 0.622 1.0283 1.46 3.10 0.611 1.0364 1.68 3.36 0.657 三、实验步骤: (一、线性回归分析) 1、启动SPSS,进行变量定义和数据录入,如(图1、2)。

spss相关分析实验报告

实验五相关分析实验报关费 一、实验目得: 学习利用s pss对数据进行相关分析(积差相关、肯德尔等级相关)、偏相关分析。利用交叉表进行相关分析。 二、实验内容: 某班学生成绩表 1 如实验图表所示。 1.对该班物理成绩与数学成绩之间进行积差相关分析与肯德尔等级相关分 析. 2.在控制物理成绩不变得条件下,做数学成绩与英语成绩得相关分析(这 种情况下得相关分析称为偏相关分析)。 3.对该班物理成绩与数学成绩制作交叉表及进行其中得相关分析。 三、实验步骤: 1.选择分析—相关—双变量,弹出窗口,在对话框得变量列表中选变量 “数学成绩"、“物理成绩” ,在相关系数列进行选择,本次实验选择 皮尔逊相关(积差相关)与肯德尔等级相关。单击选项,对描述统计 量进行选择,选择标准差与均值.单击确定,得出输出结果,对结果进 行分析解释。 2.选择分析一相关一偏相关,弹出窗口,在对话框得变量列表选变量数学 成绩”、“英语成绩”,在控制列表选择要控制得变量“物理成绩”以 在控制物理成绩得影响下对变量数学成绩与英语成绩进行偏相关分析; 在“显著性检验”框中选双侧检验,单击确定,得出输出结果,对结果 进行分析解释. 3.选择分析一描述统计-交叉表,弹出窗口,对交叉表得行与列进行选 择,行选择为数学成绩,列选择为物理成绩.然后对统计量进行设置, 选择相关性,点击继续-确定,得出输出结果,对结果进行分析解释。 四、实验结果与分析:

囲戏变量相关0 变旻(Y): 歹物理戍悄 相关浆勤 0 Pearson 叼兰endsll 的tau-b(K) J Spearman 叼标记SL苦性徇关(E) I ?―I粘址妃)][賞Jt? ][ ■備~ [ 鹽 ,丘示渎际說曹性水半(D 确定 ]|殆贴(E) H St賣(B)][ 取禱选顶(2)… 农孝号 /其 语威纽 显著性检验 双侧檢勉I) 单侧檢验(D 选他…]

SPSS对主成分回归实验报告

《多元统计分析分析》实验报告 2012 年月日学院经贸学院姓名学号 实验 实验成绩名称 一、实验目的 (一)利用SPSS对主成分回归进行计算机实现. (二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释. 二、实验内容 以教材例题为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用 三、实验步骤(以文字列出软件操作过程并附上操作截图) 1、数据文件的输入或建立:(文件名以学号或姓名命名) 将表数据输入spss:点击“文件”下“新建”——“数据”见图1: 图1 点击左下角“变量视图”首先定义变量名称及类型:见图2: 图2: 然后点击“数据视图”进行数据输入(图3): 图3

完成数据输入 2、具体操作分析过程: (1)首先做因变量Y与自变量X1-X3的普通线性回归: 在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4): 图4 将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5): 然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9) 其他选项按软件默认。最后点击“确定”,运行线性回归,输出相关结果(见表1-3)

相关分析和一元线性回归分析SPSS报告

用下面的数据做相关分析和一元线性回归分析: 选用普通高等学校毕业生数和高等学校发表科技论文数量做相关分析和一元线性回归分析。 一、相关分析 1.作散点图

普通高等学校毕业生数和高等学校发表科技论文数量的相关图 从散点图可以看出:普通高等学校毕业生数和高等学校发表科技论文数量的相关性很大。 2.求普通高等学校毕业生数和高等学校发表科技论文数量的相关系 数

把要求的两个相关变量移至变量中,因为都是定距数据,选择相关系数中的Pearson,点击确定,可以得到下面的结果:

Correlations 普通高等学校毕业生数(万人)高等学校发表科技论文数量(篇) 普通高等学校毕业生数(万人)Pearson Correlation1.998** Sig. (2-tailed).000 N1414 高等学校发表科技论文数量(篇)Pearson Correlation.998**1 Sig. (2-tailed).000 N1414 **. Correlation is significant at the 0.01 level (2-tailed). 两相关变量的Pearson相关系数=0.0998,表示呈高度正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性),即毕业生人数好发表科技论文数之间的相关性显著。 3.求两变量之间的相关性 选择相关系数中的全部,点击确定:

Correlations (万人)(篇) Kendall's tau_b(万人)Correlation Coefficient 1.000 1.000** Sig. (2-tailed).. N1414 (篇)Correlation Coefficient 1.000** 1.000 Sig. (2-tailed).. N1414 Spearman's rho(万人)Correlation Coefficient 1.000 1.000** Sig. (2-tailed).. N1414 (篇)Correlation Coefficient 1.000** 1.000 Sig. (2-tailed).. N1414 **. Correlation is significant at the 0.01 level (2-tailed). 注解:两相关变量(毕业生数和发表论文数)的Kendall相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 两相关变量(毕业生数和发表论文数)的Spearman相关系数=1.000,呈正相关;无相关系数检验对应的概率P值,应接受原假设(两变量之间不具有相关性),即毕业生数与发表论文数之间相关性不显著。 4.普通高等学校毕业生数和高等学校发表科技论文数量的相关系数

SPSS实验报告材料91487

CENTRAL SOUTH UNIVERSITY SPSS实验报告 学生王强 学号4303110516 指导教师邵留国 学院商学院 专业工商1101

实验一、数据集 实验目的:掌握基本的统计学理论,学会使用SPSS录入数据,建立SPSS数据集。 实验容: 1.3:三十名儿童身高、体重样本数据如下表所示。建立SPSS数据集。 三十名儿童身高、体重样本数据

13 14 15 男 男 男 14 14 14 168.0 164.5 153.0 50.0 44.0 58.0 28 29 30 女 女 女 15 15 15 158.0 158.6 169.0 44.3 42.8 51.1 实验步骤: 步骤一:启动SPSS。 步骤二:选择文件,新建,数据,如图。 步骤三:切换到变量视图,定义变量。其中,性别变量需要设置值标签。如图所 示。 步骤四:切换到数据视图,按照次序依次输入数据。 步骤五:保存数据。

实验结果:

实验二:统计量描述 实验目的: (1)结合图表描述掌握各种描述性统计量的构造原理及其应用。 (2)熟练掌握运用SPSS进行统计描述的基本技能。 实验容:大学生在校期间的各门课程考试成绩,尽管在学生与学生之间、院系之间、男女生之间以及不同的课程之间,都存在着各种各样的差异,但整体上的分布状况还是有规律可循的。今有两个学院共1040名男女生的统计学和经济学期末考试成绩数据,储存在SPSS数据文件中,文件名:lytjcj.sav。试运用图表描述与统计量描述的方法,对此数据展开尽可能全面和深入的描述与分析。 实验步骤: 步骤一:打开SPSS数据,文件名:lytjcj.sav。如图。

完整word版,SPSS聚类分析实验报告

SPSS聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用K-Mean法把31省分成3类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。 分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出=各变量之和如图所示: 2. 对变量食品支出和居住支出进行配对样本T检验,如图所示:

得出结论: 3. 对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

迭代历史记录a 迭代 聚类中心内的更改 1 2 3 1 1250.592 1698.865 1216.114 2 416.864 70.786 173.731 3 138.955 2.949 24.819 4 46.318 .123 3.546 5 849.114 319.179 1362.411 6 805.004 15.199 606.915 7 161.001 .724 75.864 8 32.200 .034 9.483 9 6.440 .002 1.185 10 1.288 7.815E-5 .148 初始聚类中心 聚类 1 2 3 食品支出 7776.98 3052.57 5790.72 衣着支出 1794.06 1205.89 1281.25 居住支出 2166.22 1245.00 1606.27 家庭设备及服务支出 1800.19 612.59 972.24 医疗保健支出 1005.54 774.89 617.36 交通和通信支出 4076.46 1340.90 2196.88 文化与娱乐服务支出 3363.25 1229.68 1786.00 其它商品和服务支出 1217.70 331.14 499.30 总消费支出 23200.40 9792.66 14750.02

相关文档
最新文档