spss多元线性回归分析

spss多元线性回归分析
spss多元线性回归分析

spss多元线性回归分析

SPSS多元线性回归分析试验

在科学研究中,我们会发现某些指标通常受到多个因素的影响,如血压值除了受年龄影响之外,还受到性别、体重、饮食习惯、吸烟情况等因素的影响,用方程定量描述一个因变量y与多个自变量x1、x2、x3.......之间的线性依存关系,称为多元线性回归。

有学者认为血清中低密度脂蛋白增高是引起动脉硬化的一个重要原因。现测量30名怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇含量。资料如下表所示。求低密度脂蛋白中的胆固醇含量对载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C的线性回归方程。

表1 30名就诊患者资料表

序号载脂蛋

白A 载脂蛋

白B

载脂蛋

白E

载脂蛋

白C

低密度

蛋白

1 173 106 7.0 14.7 137

2 139 132 6.4 17.8 162

3 198 112 6.9 16.7 134

4 118 138 7.1 15.7 188

5 139 94 8.

6 13.6 138

6 175 160 12.1 20.3 215

7 131 154 11.2 21.5 171

8 158 141 9.7 29.6 148

9 158 137 7.4 18.2 197

10 132 151 7.5 17.2 113

11 162 110 6.0 15.9 145

12 144 113 10.1 42.8 81

13 162 137 7.2 20.7 185

14 169 129 8.5 16.7 157

15 129 138 6.3 10.1 197

16 166 148 11.5 33.4 156

17 185 118 6.0 17.5 156

18 155 121 6.1 20.4 154

19 175 111 4.1 27.2 144

20 136 110 9.4 26.0 90

21 153 133 8.5 16.9 215

22 110 149 9.5 24.7 184

23 160 86 5.3 10.8 118

24 112 123 8.0 16.6 127

25 147 110 8.5 18.4 137

26 204 122 6.1 21.0 126

27 131 102 6.6 13.4 130

28 170 127 8.4 24.7 135

29 173 123 8.7 19.0 188

30 132 131 13.8 29.2 122 spss数据处理步骤:

(1)打开spss输入数据后,点击“分析”-“回归”-“线性”。然后将“低密度脂蛋白”选入因变量框,将“载脂蛋白A”“载脂蛋白B”“载脂蛋白E”“载脂蛋白C”依次选入自变量框。方法选为“逐步”。

(2)单击“统计量”选项,原有选项基础上选择“R方变化”。在残差中选“Durbin-Watson”,单击“继续”。

(3)单击“绘制”,将“DEPENDNT”选入“X2”中,将“*SRESID”选入“Y”中,在标准残差图选项中选择“直方图”和“正态概率图”。单击“继续”。

(4)单击“选项”,在原有选项的基础上单击“继续”,最后单击“确定”,就完成了。

数据处理结果如下:

输入/移去的变量a

模型输入的变量移去的变量方法

1 载脂蛋白B . 步进(准则: F-to-enter 的概

率 <= .050,F-to-remove 的

概率 >= .100)。

2 载脂蛋白C . 步进(准则: F-to-enter 的概

率 <= .050,F-to-remove 的

概率 >= .100)。

a. 因变量: 低密度脂蛋白

上图为统计的基本信息。

模型汇总c

模型R R 方调整 R 方标准估计的误

更改统计量

Durbin-Watson R 方更改 F 更改df1 df2 Sig. F 更改

1 .562a.316 .291 28.331 .316 12.924 1 28 .001

2 .733b.538 .50

3 23.715 .222 12.960 1 27 .001 2.532

a. 预测变量: (常量), 载脂蛋白B。

b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。

c. 因变量: 低密度脂蛋白

上图列出了模型的R、R方、调整R方。R方值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。结果显示:自变量和因变量之间的相关系数为0.733,拟合线性回归的确定性系数为0.538,经调整后的确定性系数为0.503。

Anova c

模型平方和Df 均方 F Sig.

1 回归10373.178 1 10373.178 12.924 .001a

残差22473.489 28 802.625

总计32846.667 29

2 回归17661.794 2 8830.897 15.702 .000b

残差15184.873 27 562.403

总计32846.667 29

a. 预测变量: (常量), 载脂蛋白B。

b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。

c. 因变量: 低密度脂蛋白

上图是对拟合的两个模型的方差分析检验结果,两个SIG都小于0.05,说明两个模型都有统计学意义,模型有统计学意义不等于模型内所有的变量都有统计学意义,还需要进一步对各自变量进行检验。

系数a

模型

非标准化系数标准系数

t Sig.

B 标准误差试用版

1 (常量) 20.680 36.801 .56

2 .579

载脂蛋白B 1.043 .290 .562 3.595 .001

2 (常量) 41.841 31.361 1.334 .193

载脂蛋白B 1.254 .250 .676 5.019 .000

载脂蛋白C -2.341 .650 -.485 -3.600 .001

a. 因变量: 低密度脂蛋白

上图为对两个模型中各个系数检验的结果,蛋白B、C其后的SIG都小于0.05,均有统计学意义。所以最后的回归方程为y=41.841+1.254x2-2.341x4

其后的标准系数可以用来比较自变量对因变量的影响强度,标准系数的绝对值越大说明说明对因变量的贡献越大,本例中B对因变量的影响最大,其次是C。

已排除的变量c

模型Beta In t Sig. 偏相关共线性统计量

容差

1 载脂蛋白A .128a.801 .430 .15

2 .962

载脂蛋白E -.308a-1.788 .085 -.325 .762

载脂蛋白C -.485a-3.600 .001 -.569 .945

2 载脂蛋白A .166b 1.255 .221 .239 .957

载脂蛋白E -.060b-.346 .732 -.068 .582

a. 模型中的预测变量: (常量), 载脂蛋白B。

b. 模型中的预测变量: (常量), 载脂蛋白B, 载脂蛋白C。

c. 因变量: 低密度脂蛋白

上表为残差的直方图,可见残差分布比较均匀,近似服从正态分布,符合多元回归的条件。

上图为残差的正态pp图,可见残差基本呈直线趋势,可以认为因变量呈正态分布。

上图为低密度脂蛋白胆固醇对学生化残差的散点图,可见残差围绕均线均匀分布,把部分残差绝对值在2以内,提示方差齐。

相关文档
最新文档