matlab与统计回归分析 (1)

matlab与统计回归分析 (1)
matlab与统计回归分析 (1)

一Matlab作方差分析

方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素及因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。

【例1】(单因素方差分析)一位教师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生。把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位教师给15位学生进行统考,成绩见下表1。问这3种教学方法的效果有没有显著差异。

表1 学生统考成绩表

方法成绩

甲75 62 71 58 73

乙71 85 68 92 90

丙73 79 60 75 81

Matlab中可用函数anova1(…)函数进行单因子方差分析。

调用格式:p=anova1(X)

含义:比较样本m×n的矩阵X中两列或多列数据的均值。其中,每一列表示一个具有m 个相互独立测量的独立样本。

返回:它返回X中所有样本取自同一总体(或者取自均值相等的不同总体)的零假设成立的概率p。

解释:若p值接近0(接近程度有解释这自己设定),则认为零假设可疑并认为至少有一个样本均值与其它样本均值存在显著差异。

Matlab程序:

Score=[75 62 71 58 73;81 85 68 92 90;73 79 60 75 81]’;

P=anova1(Score)

输出结果:方差分析表和箱形图

ANOVA Table

Source SS df MS F Prob>F

Columns 604.9333 2 302.4667 4.2561 0.040088

Error 852.8 12 71.0667

Total 1457.7333 14

由于p值小于0.05,拒绝零假设,认为3种教学方法存在显著差异。

例2(双因素方差分析)为了考察4种不同燃料与3种不同型号的推进器对火箭射程(单位:海里)的影响,做了12次试验,得数据如表2所示。

表2 燃料-推进器-射程数据表

推进器1 推进器2 推进器3

燃料1 58.2 56.2 65.3

燃料2 49.1 54.1 51.6

燃料3 60.1 70.9 39.2

燃料4 75.8 58.2 48.7

在Matlab中利用函数anova2函数进行双因素方差分析。

调用格式:p=anova2(X,reps)

含义:比较样本X中两列或两列以上和两行或两行以上数据的均值。不同列的数据代表因素A的变化,不同行的数据代表因素B的变化。若在每个行-列匹配点上有一个以上的观测量,则参数reps指示每个单元中观测量的个数。

返回:当reps=1(默认值)时,anova2将两个p值返回到向量p中。

H0A:因素A的所有样本(X中的所有列样本)取自相同的总体;

H0B:因素B的所有样本(X中的所有行样本)取自相同的总体。

当reps>1时,anova2还返回第三个p值:

H0AB:因素A与因素B没有交互效应。

解释:如果任意一个p值接近于0,则认为相关的零假设不成立。

Matlab程序:

disp1=[58.2 56.2 65.3;49.1 54.1 51.6;60.1 70.9 39.2;75.8 58.2 48.7]’;

p=anova2(disp1,1)

输出结果:方差分析表

ANOVA Table

Source SS df MS F Prob>F

Columns 157.59 3 52.53 0.43059 0.73875

Rows 223.8467 2 111.9233 0.91743 0.44912

Error 731.98 6 12 1.9967

Total 1113.4167 11

由于燃料和推进器对应的p值均大于0.05,所以可以接受零假设H0A和H0B,认为燃料和推进器对火箭的射程没有显著影响。

例3(双因素方差分析)设火箭的射程在其它条件基本相同时与燃料种类及推进器型号有关。

现在考虑4种不同的燃料及3种不同型号的推进器,对于每种搭配个发射了火箭两次,得数据见表3。问各自变量和自变量的交互效应是否对火箭的射程有显著影响?

表3 燃料-推进器-射程数据表

推进器1 推进器2 推进器3

燃料1 58.2

52.6 56.2

41.2

65.3

60.8

燃料2 49.1

42.8 54.1

50.5

51.6

48.4

燃料3 60.1

58.3 70.9

73.2

39.2

40.7

燃料4 75.8

71.5 58.2

51.0

48.7

41.4

Matlab程序:

disp2=[58.2 52.6 49.1 42.8 60.1 58.3 75.8 71.5;56.2 41.2 54.1 50.5 70.9 73.2 58.2 51.0;65.3 60.8 51.6 48.4 39.2 40.7 48.7 41.4]’;

p=anova2(disp2,2)

输出结果:方差分析表

ANOVA Table

Source SS df MS F Prob>F

Columns 370.9808 2 185.4904 9.3939 0.003506

Rows 261.675 3 87.225 4.4174 0.025969

Interaction 1768.6925 6 294.7821 14.9288 6.1511e-005

Error 236.95 12 19.7458

Total 2638.2983 23

显著。

方差分析上机练习

为研究广告的效果,考察4种广告方式:当地报纸(paper)、当地广播(radio)、店内销售员(people)和店内展示(display)的效果。共设有144个销售点,每种广告随机抽取36个销售点记录销售额,分布在6个地区的144个销售点的销售情况生成的数据集ADS见下表。数据集ADS中有3个变量:AD表示广告的类型、AREA表示地区、SALES表示销售额(单位:千元)。请完成以下练习:

(1) 概括下列数据:用箱形图、条形图直观地呈现四种广告方式下销售量的分布情况;计算四种广告方式下销售量的均值、方差、标准差、最大和最小值;

(2) 进行单因素方差分析:检验四种广告方式下销售量数据是否服从正态分

α=);布,方差是否相等;检验四种广告方式下的销售量是否有显著差异(0.01

若四种广告方式下的销售量有显著差异,指出哪些类型的广告效果有显著的不同?

(3) 在设计广告效果的试验时,虽然地区差异对销售量的影响并不是我们感兴趣的,但希望排除这一因素的影响。数据集ADS记录了各个销售点所在的地区AREA。试用双因素方差分析方法分析销售数据,并指出广告方式和地区对销

α=)?广告方式(AD)与地区(AREA)之间有无交售量是否有显著影响(0.01,0.1

互效应?

表ADS数据集中的数据

广告方式(变量:AD)

销售额(单位:千元)(变量SALES)

地区1 地区2 地区3 地区4 地区5 地区6

当地报纸(paper) 75 57 76

68 75 83

77 75

72

66 66

76

76 81

63

70 86

62

94 54 70

88 56 86

87 65

65

84 77

78

79 62

75

80 62

70

当地广播(radio)

69 51

100

54 78 79

90 77

60

83 74

69

33 79

73

68 75

65

100 61

68

70 53 73

68 63

83

79 66

65

76 73

74

81 57

65

店内销售员(people)63 67 85

58 82 78

80 87

62

87 70

77

70 75

40

68 61

55

64 40 67

76 70 77

51 61

75

42 71

65

64 50

62

78 37

83

店内展示(display)52 61 61

41 44 86

76 57

52

75 75

63

33 69

60

52 61

43

61 66 41

69 43 51

65 58

50

60 52

55

44 45

58

52 45

60

参考答案

(1)箱形图:boxplot(ads) 结果:有异常值。(其它:略)(2)正态性检验Paper:Hist(X1,6)

频数直方图

分布的正态性检验:normplot(X1)

均服从正态分布。

单因素方差分析

ANOVA Table

Source SS df MS F Prob>F

Columns 5866.0833 3 1955.3611 13.4831 8.8495e-008 Error 20303.2222 140 145.023

Total 26169.3056 143

P=8.8495e-008<0.01,四种广告方式下的销售量是否有显著差异。对应的箱形图为:

当地媒体和电台广播与点内展示有显著不同。

(3)

ANOVA Table

Source SS df MS F Prob>F

Columns 1444.2222 5 288.8444 1.9582 0.089763

Rows 5866.0833 3 1955.3611 13.2559 1.5637e-007

Interaction 1158 15 77.2 0.52336 0.92341

Error 17701 120 147.5083

Total 26169.3056 143

从以上分析结果可知:

0.05

P2=1.5637e-007<0.01<0.1,无论哪种检验水平,广告方式对销售量

都有显著影响;

P3=0.92341>0.1,地区和广告方式对销售量无交互效应。

二Matlab作回归分析

回归分析的相关数学理论可以参见《概率论与数理统计教程》,下面仅以示例说明如何利用matlab处理回归分析。

1.一元线性回归分析

【例1】为了了解百货商店销售额x与流通费率(反映商业活动的一个质量指标,指每元商品流转额所分摊的流通费用)y之间的关系,收集了九个商店的有关数据,见下表1.试建立流通费率y与销售额x的回归方程。

样本点销售额x(万元) 流通费率y

1 1.5 7.0

2 4.5 4.8

3 7.5 3.6

4 10.

5 3.1

5 13.5 2.7

6 16.5 2.5

7 19.5 2.4

8 22.5 2.3

9 25.5 2.2

【分析】

域的知识和经验进行,有时可能需要多种尝试。选定目标函数后进行线性化变换,针对变换后的线性目标函数进行回归建模与评价,然后还原为非线性回归方程。【Matlab数据处理】:

【Step1】:绘制散点图以直观地选择拟合曲线

x=[1.5 4.5 7.5 10.5 13.5 16.5 19.5 22.5 25.5];

y=[7.0 4.8 3.6 3.1 2.7 2.5 2.4 2.3 2.2];

plot(x,y,'-o')

输出图形见图1。

图1 销售额与流通费率数据散点图

根据图1,初步判断应以幂函数曲线为拟合目标,即选择非线性回归模型,目标函数为:

其线性化变换公式为:

线性函数为:

【Step2】:线性化变换即线性回归建模(若选择为非线性模型)与模型评价% 线性化变换

u=log(x)';

v=log(y)';

% 构造资本论观测值矩阵

mu=[ones(length(u),1) u]; alpha=0.05; % 线性回归计算

[b,bint,r,rint,states]=regress(v,mu,alpha) 输出结果:

b =[ 2.1421; -0.4259]

表示线性回归模型 ln v a bu =+ 中:lna=2.1421,b=-0.4259;

即拟合的线性回归模型为

2.14210.4259y x =-;

bint =[ 2.0614 2.2228; -0.4583 -0.3934] 表示拟合系数lna 和b 的100(1-alpha)%的置信区间分别为:

[2.0614 2.2228]和[-0.4583 -0.3934];

r =[ -0.0235 0.0671 -0.0030 -0.0093 -0.0404 -0.0319 -0.0016 0.0168 0.0257] 表示模型拟合残差向量;

rint =[ -0.0700 0.0230 0.0202 0.1140 -0.0873 0.0813 -0.0939 0.0754 -0.1154 0.0347 -0.1095 0.0457 -0.0837 0.0805 -0.0621 0.0958 -0.0493 0.1007]

表示模型拟合残差的100(1-alpha)%的置信区间;

states =[0.9928 963.5572 0.0000 0.0012]

表示包含20.9928SSR

R SST ==、

方差分析的F 统计量/963.5572//(2)

R E SSR f SSR

F SSE f SSE n =

==-、

方差分析的显著性概率((1,2))0p P F n F =->≈;

模型方差的估计值2?0.00122

SSE

n σ

==-。 【注】:严格来讲,模型评价工作应在逆线性化变换后进行;但是,若所建立的线性回归方程不理想,则相应的非线性回归方程必定不理想。 【Step3】:拟线性化变换求非线性回归方程(若选择为非线性模型)

% 逆线性化变换 A=exp(b(1)) B=b(2)

运行结果为:A = 8.5173;B = -0.4259。

即非线性回归方程为:

0.42598.5173y x -=。

2.多元线性回归模型(p>1): 求得经验回归方程: 统计量:

总偏差平方和:21

()n

i i SST y y ==

-∑

,其自由度为1T f n =-;

回归平方和:21?()n

i i SSR y

y ==

-∑

,其自由度为R f p =; 残差平方和:2

1

?()n i

i

i SSE y y ==

-∑,其自由度为1E

f

n p =--;

它们之间有关系:SST=SSR+SSE 。

多元回归分析的相关数学理论可以参见《多元数据分析》,下面仅以示例说明如何利用Matlab 作多元回归分析。

【例2】参见教材P294:10.1 牙膏的销售量。

【下面只描述运行程序的过程,应该按照规定格式书写报告】。 符号说明:

1x :表示价格差;

2x :广告费用;

y :销售量。

【Step1】:绘制散点图以直观地选择拟合曲线 clear clc

x1=[-0.05 0.25 0.60 0 0.25 0.20 0.15 0.05 -0.15 0.15 0.20 0.10 0.40 0.45 0.35 0.30 0.50 0.50 0.40 -0.05 -0.05 -0.10 0.20 0.10 0.50 0.60 -0.05 0 0.05 0.55];

x2=[5.50 6.75 7.25 5.50 7.00 6.50 6.75 5.25 5.25 6.00 6.50 6.25 7.00 6.90 6.80 6.80 7.10 7.00 6.80 6.50 6.25 6.00 6.50 7.00 6.80 6.80 6.50 5.75 5.80 6.80];

y=[7.38 8.51 9.52 7.50 9.33 8.28 8.75 7.87 7.10 8.00 7.89 8.15 9.10 8.86 8.90 8.87 9.26 9.00 8.75 7.95 7.65 7.27 8.00 8.50 8.75 9.21 8.27 7.67 7.93 9.26];

h1=figure;

plot(x1,y,'+'); h2=figure;

plot(x2,y,'o');

图1 y 对x1的散点图

图2 y 对 x2的散点图

分析图1,可以发现,随着x1的增加,y 的值有比较明显的线性增长趋势; 分析图2,当x 增大时,y 有向上弯曲的趋势,可用二次多项式进行逼近;因此可以选择如下方程作为初步的回归模型: 【Step2】:模型求解(理论方法:最小二乘法)

alpha=0.05;

v=[ones(length(x1),1) x1' x2' (x2.^2)']; [b,bint,r,rint,stats]=regress(y',v,alpha) 计算结果:

b =[ 17.3244 1.3070 -3.6956 0.3486] bint =[ 5.7282 28.9206 0.6829 1.9311 -7.4989 0.1077 0.0379 0.6594]

r =[ -0.0988 -0.0795 -0.1195 -0.0441 0.4660 -0.0133 0.2912 0.2735

-0.2351 0.1031 -0.4033 0.1747 0.0400 -0.1504 0.1284 0.1637

-0.0527 -0.1907 -0.0870 -0.0165 -0.1292 -0.3002 -0.2933 -0.1679

-0.2177 0.1116 0.3035 0.0693 0.2474 0.2270]

rint =[ -0.5270 0.3294; -0.5309 0.3718; -0.5106 0.2716;

-0.4731 0.3848; 0.0813 0.8507; -0.4609 0.4343; -0.1374 0.7197; -0.0870 0.6340; -0.5960 0.1258; -0.3280 0.5341; -0.8190 0.0125; -0.2618 0.6112; -0.4032 0.4832; -0.5933 0.2925; -0.3207 0.5775; -0.2841 0.6116; -0.4830 0.3776; -0.6248 0.2434; -0.5348 0.3609; -0.4423 0.4092; -0.5609 0.3024; -0.7181 0.1177; -0.7243 0.1377; -0.5548 0.2190; -0.6449 0.2095; -0.2994 0.5226; -0.1037 0.7106; -0.3714 0.5099; -0.1807 0.6755; -0.1890 0.6430] stats =[ 0.9054 82.9409 0.0000 0.0490] 【Step3】结果分析

回归模型为:

从结果数据来看,模型整体可用。但也有缺陷,可以改进。 【Step4】销售量的预测

设需要预测的点为:001020(,,,)'p x x x x =,则预测值为

*2001

1

1

11

?,1()(),,1,2,,1p p

n

i i j j ij i ki

i j k SSE x x x x c x x

i p n p n

n

σ

====?=++--=

=--∑∑

1()()T ij p p c X X -?=,

x处的区间预测为:

则在

x x,新的回归模型为

【模型改进】:当两个因素是不独立时,引入交叉项

12

alpha=0.05;

v=[ones(length(x1),1) x1' x2' (x2.^2)' (x1.*x2)'];

[b,bint,r,rint,stats]=regress(y',v,alpha)

输出结果:

b =[ 29.1133 11.1342 -7.6080 0.6712 -1.4777]

bint =[ 13.7013 44.5252; 1.9778 20.2906;

-12.6932 -2.5228; 0.2538 1.0887; -2.8518 -0.1037]

r =[ -0.0441; -0.1229; 0.0299; -0.0745; 0.3841;

-0.0472; 0.2331; 0.0287; -0.0661; 0.0297;

-0.4372; 0.1763; 0.0356; -0.1382; 0.1027;

0.1270; 0.0048; -0.1435; -0.1016; 0.0050;

-0.0389; -0.1334; -0.3272; -0.3274; -0.2102;

0.1412; 0.3250; 0.1096; 0.2342; 0.2455]

rint =[ -0.4425 0.3542; -0.5408 0.2951;

-0.3101 0.3698; -0.4736 0.3247;

0.0245 0.7437; -0.4640 0.3695;

-0.1674 0.6337; -0.2369 0.2943;

-0.3751 0.2430; -0.3691 0.4284;

-0.8118 -0.0627; -0.2306 0.5832;

-0.3788 0.4499; -0.5521 0.2757;

-0.3172 0.5226; -0.2917 0.5456;

-0.3944 0.4039; -0.5490 0.2621;

-0.5193 0.3160; -0.3926 0.4026;

-0.4360 0.3582; -0.5045 0.2378;

-0.7212 0.0667; -0.6326 -0.0221;

-0.6085 0.1881; -0.2398 0.5223;

-0.0484 0.6984; -0.2988 0.5181;

-0.1650 0.6335; -0.1391 0.6302]

stats =[ 0.9209 72.7771 0.0000 0.0426]

结果分析:效果更好。

3.逐步回归方法

要点:

【Step1】根据问题所属专业领域的理论和经验提出对因变量可能有影响的所有自变量;

【Step2】计算每一个自变量对因变量的相关系数,按其绝对值从大到小排序;【Step3】取相关系数绝对值最大的那个自变量建立一元线性回归模型,检验所得回归方程的显著性,若检验表明回归效果则转入【Step4】,若检验表明回归效果不显著则停止建模;

【Step4】进行变量的追加、剔除和回归方程的更新操作。

Matlab命令:

【命令1】:stepwisefit

【调用格式】:

[b,se,pval,inmodel,stats,nextstep,history]=stepwisefit(x,y,’para m1’,value1,’param2’,value2,…)

【参数说明】:

X:p个自变量的n个观测值的n p

?矩阵;

Y:因变量的n个观测值的1

n?矩阵;

‘penter’:设置回归方程显著性检验的显著性概率上限,缺省值为0.05;

‘premove’:设置回归方程显著性检验的显著性概率下限,缺省值为0.10;

‘display’:用来指明是否强制显示建模过程信息,取值为‘on’(显示,缺省设置)和’off‘(不显示)。

【例3】某种水泥在凝固时放出的热量(单位:卡/克)Y与水泥中的四种化学

编号X

1 X

2

X

3

X

4

Y

1 7 26 6 60 78.5

2 1 29 15 52 74.3

3 11 56 8 20 104.3

4 11 31 8 47 87.6

5 7 52

6 33 95.9

6 11 55 9 22 109.2

7 3 71 17 6 102.7

8 1 31 22 44 72.5

9 2 54 18 22 93.1

10 21 47 4 26 115.9

11 1 40 23 34 83.8

12 11 66 9 12 113.3

13 10 68 8 12 109.4

【Matlab程序】:

clear

clc

load hald

[b,se,pval,inmodel,stats,nextstep,history]=stepwisefit(ingredients,he at,'penter',0.10,'display','off');

% 自变量的筛选和模型参数估计信息

inmodel,b0=stats.intercept,b

% 回归方程显著性整体检验信息

Allp=stats.pval,rmse=stats.rmse

% 回归方程显著性分别检验信息

P=stats.PVAL

输出结果:

inmodel =[ 1 1 0 0];

b0 = 52.5773;

b =[ 1.4683 0.6623 0.2500 -0.2365]; Allp = 4.4066e-009; rmse = 2.4063;

P =[ 0.0000 0.0000 0.2089 0.2054]。 结果分析:

最优回归方程为12?52.5773 1.46830.6623y

x x =++,回归方程显著性整体检验和分别检验均为高度显著,模型标准误差估计为2.4063。

【命令2】:stepwise 【调用格式】:

stepwise(x,y,inmodel,penter,premove) 【说明】:创建多元线性回归分析的逐步回归法建模的交互式图形环境。 【图形界面说明】:

窗口1:Coefficients with error Bars

绘出各个解释变量回归系数的估计,圆点表示点估计值,横线表示置信区间(有色线段表示90%置信区间,黑色线段表示95%置信区间)。窗口的右侧给出回归系数的点估计值(Coeff )、显著性检验的t 统计量的值(t-test )和显著性概率p 值(p-val ). 窗口2:Model History

该窗口绘出的圆点表示历次建模的模型标准差σ的估计。 两个窗口中间输出的是当前模型的有关信息,包括:

Intercept :模型截距(常数项)的估计; RMSE :模型标准差σ的估计; R-square :可决系数; Adj-R-sq :校正可决系数;

F :模型整体性检验的 F 统计量的值; p :模型整体性检验的显著性概率。 窗口I 右侧的三个按钮:

Next Step :在回归方程中按相关系数绝对值大小逐次引入解释变量,如无解释变量可引入时,按钮不可用;

All Steps :直接给出“只进不出”方式建模的最终结果(注意,此时的回归方程未必是最优回归方程);

Export …:选择向Workspace 传输的计算结果(有关变量名可由用户自定义) stepwise(ingredients,heat,[1 1 1 1],0.05,0.10);

三 matlab 作相关分析

一、相关系数

要初步研究变量之间的随机性关系,我们就要清楚,研究的对象是二元或多元的随机向量,利用的是成对观测数据。

首先绘制一张散点图,直观上大致判断两两变量之间是否存在某种关系。

MATLAB 命令(散点图):

gscatter - 两个变量的散点图. 用法:gscatter(x,y)

lsline - 在散点图上增加最小二乘拟合线. 用法:lsline

gplotmatrix – 矩阵散点图。

用法:gplotmatrix(x,y)。其中x ,y 都是矩阵,行数相同。例如: x=normrnd(0,1,100,3);y=normrnd(1,2,100,2); gplotmatrix(x,y)

如果认为两个变量之间存在着某种直线关系,我们可以用相关系数来刻画这种关系。

首先引入如下样本相关系数的概念:对二元总体(X ,Y)的样本

(,),1,2,

,i i x y i n =,定义样本相关系数为

其中222

20

011

11(),()n n X i Y i i i S

X X S Y Y n n ===-=-∑∑分别为X 和Y 的样本方差,2

1

1()()n

XY

i i i S

X X Y Y n ==--∑叫X 与Y 之间的样本协方差。这是一个重要统计量,与总体相关系数(,)X Y ρ相对应。

那么,怎样充分发挥这个统计量的作用呢?下面我们讲讲如何利用它对总体相关系数:(,)X Y ρρ=作假设检验和区间估计。

原假设为0

:0;H ρ=对立假设为1:0.H ρ≠

在原假设成立的情况下,可以证明下面的统计量服从自由度为n-2的t 分布:

2

2

1n t r

-=-.

所以给定检验水平α,可得原假设的否定域

{}/2

(2)t t n α

>-。

MATLAB 命令:corrcoef

用法:[r,p,rlo,rup]=corrcoef(x)

其中:x 矩阵;r :相关矩阵;p :p-值;

rlo :置信下限;rup :置信上限 二、偏相关分析

基本描述:控制其它变量的情况下研究两个变量之间的线性关系.

因变量自变量1 自变量2

原假设:两个变量之间的偏相关系数为0

MATLAB命令:partialcorr

用法:[RHO,PV AL] = PARTIALCORR(X,Z)

X是由多个变量的样本值构成的矩阵,Z是由控制变量构成的矩阵,RHO是偏相关系数矩阵,PV AL是对应的p-值。

例:财政收入预测问题:财政收入与国民收入、工业总产值、农业总产值、总人口、就业人口、固定资产投资等因素有关。下表列出了1952-1981年的原始数据,

年份国民收

入(亿

元)工业总

产值(亿

元)

农业总

产值(亿

元)

总人口

(万

人)

就业人

口(万

人)

固定资产

投资(亿

元)

财政

收入

(亿元)

1952 598 349 461 57482 20729 44 184 1953 586 455 475 58796 21364 89 216 1954 707 520 491 60266 21832 97 248 1955 737 558 529 61465 22328 98 254 1956 825 715 556 62828 23018 150 268 1957 837 798 575 64653 23711 139 286 1958 1028 1235 598 65994 26600 256 357 1959 1114 1681 509 67207 26173 338 444 1960 1079 1870 444 66207 25880 380 506 1961 757 1156 434 65859 25590 138 271 1962 677 964 461 67295 25110 66 230 1963 779 1046 514 69172 26640 85 266 1964 943 1250 584 70499 27736 129 323 1965 1152 1581 632 72538 28670 175 393 1966 1322 1911 687 74542 29805 212 466 1967 1249 1647 697 76368 30814 156 352 1968 1187 1565 680 78534 31915 127 303 1969 1372 2101 688 80671 33225 207 447 1970 1638 2747 767 82992 34432 312 564 1971 1780 3156 790 85229 35620 355 638 1972 1833 3365 789 87177 35854 354 658 1973 1978 3684 855 89211 36652 374 691 1974 1993 3696 891 90859 37369 393 655 1975 2121 4254 932 92421 38168 462 692 1976 2052 4309 955 93717 38834 443 657 1977 2189 4925 971 94974 39377 454 723 1978 2475 5590 1058 96259 39856 550 922 1979 2702 6065 1150 97542 40581 564 890 1980 2791 6592 1194 98705 41896 568 826 1981 2927 6862 1273 100072 73280 496 810

x=[]; %数据

[RHO,PV AL] = CORRCOEF(x) %计算7个指标两两之间的相关系数并进行检验

RHO =

1 0.9903 0.980

2 0.969

3 0.8739 0.9342 0.9700

0.9903 1 0.9686 0.9524 0.8731 0.9352 0.9608

0.9802 0.9686 1 0.9520 0.8807 0.8659 0.9149

0.9693 0.9524 0.9520 1 0.8472 0.8750 0.9358

0.8739 0.8731 0.8807 0.8472 1 0.7341 0.7846

0.9342 0.9352 0.8659 0.8750 0.7341 1 0.9711

0.9700 0.9608 0.9149 0.9358 0.7846 0.9711 1

PV AL =

1 0 0 0 0 0 0

0 1 0 0 0 0 0

0 0 1 0 0 0 0

0 0 0 1 0 0 0

0 0 0 0 1 0 0

0 0 0 0 0 1 0

0 0 0 0 0 0 1

[RHO,PV AL] = PARTIALCORR(x(:,1:2),x(:,3:7)) %控制后5个指标后,前两个指标之间的相关系数并进行检验

RHO =

1.0000 0.3353

0.3353 1.0000

PV AL =

0 0.1014

0.1014 0

结果分析:国民收入和工业总产值的相关系数是0.9903,对应的p-值为0,因此可看出二者是高度正相关的;但它们的偏相关系数为0.3353,对应的p-值为0.1014,也就是说,剔除了其它变量的影响之后,二者是不相关的;或者说,二者的相关性是因为它们分别和其它变量之间的相关性所导致的虚假的结论。

Matlab与统计分析

Matlab 与统计分析 一、 回归分析 1、多元线性回归 1.1 命令 regress( ), 实现多元线性回归,调用格式为 [b,bint,r,rint,stats]=regress(y,x,alpha) 其中因变量数据向量Y 和自变量数据矩阵x 按以下排列方式输人 ????? ???????=????????????=n nk n n k k y y y y x x x x x x x x x x 21212222111211,111 对一元线性回归,取k=1即可。alpha 为显著性水平(缺省时设定为0.05),输出向量b ,bint 为回归系数估计值和它们的置信区间,r ,rint 为残差及其置信区间,stats 是用于检验回归模型的统计量,有三个数值,第一个是2 R , 其中R 是相关系数,第二个是F 统计量值,第三个是与统计量F 对应的概率P ,当α

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

matlab与多元统计分析

Matlab 与多元统计分析 胡云峰 安庆师范学院 第三章习题 3.1对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。 假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量μ0=(90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。 表3.1 某地区农村2周岁男婴的体格测量数据 1.预备知识 ∑未知时均值向量的检验: H 0:μ=μ0 H 1:μ≠μ0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H 这里2 (1) (, )p n T F p n p n p αα-= -- 2.根据预备知识用matlab 实现本例题 算样本协方差和均值 程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:));

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

matlab与应用多元统计分析

多元统计分析中的应用研究 , 摘要:许多实际问题往往需要对数据进行统计分析,建立合适的统计模型,过去一般采用SAS 、SPSS软件分析,本文给出 Matlab软件在多元统计分析上的应用, 主要介绍Matlab 在聚类分析、判别分析、主成份分析上的应用,文中均给以实例, 结果令人满意。 关键词:Matlab软件;聚类分析;主成份分析 Research for application of Multivariate Statistical Analysis Abstract:Many practice question sometimes need Statistical Analysis to data.,and establish appropriate Statistical model SAS and SPSS software were commonly used in foretime ,this paper give the application of Matlab software in Multivariate Statistical Analysis,mostly introduce the application of Matlab software in priciple component analysis and cluster analysis and differentiate analysis.The example are given in writing and the result are satisfaction. Key words: Matlab software; cluster analysis; priciple component analysis 0 引言 许多实际问题往往需要对数据进行多元统计分析, 建立合适的模型, 在多元统计分析方面, 常用的软件有SAS 、SPSS 、S-PLUS等。我们在这里给出Matlab在多元统计分析上的应用, 在较早的版本中, 统计功能不那么强大, 而在Matlab6.x版本中, 仅在统计工具中的功能函数就达200多个, 功能已足以赶超任何其他专用的统计软件,在应用上Matlab具有其他软件不可比拟的操作简单,接口方便, 扩充能力强等优势, 再加上Matlab的应用范围广泛, 因此可以预见其在统计应用上越来越占有极其重要的地位,下面用实例给出Matlab 在聚类分析、主成份分析上的应用。 1 聚类分析 聚类分析法是一门多元统计分类法,其目的是把分类对象按一定规则分成若干类,所分成的类是根据数据本身的特征确定的。聚类分析法根据变量(或样品或指标)的属性或特征的相似性,用数学方法把他们逐步地划类,最后得到一个能反映样品之间或指标之间亲疏关系的客观分类系统图,称为谱系聚类图。 聚类分析的步骤有:数据变换,计算n个样品的两两间的距离,先分为一类,在剩下的n-1个样品计算距离,按照不同距离最小的原则,增加分类的个数,减少所需要分类的样品的个数,循环进行下去,直到类的总个数为1时止。根

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

MATLAB回归预测模型

MATLAB---回归预测模型 Matlab统计工具箱用命令regress实现多元线性回归,用的方法是最小二乘法,用法是:b=regress(Y,X) [b,bint,r,rint,stats]=regress(Y,X,alpha) Y,X为提供的X和Y数组,alpha为显着性水平(缺省时设定为0.05),b,bint为回归系数估计值和它们的置信区间,r,rint为残差(向量)及其置信区间,stats是用于检验回归模型的统计量,有四个数值,第一个是R2,第二个是F,第三个是与F对应的概率 p ,p <α拒绝 H0,回归模型成立,第四个是残差的方差 s2 。 残差及其置信区间可以用 rcoplot(r,rint)画图。 例1合金的强度y与其中的碳含量x有比较密切的关系,今从生产中收集了一批数据如下表 1。 先画出散点图如下: x=0.1:0.01:0.18; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]; plot(x,y,'+') 可知 y 与 x 大致上为线性关系。 设回归模型为y =β 0+β 1 x

用regress 和rcoplot 编程如下: clc,clear x1=[0.1:0.01:0.18]'; y=[42,41.5,45.0,45.5,45.0,47.5,49.0,55.0,50.0]'; x=[ones(9,1),x1]; [b,bint,r,rint,stats]=regress(y,x); b,bint,stats,rcoplot(r,rint) 得到 b =27.4722 137.5000 bint =18.6851 36.2594 75.7755 199.2245 stats =0.7985 27.7469 0.0012 4.0883 即β 0=27.4722 β 1 =137.5000 β 的置信区间是[18.6851,36.2594], β 1 的置信区间是[75.7755,199.2245]; R2= 0.7985 , F = 27.7469 , p = 0.0012 , s2 =4.0883 。可知模型(41)成立。

多元回归分析matlab剖析

回归分析MATLAB 工具箱 一、多元线性回归 多元线性回归:p p x x y βββ+++=...110 1、确定回归系数的点估计值: 命令为:b=regress(Y , X ) ①b 表示???? ?? ????????=p b βββ?...??10 ②Y 表示????????????=n Y Y Y Y (2) 1 ③X 表示??? ??? ????? ???=np n n p p x x x x x x x x x X ...1......... .........1 (12) 1 22221 11211 2、求回归系数的点估计和区间估计、并检验回归模型: 命令为:[b, bint,r,rint,stats]=regress(Y ,X,alpha) ①bint 表示回归系数的区间估计. ②r 表示残差. ③rint 表示置信区间. ④stats 表示用于检验回归模型的统计量,有三个数值:相关系数r 2、F 值、与F 对应的概率p. 说明:相关系数2 r 越接近1,说明回归方程越显著;)1,(1-->-k n k F F α时拒绝0H ,F 越大,说明回归方程越显著;与F 对应的概率p α<时拒绝H 0,回归模型成立. ⑤alpha 表示显著性水平(缺省时为0.05) 3、画出残差及其置信区间. 命令为:rcoplot(r,rint) 例1.如下程序. 解:(1)输入数据. x=[143 145 146 147 149 150 153 154 155 156 157 158 159 160 162 164]'; X=[ones(16,1) x]; Y=[88 85 88 91 92 93 93 95 96 98 97 96 98 99 100 102]'; (2)回归分析及检验. [b,bint,r,rint,stats]=regress(Y ,X) b,bint,stats 得结果:b = bint =

Matlab多元统计分析程序

Matlab多元统计分析程序 1. 主成分分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % 主成分分析 % % 设对变量x1,x2,...,xp进行n次观测,得到n×p数据矩阵x=x(i,j), % 本程序对初始数据进行主成分分析,要求先请将观测矩阵输入到变 % 量x,再运行本程序。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸,以便数据标准化. % [n,p]=size(x); % % 数据处理方式设置,即是否先将数据标准化. % fprintf('\n 1---使用原始数据直接计算距离') fprintf('\n 2---使用标准化后的数据计算距离') k=input('请输入你的选择(1~2)'); % % 数据标准化 % switch k case 1 xs=x; case 2 mx=mean(x);

xs=(x-repmat(mx,n,1))./repmat(stdr,n,1); end % % 主成分分析,返回各主成分pc,所谓的z-得分score,x的协方差 % 矩阵的特征值latent和每个数据点的Hotelling统计量tsquare. % [pc score latent tsquare]=princomp(xs) 2. 典型相关分析M程序 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 在运行本程序之前,请先把数据输入/导入到MATLAB 的 % 内存空间,并存放在变量x 中,每行存放一个样本。 % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% % % 确定观测矩阵x 的尺寸 % [n,h]=size(x); % % 输入基本参数 % p=input('\n第一组变量的个数p = ? '); fprintf('\n1--使用样本协方差矩阵计算典型相关变量') fprintf('\n2--使用样本相关矩阵计算典型相关变量') ctl=input('\n请输入你的选择'); % % 默认的显著性水平为alpha=0.05,可以改变下面语句中的alpha值。 % alpha=0.05; % % 按要求计算样本协方差矩阵或样本相关矩阵 % switch ctl case 1 st=cov(x); case 2

matlab多元线性回归模型

云南大学数学与统计学实验教学中心 实验报告 一、实验目的 1.熟悉MATLAB的运行环境. 2.学会初步建立数学模型的方法 3.运用回归分析方法来解决问题 二、实验内容 实验一:某公司出口换回成本分析 对经营同一类产品出口业务的公司进行抽样调查,被调查的13家公司,其出口换汇成本与商品流转费用率资料如下表。试分析两个变量之间的关系,并估计某家公司商品流转费用率是6.5%的出口换汇成本. 实验二:某建筑材料公司的销售量因素分析 下表数据是某建筑材料公司去年20个地区的销售量(Y,千方),推销开支、实际帐目数、同类商品

竞争数和地区销售潜力分别是影响建筑材料销售量的因素。1)试建立回归模型,且分析哪些是主要的影响因素。2)建立最优回归模型。 提示:建立一个多元线性回归模型。

三、实验环境 Windows 操作系统; MATLAB 7.0. 四、实验过程 实验一:运用回归分析在MATLAB 里实现 输入:x=[4.20 5.30 7.10 3.70 6.20 3.50 4.80 5.50 4.10 5.00 4.00 3.40 6.90]'; X=[ones(13,1) x]; Y=[1.40 1.20 1.00 1.90 1.30 2.40 1.40 1.60 2.00 1.00 1.60 1.80 1.40]'; plot(x,Y,'*'); [b,bint,r,rint,stats]=regress(Y,X,0.05); 输出: b = 2.6597 -0.2288 bint = 1.8873 3.4322 -0.3820 -0.0757 stats = 0.4958 10.8168 0.0072 0.0903 即==1,0?6597.2?ββ,-0.2288,0?β的置信区间为[1.8873 3.4322],1,?β的置信区间为[-0.3820 -0.0757]; 2r =0.4958, F=10.8168, p=0.0072 因P<0.05, 可知回归模型 y=2.6597-0.2288x 成立. 1 1.5 2 2.5 散点图 估计某家公司商品流转费用率是6.5%的出口换汇成本。将x=6.5代入回归模型中,得到 >> x=6.5; >> y=2.6597-0.2288*x y = 1.1725

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

Matlab回归分析

1、 考察温度x 对产量y 的影响,测得下列10组数据: 区间(置信度95%). x=[20:5:65]'; Y=[13.2 15.1 16.4 17.1 17.9 18.7 19.6 21.2 22.5 24.3]'; X=[ones(10,1) x]; plot(x,Y,'r*'); [b,bint,r,rint,stats]=regress(Y,X); b,bint,stats; rcoplot(r,rint) %残差分析,作残差图 结果: b = 9.1212 0.2230 bint = 8.0211 10.2214 0.1985 0.2476 stats = 0.9821 439.8311 0.0000 0.2333 即01 ??9.1212,0.2230ββ==;0?β的置信区间为[8.0211,10.2214]1?β的置信区间为[0.1985,0.2476]; 2r =0.9821 , F=439.831, p=0.0000 ,p<0.05, 可知回归模型 y=9.1212+0.2230x 成立. 将x=42带入得到18.4872.

从残差图可以看出,所有数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=9.1212+0.2230x能较好的符合原始数据。 2 某零件上有一段曲线,为了在程序控制机床上加工这一零件,需要求这段曲线的解析表达式,在曲线横坐标xi处测得纵坐标yi共11对数据如下: 求这段曲线的纵坐标y关于横坐标x的二次多项式回归方程。 t=0:2:20; s=[0.6 2.0 4.4 7.5 11.8 17.1 23.3 31.2 39.6 49.7 61.7]; T=[ones(11,1) ,t',(t.^2)']; [b,bint,r,rint,stats]=regress(s',T); b,stats; Y=polyconf(p,t,S) plot(t,s,'k+',t,Y,'r') %预测及作图 b = 1.0105 0.1971 0.1403

多元统计分析

作业一

1.2 分析2016年经济发展情况 排名省gdp 占比累计占比 1 广东79512.05 10.30 10.30 2 江苏76086.2 9.86 20.17 3 山东67008.2 8.68 28.85 4 浙江4648 5 6.02 34.87 5 河南40160.01 5.20 40.08 6 四川32680.5 4.24 44.31 7 湖北32297.9 4.19 48.50 8 河北31827.9 4.12 52.62 9 湖南31244.7 4.05 56.67 10 福建28519.2 3.70 60.37 11 上海27466.2 3.56 63.93 12 北京24899.3 3.23 67.16 13 安徽24117.9 3.13 70.28 14 辽宁22037.88 2.86 73.14 15 陕西19165.39 2.48 75.62 16 内蒙古18632.6 2.41 78.04 17 江西18364.4 2.38 80.42 18 广西18245.07 2.36 82.78 19 天津17885.4 2.32 85.10 20 重庆17558.8 2.28 87.37 21 黑龙江15386.09 1.99 89.37 22 吉林14886.23 1.93 91.30 23 云南14869.95 1.93 93.22 24 山西12928.3 1.68 94.90 25 贵州11734.43 1.52 96.42 26 新疆9550 1.24 97.66 27 甘肃7152.04 0.93 98.59 28 海南4044.51 0.52 99.11 29 宁夏3150.06 0.41 99.52 30 青海2572.49 0.33 99.85 31 西藏1150.07 0.15 100.00 将2016各省的GDP进行排名,可以发现,经济发达的的地区主要集中在东部地区。西部gdp的占比较小。作出2016各省的gdp直方图如下:

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法

MATLAB的统计工具箱中的多元统计分析中提供了聚类分析的两种方法: 1.层次聚类hierarchical clustering 2.k-means聚类 这里用最简单的实例说明以下层次聚类原理和应用发法。 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、dendrogram、cluster等函数来完成。层次聚类的过程可以分这么几步: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。 这在MATLAB中可以通过Y=pdist(X)实现,例如 >> X=randn(6,2) X = -0.4326 1.1892 -1.6656 -0.0376 0.1253 0.3273 0.2877 0.1746 -1.1465 -0.1867 1.1909 0.7258 >> plot(X(:,1),X(:,2),'bo') %给个图,将来对照聚类结果把 >> Y=pdist(X) Y = Columns 1 through 14 1.7394 1.0267 1.2442 1.5501 1.6883 1.8277 1.9648 0.5401 2.9568 0.2228 1.3717 1.1377 1.4790 1.0581 Column 15

2.5092 例子中X数据集可以看作包含6个平面数据点,pdist之后的Y是一个行向量,15个元素分别代表X 的第1点与2-6点、第2点与3-6点,......这样的距离。那么对于M个点的数据集X,pdist之后的Y 将是具有M*(M-1)/2个元素的行向量。Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂,如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是 个对角元素为0的对称阵。 >> squareform(Y) ans = 0 1.7394 1.0267 1.2442 1.5501 1.6883 1.7394 0 1.8277 1.9648 0.5401 2.9568 1.0267 1.8277 0 0.2228 1.3717 1.1377 1.2442 1.9648 0.2228 0 1.4790 1.0581 1.5501 0.5401 1.3717 1.4790 0 2.5092 1.6883 2.9568 1.1377 1.0581 2.5092 0 这里需要注意的是,pdist可以使用多种参数,指定不同的距离算法。help pdist把。 另外,当数据规模很大时,可以想象pdist产生的Y占用内存将是很吓人的,比如X有10k个数据点,那么X占10k*8*2Bytes=160K,这看起来不算啥,但是pdist后的Y会有10k*10k/2*8Bytes=400M 。怕了把,所以,废话说在前面,用MATLAB的层次聚类来处理大规模数据,大概是很不合适的。 (2) 确定好了对象间的差异度(距离)后,就可以用Z=linkage(Y)来产生层次聚类树了。 >> Z=linkage(Y) Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

matlab中回归分析实例分析

1.研究科研人员的年工资与他的论文质量、工作年限、获得资助指标之间的关系.24位科研人员的调查数据(ex81.txt): 设误差ε~(0,σ 2 ), 建立回归方程; 假定某位人员的观测值 , 预测年工资及置信度为 95%的置信区间. 程序为:A=load('ex81.txt') Y=A(:,1) X=A(1:24,2:4) xx=[ones(24,1) X] b = regress(Y,X) Y1=xx(:,1:4)*b x=[1 5.1 20 7.2] s=sum(x*b) 调出Y 和X 后,运行可得: b = 17.8469 1.1031 0.3215 1.2889 010203(,,)(5.1,20,7.2)x x x =

x = 1.0000 5.1000 20.0000 7.2000 s = 39.1837 所以,回归方程为:Y= 17.8469+1.1031X1+0.3215X2+1.2889X3+ε 当 时,Y=39.1837 2、 54位肝病人术前数据与术后生存时间(ex82.txt,指标依次为凝血值,预后指数,酵素化验值,肝功能化验值,生存时间). (1) 若用线性回归模型拟合, 考察其各假设合理性; (2) 对生存是时间做对数变换,用线性回归模型拟合, 考察其各假设合理性; (3) 做变换 用线性回归模型拟合, 考察其各假设合理性; (4) 用变量的选择准则,选择最优回归方程 010203 (,,)(5.1,20,7.2)x x x =0.0710.07 Y Z -=

(5)用逐步回归法构建回归方程 程序为:A=load('ex82.txt') Y=A(:,5) X=A(1:54,1:4) xx=[ones(54,1) X] [b,bint,r,rint,stats]=regress(Y,xx) 运行结果为: b = -621.5976 33.1638 4.2719 4.1257 14.0916 bint = -751.8189 -491.3762 19.0621 47.2656 3.1397 5.4040 3.0985 5.1530 -11.0790 39.2622

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

matlab与多元统计分析

m a t l a b与多元统计分 析 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

Matlab 与多元统计分析 胡云峰 安庆师范学院 第三章习题 对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表所示。假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(,∑) 的 随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量0= (90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。 表 某地区农村2周岁男婴的体格测量数据 解 1.预备知识 ∑未知时均值向量的检验: H 0:=0 H 1:≠0 H 0成立时 122)(0,)(1)(1,) ()'((1)))()'()(,1)(1)1(,) (1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p μμμμμ---∑--∑??∴----=-----+∴-- 当 2 (,)(1) n p T F p n p p n α-≥--或者22T T α≥拒绝0H 当 2 (,)(1) n p T F p n p p n α-<--或者22T T α<接受0H

这里2(1) (, )p n T F p n p n p αα-= -- 2.根据预备知识用matlab 实现本例题 算样本协方差和均值 程序x=[78 ;76 ;92 ;81 ;81 ;84 ]; [n,p]=size(x); i=1:1:n; xjunzhi=(1/n)*sum(x(i,:)); y=rand(p,n); for j=1:1:n y(:,j)= x(j,:)'-xjunzhi'; y=y; end A=zeros(p,p); for k=1:1:n; A=A+(y(:,k)*y(:,k)'); end xjunzhi=xjunzhi' S=((n-1)^(-1))*A 输出结果xjunzhi = S = 然后u=[90;58;16]; t2=n*(xjunzhi-u)'*(S^(-1))*(xjunzhi-u) f=((n-p)/(p*(n-1)))*t2 输出结果t2 = f = 所以21()'()T n X S X μμ-=--=

matlab与统计回归分析 (1)

一Matlab作方差分析 方差分析是分析试验(或观测)数据的一种统计方法。在工农业生产和科学研究中,经常要分析各种因素及因素之间的交互作用对研究对象某些指标值的影响。在方差分析中,把试验数据的总波动(总变差或总方差)分解为由所考虑因素引起的波动(各因素的变差)和随机因素引起的波动(误差的变差),然后通过分析比较这些变差来推断哪些因素对所考察指标的影响是显著的,哪些是不显著的。 【例1】(单因素方差分析)一位教师想要检查3种不同的教学方法的效果,为此随机地选取水平相当的15位学生。把他们分为3组,每组5人,每一组用一种方法教学,一段时间以后,这位教师给15位学生进行统考,成绩见下表1。问这3种教学方法的效果有没有显著差异。 表1 学生统考成绩表 方法成绩 甲75 62 71 58 73 乙71 85 68 92 90 丙73 79 60 75 81 Matlab中可用函数anova1(…)函数进行单因子方差分析。 调用格式:p=anova1(X) 含义:比较样本m×n的矩阵X中两列或多列数据的均值。其中,每一列表示一个具有m 个相互独立测量的独立样本。 返回:它返回X中所有样本取自同一总体(或者取自均值相等的不同总体)的零假设成立的概率p。

解释:若p值接近0(接近程度有解释这自己设定),则认为零假设可疑并认为至少有一个样本均值与其它样本均值存在显著差异。 Matlab程序: Score=[75 62 71 58 73;81 85 68 92 90;73 79 60 75 81]’; P=anova1(Score) 输出结果:方差分析表和箱形图 ANOVA Table Source SS df MS F Prob>F Columns 604.9333 2 302.4667 4.2561 0.040088 Error 852.8 12 71.0667 Total 1457.7333 14 由于p值小于0.05,拒绝零假设,认为3种教学方法存在显著差异。 例2(双因素方差分析)为了考察4种不同燃料与3种不同型号的推进器对火箭射程(单位:海里)的影响,做了12次试验,得数据如表2所示。 表2 燃料-推进器-射程数据表 推进器1 推进器2 推进器3 燃料1 58.2 56.2 65.3 燃料2 49.1 54.1 51.6 燃料3 60.1 70.9 39.2 燃料4 75.8 58.2 48.7 在Matlab中利用函数anova2函数进行双因素方差分析。 调用格式:p=anova2(X,reps)

相关文档
最新文档