多元七章聚类分析

多元七章聚类分析
多元七章聚类分析

第七章聚类分析

目录

§7.1 引言

§7.2相似性度量

一、距离

1.明考斯基(Minkowski)距离

2.马氏距离

二、相似系数

§7.3系统聚类法

一、类、类的特征及类间距离

1.类、类的特征

2.类间距离

二、系统聚类法

1.系统聚类法的步骤

2.各种系统聚类法类间距离的地推公式与比较

三、系统聚类法的性质(简介)

四、分类数的确定

1.给定阈值

2.统计量(略)

§7.4动态聚类法(K-均值法)

§7.5聚类分析的SPSS实现

第七章聚类分析

§7.1 引言

对自然界的各种事物进行分类,这是人类认识世界和改造世界的前提。在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。

例如在经济研究中,为了研究不同地区城镇居民生活中的收入及消费状况,往往需要划分为不同的类型去研究;

在人口研究中,需要构造人口生育分类模式、人口死亡分类函数,

以此来研究人口的生育和死亡规律。

最初人们是依靠经验、专业知识及事物的表象作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。

随着社会的前进、生产技术及科学研究的发展,人们对分类的要求越来越细,精度要求越来越高,原始的定性的分类远远不能满足实际的需要。因此,人们在进行分类时逐渐地应用了数学这个有用的工具,进而形成了数值分类学。后来随着多元统计分析的发展及在分类中的应用产生了聚类分析__ 数值分类学的一个分支,它主要是应用多元统计的理论来进行分类的一种方法。

聚类分析是发展较晚的一种多元统计方法,但由于它能解决许多实际问题,因而很受人们重视,发展很快,已广泛被应用到地质、电子工程、医学、生物学、考古学、模式识别、企事业管理等各个领域。也正是由于被分类对象的不同,及分类研究的目的不同而产生了不同的聚类方法,大致可归纳为:

(1) 系统聚类法。首先,将n 个样品看成n 类(一类包含一个样品),然后将性质最接近的两类合并成一个新类,我们得到1-n 类,再从中找出最接近的两类加以合并变成了2-n 类,如此下去,最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有什么样品。

(2) 动态聚类法。开始将n 个样品粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整了为止。此法非常类似于计算方法的迭代法。

(3)模糊聚类法。将模糊数学用到聚类分析中产生的方法。

(4) 有序样品的聚类。n 个样品按某种原因(时间、地层深度等)排成次序,聚成的类必须是次序相邻的样品才能在一类。

(5) 分解法。它的程序正好和系统聚类相反,首先所有的样品均在一类,然后用某种最优准则将它分为两类。再用同样准则将这两类各自试图分裂为两类,从中选一个是目标函数较好者,这样由两类变成三类。如此下去,一直分裂到每类只有一个样品为止(或用其他停止规则),将上述分裂过程画成图,由图便可求得各个类。

本章将重点介绍(1)和(2),

聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。

聚类分析的目的:将分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不作任何假定,在同一类中的对象在某种意义上彼此相似,而在不同类里的对象不相似。

聚类分析根据分类对象可分为: Q 型聚类分析:对样品进行分类; R 型聚类分析:对变量进行分类。

§7.2相似性度量

首先要对被聚类的对象定义一种能反映它们之间相似或相异程度的量。一般对样品之间可以定义距离,变量之间定义相似系数来作为它们的相似(异)性度量,当然也可以反过来,这主要依赖于被分类的对象的性质的度量方式。下面先给出一个简单的例子。

例7.2.1 若我们需要将下列8户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表7.2.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。

表7.2.1 某市2001年城镇居民户主个人收入数据 X1 标准工资收入 X5 单位得到的其他收入 X2 奖金收入 X6 其他收入 X3 津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 X2

X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男 国有 1137.00 125.00 96.00 0.0 109.00 812.00 女 集体 1236.00 300.00 270.00 0.0 102.00 318.00 女 国有 1008.00 0.0 96.00 0.0 86.0 246.00 男 集体 1723.00 419.00 400.00 0.0 122.00 312.00 男 国有 1080.00 569.00 147.00 156.00 210.00 318.00 男 集体 1326.00 0.0 300.00 0.0 148.00 312.00 女 国有 1110.00 110.00

96.00

0.0

80.00

193.00

集体

在例7.2.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度:

①间隔尺度。变量用连续的量来表示,如“各种奖金”、“各种津贴”等。

②有序尺度。变量用有序的等级来表示,如文化程度分为文盲、小学、中学、中学以上等有次序关系,但没有数量表示。

③名义尺度。变量用一些类来表示,这些类之间没有等级关系也没有数量关系,如例4.2.1中的性别和职业都是名义尺度。

不同类型的变量,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的变量的方法较多,对另两种尺度的变量处理的方法不多。我们主要讨论用间隔尺度变量描述的样品的聚类分析方法

一、距离

将例7.2.1抽象化,就得到表7.2.2的数据阵,其中ij x 表示第i 个样品的第j 个指标的值。我们的目的是从这些数据出发,将样品(或指标)进行分类。

在表7.2.2中,每个样品有P 个指标,故每个样品可以看成P 维空间中的一个点,n 个样品就组成P 维空间中的n 个点,此时自然想用距离来度量样品之间的接近程度。

用ij x 表示第i 个样品的第j 个指标,数据矩阵见表7.2.2,第j 个指标的均值和标准差记作j x 和j S 。用ij d 表示第i 个样品与第j 个样品之间的距离,一般要求距离满足四个条件:

(i) ij d ≥0,一切i, j ;

(ii) ij d =0 等价于样品i 和样品j 的各指标相同; (iii) ij d =ji d , 一切i, j ;

(iv) ij d ≤ik d +kj d ,一切 i, j, k 。

在聚类分析中有些距离并不满足(iv),我们在广义的角度上也称它为距离。在 有些场合,(iv)加强为

(iv / ) ij d ≤max{ik d ,kj d },一切i, j, k 。 因为

ij d ≤max{ik d ,kj d }≤ik d +kj d 故(iv / )比(iv)更强,满足(iv / )的距离称为极端距离。 1. 明考斯基(Minkowski )距离

q

p

k q jk ik ij x x q d /11)(?

?

????-=∑=

当q =1时 ∑=-=p

k jk ik

ij x x

d 1

)1(, (7.2.1)

称为绝对值距离;

当q =2时 ()2

/112)2(?

?

?

???-=∑=p k jk ik ij x x d (7.2.2)

称为欧氏距离;

当q 趋于无穷时

jk ik p

k ij x x d -=∞≤≤1max )(, (7.2.3)

称为切比雪夫距离。

可以验证,)(q d ij 满足距离的条件(i)—(iv)。

)(q d ij 在实际中用得很多,但是有一些缺点:例如距离的大小与

各指标的观测单位有关,它就具有一定的人为性;另一方面,它又没有考虑指标之间的相关性。

例7.2.2给发烧病人做检查,检测指标为:

X1: 白血球数(个/mm 3); X2: 体温(度,摄氏)

通常的改进办法有下面两个:

(1) 当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离。

令j X ,j R 和j S 分别表示第j 个指标的样本均值、样本极差和样本标准差,即

∑==n

i ij j x n X 1

1

}{m i n }{m a x

11ij n

i ij n

i j x x R ≤≤≤≤-= 2

/112)(11??

????--=∑=n i j ij j X x n S ,

则标准化后的数据为

j

j

ij ij

R X x x -='

或 j

j

ij ij

S X x x

-=

* n i ,,2,1 = , p j ,,2,1 =

(2)当0>ij x ,n i ,,2,1 = , p j ,,2,1 =时有人采用

∑=+-=p k jk

ik jk

ik ij x x x x p LW d 11)( , (7.2.4)

它是由Lance 和Williams 最早提出的,称为兰氏距离。这个距离有助于克服)(q d ij 的第一个缺点,但没有考虑指标间的相关性。 2.马氏距离

)()()()()(1)()(2j i j i ij M d x x Σx x -'-=-, (7.2.5) 其中)(i x 表示矩阵行向量的转置,Σ是数据矩阵的协差阵。可以证明它对一切线性变换是不变的,故它不受指标量纲的影响。它对指标的相关性也作了考虑,

马氏距离又称为广义欧氏距离。显然,马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。

例7.2.3 已知一二维正态总体G 的分布为

?

??

?

??????

?????? ??19.09.01,002 N , 求点??

?

???=11A 和??????-=11B 到均值??????=00μ的距离。

由假设可算得

??

????--=-19.09.01

19.011

Σ

, 从而

19.0/2.011)1,1()(12=???

?

??=- ΣM d A μ

19.0/8.311)1,1()(1

2

=???

?

??--=- ΣM d B μ 如果用欧氏距离则有

2)2(2)2(22==μμB A d d ,

两者相等,而按马氏距离两者差19倍之多。由总体G 服从二维正态的分布,G 的分布密度是

]}8.1[38

.01exp{19

.021),(2

2212121y y y y y y f +--

=

π, A 和B 两点的密度分别是

2157.0)1,1(= f 和00001658.0)1,1(=-f

说明前者应当离均值近,后者离均值远,马氏距离正确地反映了这一情况,而欧氏距离不然。这个例子告诉我们,正确的选择距离是非常重要的一件事。

但是在聚类分析之前,我们预先对研究对象有多少个不同类型的情况一无所知,则马氏距离公式中的1

-Σ值如何计算呢?如果用全部数据计算的均值和协方差阵来计算马氏距离,效果也不是很理想。因此,通常人们还是喜欢应用欧氏距离聚类。

以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。下面通过一个实例来说明定义距离的较灵活的思想方法。

例7.2.4 欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表7.2.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,…,10的拼法,希望计算这11种语言之间的距离。

表7.2.3 十一种欧洲语言的数词 English Norwegian Danish Dutch German French One En en een ein un Two To to twee zwei deux Three Tre tre drie drei trois Four Fire fire vier vier quatre Five Fem fem vijf funf einq Six Seks seks zes sechs six seven Sju syv zeven siebcn sept Eight Ate otte acht acht huit Nine Ni ni negen neun neuf Ten Ti ti tien zehn dix

Spanish Italian Polish Hungarian Finnish Uno uno jeden egy yksi Dos due dwa ketto kaksi Tres tre trzy harom kolme cuatro quattro cztery negy neua Cinco cinque piec ot viisi Seix sei szesc hat kuusi Siete sette siedem het seitseman Ocho otto osiem nyolc kahdeksau nueve nove dziewiec kilenc yhdeksan Diez dieci dziesiec tiz kymmenen

显然,此例无法直接用上述公式来计算距离,仔细观察表7.2.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一个字母不同,故它们之间的距离为2。十一种语言之间两两的距离列于表4.2.4中。

表7.2.4 十一种欧洲语之间的距离 E N Da Du G Fr Sp I P H Fi E 0 N 2 0 Da 2 1 0 Du 7 5 6 0 G 6 4 5 5 0 Fr 6 6 6 9 7 0 Sp 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 H 9 8 8 8 9 10 10 10 10 0 Fi 9 9 9 9 9 9 9 9 9 8 0

英语、德语、荷兰语 属日耳曼语系

挪威语、丹麦语属北日耳曼语系—日耳曼语系的一个分支 法语、西班牙语、意大利语属拉丁语系 波兰语属斯拉夫语系

匈牙利语和芬兰语属乌拉尔语系

当P 个指标都是名义尺度时,例如P =5,有两个样品的取值为

),,,,(1'=K T S Q V X

),,,,(2'=K F S M V X ,

这两个样品的第一个指标都取V ,称为配合的,第二个指标一个取Q ,另一个取M ,称为不配合的。记配合的指标数为1m ,不配合的指标数为2m ,定义它们之间的距离为

2

12

12m m m d +=

(7.2.6)

二、相似系数

在聚类分析中不仅需要将样品分类,也需要将变量分类,在变量之间也可以定义距离,更常用的是相似系数,用ij C 表示变量i 和变量j 之间的相似系数。ij C 的绝对值越接近于1,表示变量i 和变量j 之间的关系越密切,ij C 的绝对值越接近于0,表示变量i 和变量j 的关系越疏远。对于间隔尺度,常用的相似系数有 (1) 夹角余弦

这是受相似形的启发而来,图图7.2.1中的曲线AB 和CD 尽管

B D

A C

图7.2.1

长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB 和CD 呈现出比较密切的关系。而夹角余弦适合这一要求。变量向量),,,(21ni i i x x x 和),,,(21nj j j x x x 之间的夹角余弦定义为

∑∑∑====

n k n

k kj ki n

k kj

ki ij x x x x

C 1

1

2

/12

2

1)])([()1( (7.2.7)

(2) 相关系数

变量向量),,,(21ni i i x x x 和),,,(21nj j j x x x 之间的相关系数定义为

∑∑∑===----=

n k n

k j kj i ki n

k j kj i ki

ij X x X x X x X x

C 1

1

2

/1221])()([)

)(()2( (7.2.8)

它是将数据标准化后的夹角余弦。相关系数常用ij r 表示,为了和其它相似系数记号统一,这里记它为)2(ij C 。

名义尺度变量之间也可以定义相似系数,本课程不准备介绍。

一般说来,同一批数据采用不同的亲疏测度变量,会得到不同的分类结果。因此我们在进行聚类分析时,应注意亲疏测度变量的选择。通常,选择亲疏测度变量时,应注意遵循的基本原则主要有: (1)所选择的亲疏测度变量在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。

(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。 (3)适当地考虑计算工作量的大小。

§ 7.3系统聚类法

系统聚类法的基本思想:

先将n 个样品各自看成一类,计算各类两两之间的距离,选择其中距离最小的两类合并成一新类,这时原n 类样品就聚成了n-1类。然后再对这n-1类重复上述过程,如此反复进行,直到所有样品都聚为一类为止。 一、类间距离 1.类间距离

在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。

(1)最短距离 。

},|min{),(q p jl s G l G j d q p D ∈∈= (7.3.1) 它等于类p G 与类q G 中最临近的两个样品的距离,即 24),(d q p D s =

q G p

G

图7.3.1类p G 与类q G 的最短类间距离示意图

(2)最长距离

},|max{),(q p jl c G l G j d q p D ∈∈= (7.3.2)

它等于p G 和q G 中最远的两个样品的距离。即13),(d q p D c =

图7.3.2类p G 与类q G 的最长类间距离示意图 (3)重心距离。

q

p X X c d q p D =),( (7.3.3)

它等于两个重心p X 和q X 间的距离。

(4)类间平均距离 ∑∑∈∈=

Gp

i G j ij q p G q

d n n q p D 1

),( (7.3.4)

它等于类p G 和类q G 中任两个样品距离的平均,式中的n p 和n q 分别为p G 和q G 中的样品数。即6

),(25

2423151413d d d d d d q p D G +++++=

图7.3.3类p G 与类q G 的类平均距离示意图

(5) 离差平方和距离

设:p x , q x ,∑+=

∈q

p

G

G i i q p n n x x 1

分别表示类p G 和类q G 的重心。

p G q G

)()(p i G i p i p p

D x x x x -∑'-=∈,

)()(q j G i q j q q

D x x x x -∑'-=∈,

)()(x x x x -'∑-=∈+j G G j j q p q

p D

分别表示类p G 和类q G 及大类q p D +(q p D D )的直径,

p G 和q G 之间的离差平方和距离的平方定义为

q p q p w D D D q p D --=+),(2 (7.3.5)

离差平方和方距离是由Ward 提出来的,许多资料上称做Ward 距离。他的思

想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。两类间的距离用合并后的类的离差平方和减去未合并的类的离差平方和的和,即合并所增加的离差平方和。其距离用到系统聚类法上是先将n 个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有的样品归为一类为止。

如果样品间的距离采用欧氏距离,同样可以证明下式成立

),(),(2

2

q p D L

K KL q p D c w +=

(7.3.6) 这表明,类间的离差平方和距离),(q p D w 与重心距离),(q p D c 只差一个常数倍,

这个倍数与两类的样品数有关。

前面给出的类与类之间的五种距离的定义,每一种定义用到系统聚类过程中,就得到一种系统聚类法。

例如:若聚类时采用最短距离作为测量类间的距离,相应的聚类方法就称为最短

距离法

因此常用的系统聚类法有:

最短距离法(single linkage method) 最长距离法(complete linkage method ) 重心法 (Centroid hierarchical method)

类平均法 (group average method) 离差平方和法(ward )

例7.3.1 使用最长距离和最短距离法聚类的效果不一样

最短距离:112==d D jk , 213==d D jp

最长距离:512==d D il , 813==d D ip

类间的平方距离矩阵

G 1G 2G 3G 4 G 1G 2G 3G 4

G G G G 43

2

1

01450

54010?

?????

?????? G G G G 4

32

10258290

2980250?

????

?

?

??

?

??

由此可见若是用最短距离法应先将G 1 G 2聚为一类,G 3G 4聚为一类, 若是用最长距离法应先将G 1 G 3聚为一类,G 2 G 4聚为一类。

因此用最短距离法易将样品聚为链状的类,用最长距离法易将样品聚为团状的类。

使用重心距离也有它不合理之处,即只用一个点(重心)代表了一个类的位置,但是重心相同的两个类在其他方面(例如类内点的个数,各点分布的情况)可能是很不相同的。因此就产生了类平均距离

如在例7.3.1中如果假定各类均值都处于中点位置,此时

G 1 G 2 G 3G 4

G G G G 4

32

1

0941********?????

???????

这时应先将G 1 G 3聚为一类,G 2 G 4聚为一类,这与最长距离法的聚类效果一致。

二、系统聚类法

1.系统聚类法的步骤:

图 7.3.4 系统聚类法的过程

下面通过一个简单的例子,来说明系统聚类法的步骤。

例7.3.2 设共有五个样品,每个样品只有一个变量,分别是1,2,6,8,11。 现在对其进行聚类。

用最短距离法进行系统聚类。 (1)聚类。

①计算5个样品两两间的距离d ij ,列出距离矩阵D 0=)

(6

6d ij ?。 这里的

d ij 表样品i 与样品j 之间的欧氏距离

D 0=G G G G G G G G G G 5

432103*********

450

1

05

4321???

??????????

??? ②D 0从可以看出,D 2`1=1为最小,于是将G `1,G `2合并成一个新类G 6。。

③计算新类G 6与其它剩余类类之间的距离。计算时用如下递推公式: 在计算新类r G =G p ∪G q 与其它类G i (i ≠p ,q )的距离时用如下递推公式:

D ri =min { D pi ,D qi } (7.3.7)

于是可得距离阵

G 6G 3G 4G 5

D 1=G G G G 5

4360359026040????

?????

??? ④从D 1可以看出,D 34=2为最小,于是将G 3,G 4,合并成一个新类G 7。

⑤按(7.3.7)式计算新类G 7与其它剩余类之间的距离。 D i 7 =min { D i 3,D i 4 } i =7,

则可得距离阵

D 2 =G G G G G G 5

765760

39040??????????

⑥将G 7与G 5合并成G 8。

⑦计算新类G 8与G 6间的距离486=D 。

则可得距离阵

D 3 =G G G G 8

68

6040??????

(2).画聚类图

上述聚类过程可以用下系统聚类图表示。见图7.3.5

图7.3.5 横坐标是并类的距离。

用最长距离法进行系统聚类。 (1) 聚类

①D 0 与最短距离法的相同

D 0=G G G G G G G G G G 5

432103*********

450

105

4321???

??????????

??? ②同最短距离法

计算新类G 6与其它剩余类类之间的距离。计算时用如下递推公式:

③在计算新类r G =G p ∪G q 与其它类G i (i ≠p ,q )的距离时用如下递推公式:

D ri =max{ D pi ,D qi } (7.3.8)

于是可得距离阵

G 6G 3G 4G 5

D 1=G G G G 5

43605310027050????

?????

??? ④从D 1可以看出,D 34=2为最小,于是将G 3,G 4,合并成一个新类G 7。 ⑤按(7.3.8)式计算新类G 7与其它剩余类之间的距离。

D i 7=max { D i 3,D i 4 } i =7, 则可得距离阵

D 2 =G G G G G G 5

76

5760

510070????????

?? ⑥将G 7与G 5合并成G 8。

⑦计算新类G 8与G 6间的距离1086=D 则可得距离阵

D 3 =G G G G 8

68

60100

?????? (2)画聚类图

上述聚类过程可以用下系统聚类图表示。见图7.3.6

2.各种系统聚类法类间距离的递推公式与比较 r 类表示由p 类和q 类聚成的新类 (1)最短距离法和最长距离法

最短距离法是类与类之间的距离采用},|min{),(q p jl S G l G j d q p D ∈∈=的系统聚类法。

最长距离法是类与类之间的距离采用},|max{),(q p jl C G l G j d q p D ∈∈=的系统聚类法。

计算新类与其他类剩余距离的递推公式:p G 与q G 合并成新类r G ,i G (),(q p i ≠)为其他剩余类

最短距离法 D ri =min { D pi ,D qi } 最长距离法 D ri =max { D pi ,D qi }

最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。

最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离,但是最长距离法容易被异常值严重地扭曲,这是值得我们在应用中注意的问题,一个较有效的方法是去除这些异常之后再进行聚类。

我们看到,例7.3.2中最短距离法与最长距离法得到的结果是相同的。

例7.3.3 数据集wxm209中的数据是1999年我国31个省市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据八个变量是 x1:食品; x5:交通和通讯

x2:衣着; x6:娱乐教育文化服务 x3:家庭设备用品及服务; x7:居住

x4:医疗保健 x8:杂项商品和服务

分别用最短距离法、最长距离法、重心法、类平均法和Ward 法对各地区作聚类分析,在聚类前先对各变量作标准化变换。

重心法的树形图

类平均法的树形图

从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。若样品之间采用欧氏距离,设某一步将类p G 与q G 合并成r G ,它们各有p n 、q n 、r n (r n =p n +q n )个样品,它们的重心用p X 、q X 和r X 表示,

可得重心法的距离递推公式为

),(),(),(),(2

2

2

2

q p D n n n n q k D n n p k D n n r k D c r

q r p c r

q c r

p c -

+

=

(7.3.11)

类平均法的递推公式

),(),(),(q k D n n p k D n n r k D G r

q G r

p G +

=

(7.3.12)

类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groups linkage ),另一种是组内联结法(Within-grou ps linkage )。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。还有一种类平均法,它定义类与类之间的距离为 ∑∑∈∈=

p q

G i G j ij q p G d n n q p D 22

1),( (7.3.13)

用类似的方法可导出这种定义下的距离递推公式如下: ),(),(),(2

2

2

q k D n n p k D n n r k D G r

q G r

p G +

=

(7.3.14)

有人认为类平均法是系统聚类法中比较好的方法之一。

(3)离差平方和法(或称Ward 方法)

若将某类p G 和q G 合并为r G ,则类k G 与新类r G 的距离递推公式为

)

,(),(),(),(2

2

2

2

q p D n n n q k D n n n n p k D n n n n r k D w k

r k w k

r k q w k

r k p w +-

+++

++=

(7.3.15)

需要指出的是,离差平方和法只能得到局部最优解。至今还没有很好的办法以较少的计算求得精确最优解。

(4)系统聚类法的统一

上面介绍的五种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。Lance 和Williams 于1967年给出了一个统一的公式

),(),(),(),(),(),(222222q k D p k D q p D q k D a p k D r k D q p -+++=γβα(7.

3.16)

其中γβ,,,q p a a 对于不同的方法有不同的取值,表7.3.2列出了不同方法四参数的取值。表种除了上述五种方法以外,还列举了另三种系统聚类法,由于它们用得较少,这里不详述了.

一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。

现在的许多统计软件都包含有系统聚类法的程序,只要将数据输入,可很方便地将上述八种方法全部算出,并画出聚类图。本书中我们将介绍SPSS 软件实现聚类分析的过程。 3.分类数的确定

确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。下面我们介绍几种方法。

(1)给定阈值——通过观测聚类图,给出一个合适的阈值T 。要求类与类之间的距离不要超过T 值。例如我们给定T=0.35,当聚类时,类间的距离已经超过了0.35,则聚类结束。

(2)统计量(略) 4.系统聚类法的性质

由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。

(1)单调性。令r D 是系统聚类法中第r 次并类时的距离,如例4..4.2,用最短距离时,有1D =195.14,90.2082=D ,80.3563=D ,4D =1220.13,此时1D <2D <3D <…。一个系统聚类法若能保证{r D }是严格单调上升的,则称它具有单调性。有单调性画出的聚类图符合系统聚类的思想,先结合的类关系较近,后结合的类关系较疏远。显然最短距离法和最长距离法具有并类距离的单调性。可以证明类平均法、离差平方和法、可变法和可变类平均法都具有单调性,只有重心法和中间距离法不具有单调性。

(2)空间的浓缩与扩张。对同一问题作聚类图时,横坐标(并类距离)的范围相差很远。最短距离法的范围较小,而最长距离法的范围较大,而类平均法则介于二者之间。范围小的方法区别类的灵敏度差,但范围太大的方法,灵敏度过高会使支流来淹没主流,这与收音机的灵敏度有相似之处。灵敏度太低的收的台少,灵敏度太高,台与台之间容易干扰,要适中为好。用这一直观的想法引进如下的概念。

定义7.3.1 设两个同阶矩阵()

ij a A =和()

ij B B =的元素非负,如果A 的每一

个元素不小于B 相应的元素,若ij ij b a ≥),(j i ?,则记作A ≥B (请勿与非负定阵A ≥B 的意义相混淆,这个记号仅在本节中使用)。由定义推知,A ≥ 0,表示A 的元素非负。

设有A 、B 两个系统聚类法,在第k 步的距离阵记作k A 和k B (k =0,1,…,n-1),若k A ≥k B ,k =1,…,n-1,则称A 比B 扩张或者B 比A 浓缩。对系统聚类法有如下的结论

(K)≤(G)≤(S) , (C)≤(G)≤(W)。

上式中(K)是最短距离法、(S)是最长距离法、(C)是重心法,(W)是离差平方和法,(G)是类平均法。归纳起来说,和类平均法相比,最短距离法、重心法使空间

浓缩;最长距离法、离差平方和法使空间扩张。太浓缩的方法不够灵敏,太扩张的方法当样本大时容易失真。类平均法比较适中,相比其他方法,类平均法不太浓缩也不太扩张,故许多书推荐这个方法。

有关系统聚类法的性质,学者们还从其他角度提出了比较优与劣的原则。将n个样品,欲分为k类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解。系统聚类法的各种方法的比较仍是值得研究的一个课题,例如,有人用随机模拟作了研究,发现最长距离法不可取。

三、利用系统聚类法对变量聚类

采用相关系数来度量各对变量之间的相似性

每次聚类时合并两个相似系数最大的类

例7.3.5现已测得305名女中学生的8个体形指标

x1:身高

x2:手臂长

x3:上体长

x4:下体长

x5:体重

x6:颈围

x7:胸围

x8:胸宽

并算得其样本相关阵如数据集dong177,试将这8个变量分类。

§7.4动态聚类法(K-均值法)Q型系统聚类法一般是在样品间距离矩阵的基础上进行的,故当样品数n很大时(如n>100)时系统聚类法的计算量是非常大的,将占据大量的计算机内存空间和计算时间,因此当样品数n很大时需要一种只需占据少量的计算机内存空间和较短的计算时间的聚类方法。动态聚类法正是基于这种考虑而产生的一种聚类方法。

动态聚类法的基本思想:选择一批凝聚点或给出一个初始的分类,让样品依据某种准则向凝聚点凝聚,然后对凝聚点不断的修改和迭代,直至分类比较合理或迭代比较稳定为止。动态聚类法有许多方法本节只介绍较流行的一种方法—K-均值法

麦奎因(Macqueen)于1967年提出了所谓K-均值法,并以他的名字命名的方法。其基本步骤为:

1.选择k个样品为初始凝聚点,或将所有样品分成k个初始类,然后将这k

个类的重心(均值)作为初始凝聚点;

2.除凝聚点外的所有样品逐个归类,将每个样品归入凝聚点离它最近的类中

去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新

样品的类和失去样品的类的重心(均值);

3.重复第(2)步,直到各类无样品进出为止。

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

多元统计分析复习整理

一、聚类分析的基本思想: 我们认为,所研究的样品或指标之间存在着程度不同的相似性。根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另一些彼此之间相似程度较大的样品又聚合到另外一类。把不同的类型一一划分出来,形成一个由小到大的分类系统。最后,用分群图把所有的样品间的亲疏关系表示出来。 二、聚类分析的方法 系统聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法、加入法 三、系统聚类法的种类 最短距离法、最长距离法、重心法、类平均法、离差平方和法 四、判别分析的基本思想 判别分析用来解决被解释变量是非度量变量的情形,预测和解释影响一个对象所属类别。识别一个个体所属类别的情况下有着广泛的应用 判别分析将对象进行分析,通过人们选择的解释变量来预测或者解释每个对象的所属类别。 五、判别分析的假设条件 判别分析的假设条件之一是每一个判别变量不能是其他判别变量的线性组合;判别分析的假设之二是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数。判别分析的假设之三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。当违背该假设时,计算的概率将非常的不准确。 六、判别分析的方法 距离判别法、Bayes判别法、Fisher判别法、逐步判别法

七、距离判别法的判别准则 设有两个总体1G 和2G ,x 是一个p 维样品,若能定义样品到总体1G 和2G 的距离d (x ,1G )和d (x ,2G ),则用如下规则进行判别:若样品x 到总体1G 的距离小于到总体2G 的距离,则认为样品x 属于总体1G ,反之,则认为样品x 属于总体样品x 属于总体2G ,若样品x 到总体1G 和2G 的距离相等,则让它待判。 八、Fisher 判别的思想 Fisher 判别的思想是投影,将k 组p 维数据投影到某一个方向,使的它们的投影与组之间尽可能地分开。 九、Bayes 判别的思想 Bayes 统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes 统计的思想用于判别分析,就得到Bayes 判别。 十、判别分析的方法和步骤 1.判别分析的对象 2.判别分析的研究设计 3.判别分析的假定 4.估计判别模型和评估整体拟合 5.结果的解释 6.结果的验证 十一、提取主成分的原则 1.累计方差贡献率大于85%, 2.特征根大于1 ,3碎石图特征根的变化趋势。 十二、因子分析的步骤 1.根据研究问题选取原始变量。 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性。 3.求解初始公共因子及因子载荷矩阵。 4.因子旋转。 5.因子得分。 6.根据因子得分值进行进一步分析。

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析第九章聚类分析

聚类分析 引言 俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。 研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。 聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。 聚类分析给人们提供了丰富多彩的分类方法,大致可归为: ⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。 ⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。 ⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、

应用多元统计分析课后答案

应用多元统计分析课后答案 第五章 聚类分析 判别分析和聚类分析有何区别 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 对样品和变量进行聚类分析时, 所构造的统计量分别是什么简要说明为什么这样构造 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()() p q q ij ik jk k d q X X ==-∑ q 取不同值,分为 (1)绝对距离(1q =) 1 (1)p ij ik jk k d X X ==-∑ (2)欧氏距离(2q =) 21/2 1 (2)() p ij ik jk k d X X ==-∑ (3)切比雪夫距离(q =∞)

1()max ij ik jk k p d X X ≤≤∞=- (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 在进行系统聚类时,不同类间距离计算方法有何区别选择距离公式应遵循哪些原则 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 ,min i k j r kr ij X G X G D d ∈∈= min{,}kp kq D D = (2)最长距离法 ,max i p j q pq ij X G X G D d ∈∈= 21 ()()()ij i j i j d M -'=--X X ΣX X 11()p ik jk ij k ik jk X X d L p X X =-=+∑ cos p ik jk ij X X θ= ∑ ()() p ik i jk j ij X X X X r --= ∑ ij G X G X ij d D j j i i ∈∈= ,min

应用多元统计分析习题解答聚类分析

应用多元统计分析习题 解答聚类分析 TPMK standardization office【 TPMK5AB- TPMK08- TPMK2C- TPMK18】

第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()( )p q q ij ik jk k d q X X ==-∑ q 取不同值,分为

(1)绝对距离(1q =) (2)欧氏距离(2q =) (3)切比雪夫距离(q =∞) (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 (2)最长距离法 (3)中间距离法 2 2222 121pq kq kp kr D D D D β++=

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用

ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距 离,马氏距离2 ()ij d M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是: εββββ++++=p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3∑μN X ,其中??? ? ? ??=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否 独立?为什么? 解: 因为1),cov(21=X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵??? ? ??∑∑ ∑∑=∑22211211 ,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独 立是等价的,所以),(21'X X 和3X 是独立的。

多元统计分析案例分析.doc

、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农 村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯

92.87 79.35 3590 3457.9 4643 4124.6 18.7 数据来源:《中国统计年鉴2010》 2、将数据进行标准化变换: 3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。

从分类结果上看,根据2 0 10年的调查数据,第一类地区的农民生活水平较高, 第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 **.错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。下面对新疆进行判别: 已知判别函数系数和组质心处函数如下:

判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:丫1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算丫值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下: (1)各指标的相关系数阵:

多元统计分析实验报告聚类分析

武汉理工大学 实验(实训)报告 项目名称实验2―聚类分析 所属课程名称多元统计分析 项目类型设计性实验 实验(实训)日期年月日 班级 学号 姓名 指导教师 武汉理工大学统计学系制

实验报告2 聚类分析(设计性实验) 实验原理:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。 实验题目一: 为了对11种语言——英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语及芬兰语进行比较研究,研究人员选取每种语言的1至10十个数字相应的单词列表分析。对于同一数字,某两种语言的第一个字母若相同,则称这两者在该数字上一致,否则非一致。将这11种语言两两比较后,计算每一对在十个数字上非一致的数目,得到下列距离矩阵: E N Da Du G Fr Sp I P H Fi E 0 N 2 0 Da 2 1 0 Du 7 5 6 0 G 6 4 5 5 0 Fr 6 6 6 9 7 0 Sp 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 H 9 8 8 8 9 10 10 10 10 0 Fi 9 9 9 9 9 9 9 9 9 8 0 (1)对这11种语言分别用最小距离法(single linkage)、最大距离法(complete linkage)、平均距离法(average linkage)进行聚类分析; (2)画出以上三种方法聚类分析结果的树状图; (3)结合三种方法的树状图,你认为将11种语言分为哪几类比较合适? (4)用最大距离法将11种语言聚为3类,并将聚类结果存储在一个SPSS数据文件中。

相关文档
最新文档