实验十一-判别分析

实验十一判别分析

实验目的：

掌握判别分析在SPSS中的实现方法。

实验工具：

SPSS分析工具菜单项。

知识准备：

一、判别分析的基本原理

在已经将研究对象分成若干组的情况下，根据收集到的新的观测样品的数据和判别规则，来判断新样品应该属于哪个组。具体判别过程中，根据分组情况，可以有两组判别和多组判别之分；根据判别规则不同，有距离判别、贝叶斯判别和典型判别等方法。

二、判别分析的基本步骤

1.了解总体分组情况。了解总体可以分为几个组，各个组的数值特征。

2.选取判别方法。根据所收集的样本的数据类型以及总体分组情况，决定是采用两组判别还是多组判别，判别时是用距离判别、贝叶斯判别和典型判别中的哪一种。

3.判别结果检验。用验证样本带入判别规则（函数），检验其是否具有有效性。

三、判别分析的几种方法简介

1.距离判别。在距离判别中，经常用马哈拉诺比斯提出的“马氏距离”来进行判断。设Y

∑的

X,是从均值为μ，协方差矩阵为)0

总体G中抽取的两个样品（p维），则总体G内两点X与Y之间的

平方马氏距离定义为：

)()(),(1'2Y X Y X Y X d -∑-=-

点X 到总体G 的平方马氏距离为：

)()(),(1'2μμ-∑-=-X X G X d 。

1) 两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和

2μ，协方差矩阵分别为1∑和2∑（0,21>∑∑），1?p X 是一个新样本，

判断其属于哪个总体。定义1?p X 到1G 和2G 的距离为),(12G X d 和

),(22G X d ，则按如下判别规则进行判断：

{

),(),(,)

,(),(,2212112222G X d G X d G X G X d G X d G X ≤∈<∈若若

当1∑=2∑时，该判别式可进行如下简化：

-),(12G X d ),(22G X d =--∑--)()(11'1μμX X )()(21'2μμ-∑--X X

=-∑+∑-∑---11'111'1'

2μμμX X X

)2(21'

221'1'μμμ---∑+∑-∑X X X

)()()(2211'21121'μμμμμμ-∑++-∑--X =)()2

(2211'2

1μμμμ-∑+-

--X

=)(2'μ--X A 其中)(2

21μμμ+=，)(211μμ-∑=-A 令)()('μ-=X A X W ，则判别规则就成为：

{

0)(,0

)(,12≥∈<∈X W G X X W G X 若若

显然)(X W 是X 的线性函数，故称其为线性判别函数，A 称为判别系

数。

当≠∑12∑时，

-=),()(12G X d X W ),(22G X d

=--∑--)()(111'1μμX X )()(21

2'2μμ-∑--X X

判别规则为：

{

)(,0

)(,12≤∈>∈X W G X X W G X 若若

2) 多总体距离判别。设有k 个总体k G G G ,,,21Λ，它们的均值分别是k μμμ,,,21Λ，协方差矩阵分别是k ∑∑∑,,,21Λ,则样本X 到各

组的平方马氏距离是：

)()(),(1

'2ααααμμ-∑-=-X X G X d ， k ,.2,1Λ=α

判别规则为：i G X ∈ ，若 ),(min ),(212j k

j i G X d G X d ≤≤= 2.贝叶斯判别。设有k 个总体k G G G ,,,21Λ，且),(~ααα

μ∑p N G ，

0>∑α ，k ,.2,1Λ=α 。又设样本X

来自总体αG 的先验概率为αq ，

k ,.2,1Λ=α，满足121=+++k q q q Λ。

到αG 的平方马氏距离是：)()(),(1

'2ααααμμ-∑-=-X X G X d 来自αG 的X 的概率密度为：[])

,(5.0exp )2()(22

/12/ααα

απG X d X f p -∑=--

根据贝叶斯定理，X 属于αG 的后验概率为：

∑==

X f q X f q X G P 1

)()

(αααααα ，

k ,.2,1Λ=α

判别规则如下：i G X ∈ ，若

G P X G P j k

j i

≤≤=1m ax

3.费希尔判别。用p 维向量 '2),,,p 1x x (x Λ=x 的少数几个线性

组合（称为判别式或典型变量）x a x a x a '

'22'11,,,r r y y y ===Λ（一般

r 明

显小于p ）来代替原始的p 个变量 p 1x x x ,,,2Λ，以达到降维的目的，并根据这r 个判别式r y y y ,,,21Λ对样品的归属作出判别。设来自组 i π的

p 维观测值为k i n j i ij ΛΛ,2,1,

,,2,1,==x ，

将它们投影到某一共同方向，得到的投影点是线性组合

k i n j y i ij ij ΛΛ,2,1,,,2,1,'===x a ，其中a 表示投影方向。这时的ij y 可

以组成一元方差分析数据。其组间平方和表示为

a x a x a B n y y n SSTR k

i i i k

i i i '1

2''1

)()(=-=-=∑∑==

式中∑=--=k i i i n B 1

))((x x x x ，i x 和x 分别为第i 组均值和总均值向

量。

组内平方和为：a a x a x a E y y SSE k i n j i ij k i n j i ij i

i '

''11

2)()(=-=-=∑∑∑∑====

式中，'

))((∑∑==--=k

i n j i ij i ij i

E x x x x 。

如果k

组均值有显著差异，则a

a a

a E k B k n k n SSE k SSTR F '

')1()()/()1/(--=--=应充分地大，或者a

a a

a a E B '')(=?应充分地大。所以问题转化为求a ，使得)

(a ?达到最大。当用任意非零常数c 乘以a ，所得)(a c ?仍可达到最大，所以a 并不唯一。因此，将a 约束为1'=a a p S ，E k

n S p -=

1是当

∑=∑=∑=∑k Λ21时∑的无偏估计。由矩阵知识可知，)(a ?的极大值

为1λ是0=-E B λ的最大特征值。设0=-E B λ的全部非零特征值依次为021>≥≥≥s λλλΛ

，对应特征向量为s t t t ,,,21Λ。当1t a =时，可使

)(a ?达到最大。由于)(a ?的大小可衡量判别函数x a '=y

的效果，故

称)(a ?为判别效率。在许多情况下，仅用一个判别函数不能很好区

别各个总体，可取2λ对应的特征向量2t ，建立x t '

22=y ，如不够，

还可建立第三个判别函数x t '

33=y ，依次类推。

在确定了判别式后，可制定相应的判别规则：

,l π∈x 若∑∑=≤≤=-=-r

j ij j

i r

j lj j y y

y y 1

2112

)(min

)(

其中∑==

n j ij

i i j ij n y 1

x x t 。

实验背景：

对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目，这些训练项目为：30米跑（1x ）、投掷小球（2x ）、挺举重量（3x ）、抛实心球（4x ）、前抛铅球（5x ）和五级跳（6x ）。测得的数据全部列于下表。

根据以上资料进行判别分析，并进行误判率的分析。

实验过程：

1）激活数据管理窗口，定义变量，按要求输入数据。

2）选择Analyze → Classify →Discriminant，打开判别分析对话框。选择变量type进入Grouping V ariable，定义分组变量取值范围最小值1和最大值2。选择1x到6x进入Independents(如图1)。

图1

3）点击Statistics按钮，选择需要输出的统计量（如图2）。

图2

3）点击Classify，选择输出结果（如图3）。

图3

结果说明

上表说明的是各组及总的组内协方差矩阵的秩和行列式的对数值，由表中数据可以看出，矩阵是满秩的，符合用于分析的条件。

Test Results

Box's M 97.309

F Approx. 4.043

df1 21

df2 9296.244

Sig. .000

Tests null hypothesis of equal population covariance matrices.

上表是对各总体协方差矩阵是否相等做的检验，从F值或显著性水平值来看，各组协方差矩阵相等的假设能够通过。

上表反映的是判别函数建立时所依据的特征值、解释方差的比例和典型相关系数。

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.

1 .150 91.210 6 .000

上表是对判别函数进行的显著性检验，有显著性水平来看，在0.05的显著性水平下能通过检验。

Standardized Canonical Discriminant Function Coefficients

上表给出的是标准化的典型判别函数的系数，其实就是给出了标准化的判别函数，只不过这时判别函数中的自变量要求带入的是标准化后的数值。这时的判别函数表示为：

6*5*4*3*2*1152.1321.0022.0125.06.0261.x x x x x x o y +--+-=

Function

五级跳 .772 挺举重量 .610 前抛铅球 .212 投掷小球 -.211 抛实心球 .180 30米跑

-.075

上表给出的是结构矩阵，其实就是判别载荷，说明的是各个解释变量对判别函数的贡献大小。

Classification Function Coefficients

组别

2 30米跑 109.359 114.700 投掷小球 112.478 97.644 挺举重量 1.278 1.380 抛实心球 1.701 1.690 前抛铅球 -.177 -.305 五级跳 5.077 9.161 (Constant)

-588.157

-626.001

上表给出的是费希尔判别的2个判别式。

上表为判别结果列表，说明了按照判别函数判别的结果。从表中数据可以看出，直接通过判别函数进行判别，判别结果与各单位原来所属组别一致。