实验十一-判别分析

实验十一判别分析

实验目的:

掌握判别分析在SPSS中的实现方法。

实验工具:

SPSS分析工具菜单项。

知识准备:

一、判别分析的基本原理

在已经将研究对象分成若干组的情况下,根据收集到的新的观测样品的数据和判别规则,来判断新样品应该属于哪个组。具体判别过程中,根据分组情况,可以有两组判别和多组判别之分;根据判别规则不同,有距离判别、贝叶斯判别和典型判别等方法。

二、判别分析的基本步骤

1.了解总体分组情况。了解总体可以分为几个组,各个组的数值特征。

2.选取判别方法。根据所收集的样本的数据类型以及总体分组情况,决定是采用两组判别还是多组判别,判别时是用距离判别、贝叶斯判别和典型判别中的哪一种。

3.判别结果检验。用验证样本带入判别规则(函数),检验其是否具有有效性。

三、判别分析的几种方法简介

1.距离判别。在距离判别中,经常用马哈拉诺比斯提出的“马氏距离”来进行判断。设Y

∑的

X,是从均值为μ,协方差矩阵为)0

(>

总体G中抽取的两个样品(p维),则总体G内两点X与Y之间的

平方马氏距离定义为:

)()(),(1'2Y X Y X Y X d -∑-=-

点X 到总体G 的平方马氏距离为:

)()(),(1'2μμ-∑-=-X X G X d 。

1) 两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和

2μ,协方差矩阵分别为1∑和2∑(0,21>∑∑),1?p X 是一个新样本,

判断其属于哪个总体。定义1?p X 到1G 和2G 的距离为),(12G X d 和

),(22G X d ,则按如下判别规则进行判断:

{

),(),(,)

,(),(,2212112222G X d G X d G X G X d G X d G X ≤∈<∈若若

当1∑=2∑时,该判别式可进行如下简化:

-),(12G X d ),(22G X d =--∑--)()(11'1μμX X )()(21'2μμ-∑--X X

=-∑+∑-∑---11'111'1'

2μμμX X X

)2(21'

221'1'μμμ---∑+∑-∑X X X

=

)()()(2211'21121'μμμμμμ-∑++-∑--X =)()2

(2211'2

1μμμμ-∑+-

--X

=)(2'μ--X A 其中)(2

1

21μμμ+=,)(211μμ-∑=-A 令)()('μ-=X A X W ,则判别规则就成为:

{

0)(,0

)(,12≥∈<∈X W G X X W G X 若若

显然)(X W 是X 的线性函数,故称其为线性判别函数,A 称为判别系

数。

当≠∑12∑时,

-=),()(12G X d X W ),(22G X d

=--∑--)()(111'1μμX X )()(21

2'2μμ-∑--X X

判别规则为:

{

)(,0

)(,12≤∈>∈X W G X X W G X 若若

2) 多总体距离判别。设有k 个总体k G G G ,,,21Λ,它们的均值分别是k μμμ,,,21Λ,协方差矩阵分别是k ∑∑∑,,,21Λ,则样本X 到各

组的平方马氏距离是:

)()(),(1

'2ααααμμ-∑-=-X X G X d , k ,.2,1Λ=α

判别规则为:i G X ∈ ,若 ),(min ),(212j k

j i G X d G X d ≤≤= 2.贝叶斯判别。设有k 个总体k G G G ,,,21Λ,且),(~ααα

μ∑p N G ,

0>∑α ,k ,.2,1Λ=α 。又设样本X

来自总体αG 的先验概率为αq ,

k ,.2,1Λ=α,满足121=+++k q q q Λ。

X

到αG 的平方马氏距离是:)()(),(1

'2ααααμμ-∑-=-X X G X d 来自αG 的X 的概率密度为:[])

,(5.0exp )2()(22

/12/ααα

απG X d X f p -∑=--

根据贝叶斯定理,X 属于αG 的后验概率为:

∑==

k

X f q X f q X G P 1

)()

(αααααα ,

k ,.2,1Λ=α

判别规则如下:i G X ∈ , 若

X

G P X G P j k

j i

≤≤=1m ax

3.费希尔判别。用p 维向量 '2),,,p 1x x (x Λ=x 的少数几个线性

组合(称为判别式或典型变量)x a x a x a '

'22'11,,,r r y y y ===Λ(一般

r 明

显小于p )来代替原始的p 个变量 p 1x x x ,,,2Λ,以达到降维的目的,并根据这r 个判别式r y y y ,,,21Λ对样品的归属作出判别。 设来自组 i π的

p 维观测值为k i n j i ij ΛΛ,2,1,

,,2,1,==x ,

将它们投影到某一共同方向,得到的投影点是线性组合

k i n j y i ij ij ΛΛ,2,1,,,2,1,'===x a ,其中a 表示投影方向。这时的ij y 可

以组成一元方差分析数据。其组间平方和表示为

a

a x a x a B n y y n SSTR k

i i i k

i i i '1

2''1

2

)()(=-=-=∑∑==

式中∑=--=k i i i n B 1

'

))((x x x x ,i x 和x 分别为第i 组均值和总均值向

量。

组内平方和为:a a x a x a E y y SSE k i n j i ij k i n j i ij i

i '

2

11

''11

2)()(=-=-=∑∑∑∑====

式中,'

11

))((∑∑==--=k

i n j i ij i ij i

E x x x x 。

如果k

组均值有显著差异,则a

a a

a E k B k n k n SSE k SSTR F '

')1()()/()1/(--=--=应充分地大,或者a

a a

a a E B '')(=?应充分地大。所以问题转化为求a ,使得)

(a ?达到最大。当用任意非零常数c 乘以a ,所得)(a c ?仍可达到最大,所以a 并不唯一。因此,将a 约束为1'=a a p S ,E k

n S p -=

1是当

∑=∑=∑=∑k Λ21时∑的无偏估计。由矩阵知识可知,)(a ?的极大值

为1λ是0=-E B λ的最大特征值。设0=-E B λ的全部非零特征值依次为021>≥≥≥s λλλΛ

,对应特征向量为s t t t ,,,21Λ。当1t a =时,可使

)(a ?达到最大。由于)(a ?的大小可衡量判别函数x a '=y

的效果,故

称)(a ?为判别效率。在许多情况下,仅用一个判别函数不能很好区

别各个总体,可取2λ对应的特征向量2t ,建立x t '

22=y ,如不够,

还可建立第三个判别函数x t '

33=y ,依次类推。

在确定了判别式后,可制定相应的判别规则:

,l π∈x 若∑∑=≤≤=-=-r

j ij j

k

i r

j lj j y y

y y 1

2112

)(min

)(

其中∑==

=i

n j ij

i

i i j ij n y 1

'

1

,x

x x t 。

实验背景:

对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练项目为:30米跑(1x )、投掷小球(2x )、挺举重量(3x )、抛实心球(4x )、前抛铅球(5x )和五级跳(6x )。测得的数据全部列于下表。

根据以上资料进行判别分析,并进行误判率的分析。

实验过程:

1)激活数据管理窗口,定义变量,按要求输入数据。

2)选择Analyze → Classify →Discriminant,打开判别分析对话框。选择变量type进入Grouping V ariable,定义分组变量取值范围最小值1和最大值2。选择1x到6x进入Independents(如图1)。

图1

3)点击Statistics按钮,选择需要输出的统计量(如图2)。

图2

3)点击Classify,选择输出结果(如图3)。

图3

结果说明

上表说明的是各组及总的组内协方差矩阵的秩和行列式的对数值,由表中数据可以看出,矩阵是满秩的,符合用于分析的条件。

Test Results

Box's M 97.309

F Approx. 4.043

df1 21

df2 9296.244

Sig. .000

Tests null hypothesis of equal population covariance matrices.

上表是对各总体协方差矩阵是否相等做的检验,从F值或显著性水平值来看,各组协方差矩阵相等的假设能够通过。

上表反映的是判别函数建立时所依据的特征值、解释方差的比例和典型相关系数。

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.

1 .150 91.210 6 .000

上表是对判别函数进行的显著性检验,有显著性水平来看,在0.05的显著性水平下能通过检验。

Standardized Canonical Discriminant Function Coefficients

上表给出的是标准化的典型判别函数的系数,其实就是给出了标准化的判别函数,只不过这时判别函数中的自变量要求带入的是标准化后的数值。这时的判别函数表示为:

*

6*5*4*3*2*1152.1321.0022.0125.06.0261.x x x x x x o y +--+-=

Function

五级跳 .772 挺举重量 .610 前抛铅球 .212 投掷小球 -.211 抛实心球 .180 30米跑

-.075

上表给出的是结构矩阵,其实就是判别载荷,说明的是各个解释变量对判别函数的贡献大小。

Classification Function Coefficients

组别

1

2 30米跑 109.359 114.700 投掷小球 112.478 97.644 挺举重量 1.278 1.380 抛实心球 1.701 1.690 前抛铅球 -.177 -.305 五级跳 5.077 9.161 (Constant)

-588.157

-626.001

上表给出的是费希尔判别的2个判别式。

上表为判别结果列表,说明了按照判别函数判别的结果。从表中数据可以看出,直接通过判别函数进行判别,判别结果与各单位原来所属组别一致。

相关主题
相关文档
最新文档