实验十一-判别分析
实验十一判别分析
实验目的:
掌握判别分析在SPSS中的实现方法。
实验工具:
SPSS分析工具菜单项。
知识准备:
一、判别分析的基本原理
在已经将研究对象分成若干组的情况下,根据收集到的新的观测样品的数据和判别规则,来判断新样品应该属于哪个组。具体判别过程中,根据分组情况,可以有两组判别和多组判别之分;根据判别规则不同,有距离判别、贝叶斯判别和典型判别等方法。
二、判别分析的基本步骤
1.了解总体分组情况。了解总体可以分为几个组,各个组的数值特征。
2.选取判别方法。根据所收集的样本的数据类型以及总体分组情况,决定是采用两组判别还是多组判别,判别时是用距离判别、贝叶斯判别和典型判别中的哪一种。
3.判别结果检验。用验证样本带入判别规则(函数),检验其是否具有有效性。
三、判别分析的几种方法简介
1.距离判别。在距离判别中,经常用马哈拉诺比斯提出的“马氏距离”来进行判断。设Y
∑的
X,是从均值为μ,协方差矩阵为)0
(>
总体G中抽取的两个样品(p维),则总体G内两点X与Y之间的
平方马氏距离定义为:
)()(),(1'2Y X Y X Y X d -∑-=-
点X 到总体G 的平方马氏距离为:
)()(),(1'2μμ-∑-=-X X G X d 。
1) 两总体距离判别。设有两总体1G 和2G 的均值分别为1μ和
2μ,协方差矩阵分别为1∑和2∑(0,21>∑∑),1?p X 是一个新样本,
判断其属于哪个总体。定义1?p X 到1G 和2G 的距离为),(12G X d 和
),(22G X d ,则按如下判别规则进行判断:
{
),(),(,)
,(),(,2212112222G X d G X d G X G X d G X d G X ≤∈<∈若若
当1∑=2∑时,该判别式可进行如下简化:
-),(12G X d ),(22G X d =--∑--)()(11'1μμX X )()(21'2μμ-∑--X X
=-∑+∑-∑---11'111'1'
2μμμX X X
)2(21'
221'1'μμμ---∑+∑-∑X X X
=
)()()(2211'21121'μμμμμμ-∑++-∑--X =)()2
(2211'2
1μμμμ-∑+-
--X
=)(2'μ--X A 其中)(2
1
21μμμ+=,)(211μμ-∑=-A 令)()('μ-=X A X W ,则判别规则就成为:
{
0)(,0
)(,12≥∈<∈X W G X X W G X 若若
显然)(X W 是X 的线性函数,故称其为线性判别函数,A 称为判别系
数。
当≠∑12∑时,
-=),()(12G X d X W ),(22G X d
=--∑--)()(111'1μμX X )()(21
2'2μμ-∑--X X
判别规则为:
{
)(,0
)(,12≤∈>∈X W G X X W G X 若若
2) 多总体距离判别。设有k 个总体k G G G ,,,21Λ,它们的均值分别是k μμμ,,,21Λ,协方差矩阵分别是k ∑∑∑,,,21Λ,则样本X 到各
组的平方马氏距离是:
)()(),(1
'2ααααμμ-∑-=-X X G X d , k ,.2,1Λ=α
判别规则为:i G X ∈ ,若 ),(min ),(212j k
j i G X d G X d ≤≤= 2.贝叶斯判别。设有k 个总体k G G G ,,,21Λ,且),(~ααα
μ∑p N G ,
0>∑α ,k ,.2,1Λ=α 。又设样本X
来自总体αG 的先验概率为αq ,
k ,.2,1Λ=α,满足121=+++k q q q Λ。
X
到αG 的平方马氏距离是:)()(),(1
'2ααααμμ-∑-=-X X G X d 来自αG 的X 的概率密度为:[])
,(5.0exp )2()(22
/12/ααα
απG X d X f p -∑=--
根据贝叶斯定理,X 属于αG 的后验概率为:
∑==
k
X f q X f q X G P 1
)()
(αααααα ,
k ,.2,1Λ=α
判别规则如下:i G X ∈ , 若
X
G P X G P j k
j i
≤≤=1m ax
3.费希尔判别。用p 维向量 '2),,,p 1x x (x Λ=x 的少数几个线性
组合(称为判别式或典型变量)x a x a x a '
'22'11,,,r r y y y ===Λ(一般
r 明
显小于p )来代替原始的p 个变量 p 1x x x ,,,2Λ,以达到降维的目的,并根据这r 个判别式r y y y ,,,21Λ对样品的归属作出判别。 设来自组 i π的
p 维观测值为k i n j i ij ΛΛ,2,1,
,,2,1,==x ,
将它们投影到某一共同方向,得到的投影点是线性组合
k i n j y i ij ij ΛΛ,2,1,,,2,1,'===x a ,其中a 表示投影方向。这时的ij y 可
以组成一元方差分析数据。其组间平方和表示为
a
a x a x a B n y y n SSTR k
i i i k
i i i '1
2''1
2
)()(=-=-=∑∑==
式中∑=--=k i i i n B 1
'
))((x x x x ,i x 和x 分别为第i 组均值和总均值向
量。
组内平方和为:a a x a x a E y y SSE k i n j i ij k i n j i ij i
i '
2
11
''11
2)()(=-=-=∑∑∑∑====
式中,'
11
))((∑∑==--=k
i n j i ij i ij i
E x x x x 。
如果k
组均值有显著差异,则a
a a
a E k B k n k n SSE k SSTR F '
')1()()/()1/(--=--=应充分地大,或者a
a a
a a E B '')(=?应充分地大。所以问题转化为求a ,使得)
(a ?达到最大。当用任意非零常数c 乘以a ,所得)(a c ?仍可达到最大,所以a 并不唯一。因此,将a 约束为1'=a a p S ,E k
n S p -=
1是当
∑=∑=∑=∑k Λ21时∑的无偏估计。由矩阵知识可知,)(a ?的极大值
为1λ是0=-E B λ的最大特征值。设0=-E B λ的全部非零特征值依次为021>≥≥≥s λλλΛ
,对应特征向量为s t t t ,,,21Λ。当1t a =时,可使
)(a ?达到最大。由于)(a ?的大小可衡量判别函数x a '=y
的效果,故
称)(a ?为判别效率。在许多情况下,仅用一个判别函数不能很好区
别各个总体,可取2λ对应的特征向量2t ,建立x t '
22=y ,如不够,
还可建立第三个判别函数x t '
33=y ,依次类推。
在确定了判别式后,可制定相应的判别规则:
,l π∈x 若∑∑=≤≤=-=-r
j ij j
k
i r
j lj j y y
y y 1
2112
)(min
)(
其中∑==
=i
n j ij
i
i i j ij n y 1
'
1
,x
x x t 。
实验背景:
对28名一级和25名健将级标枪运动员测试了6个影响标枪成绩的训练项目,这些训练项目为:30米跑(1x )、投掷小球(2x )、挺举重量(3x )、抛实心球(4x )、前抛铅球(5x )和五级跳(6x )。测得的数据全部列于下表。
根据以上资料进行判别分析,并进行误判率的分析。
实验过程:
1)激活数据管理窗口,定义变量,按要求输入数据。
2)选择Analyze → Classify →Discriminant,打开判别分析对话框。选择变量type进入Grouping V ariable,定义分组变量取值范围最小值1和最大值2。选择1x到6x进入Independents(如图1)。
图1
3)点击Statistics按钮,选择需要输出的统计量(如图2)。
图2
3)点击Classify,选择输出结果(如图3)。
图3
结果说明
上表说明的是各组及总的组内协方差矩阵的秩和行列式的对数值,由表中数据可以看出,矩阵是满秩的,符合用于分析的条件。
Test Results
Box's M 97.309
F Approx. 4.043
df1 21
df2 9296.244
Sig. .000
Tests null hypothesis of equal population covariance matrices.
上表是对各总体协方差矩阵是否相等做的检验,从F值或显著性水平值来看,各组协方差矩阵相等的假设能够通过。
上表反映的是判别函数建立时所依据的特征值、解释方差的比例和典型相关系数。
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.
1 .150 91.210 6 .000
上表是对判别函数进行的显著性检验,有显著性水平来看,在0.05的显著性水平下能通过检验。
Standardized Canonical Discriminant Function Coefficients
上表给出的是标准化的典型判别函数的系数,其实就是给出了标准化的判别函数,只不过这时判别函数中的自变量要求带入的是标准化后的数值。这时的判别函数表示为:
*
6*5*4*3*2*1152.1321.0022.0125.06.0261.x x x x x x o y +--+-=
Function
五级跳 .772 挺举重量 .610 前抛铅球 .212 投掷小球 -.211 抛实心球 .180 30米跑
-.075
上表给出的是结构矩阵,其实就是判别载荷,说明的是各个解释变量对判别函数的贡献大小。
Classification Function Coefficients
组别
1
2 30米跑 109.359 114.700 投掷小球 112.478 97.644 挺举重量 1.278 1.380 抛实心球 1.701 1.690 前抛铅球 -.177 -.305 五级跳 5.077 9.161 (Constant)
-588.157
-626.001
上表给出的是费希尔判别的2个判别式。
上表为判别结果列表,说明了按照判别函数判别的结果。从表中数据可以看出,直接通过判别函数进行判别,判别结果与各单位原来所属组别一致。