实用多元统计分析相关习题学习资料

实用多元统计分析相

关习题

练习题

一、填空题

1．人们通过各种实践，发现变量之间的相互关系可以分成（相关）和（不相关）两种类型。多元统计中常用的统计量有：样本均值、样本方差、样本协方差和样本相关系数。

2．总离差平方和可以分解为（回归离差平方和）和（剩余离差平方和）两个部分，其中（回归离差平方和）在总离差平方和中所占比重越大，则线性回归效果越显著。3．回归方程显著性检验时通常采用的统计量是（S R/p）/[S E/（n-p-1）]。

4．偏相关系数是指多元回归分析中，（当其他变量固定时，给定的两个变量之间的）的相关系数。

5．Spss中回归方程的建模方法有（一元线性回归、多元线性回归、岭回归、多对多线性回归）等。

6．主成分分析是通过适当的变量替换，使新变量成为原变量的（线性组合），并寻求（降维）的一种方法。

7．主成分分析的基本思想是（设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来替代原来的指标）。

8．主成分表达式的系数向量是（相关系数矩阵）的特征向量。

9．样本主成分的总方差等于（1）。

10．在经济指标综合评价中，应用主成分分析法，则评价函数中的权数为（方差贡献度）。主成分的协方差矩阵为（对称）矩阵。主成分表达式的系数向量是（相关矩阵特征值）的特征向量。

11．SPSS中主成分分析采用（analyze—data reduction—facyor）命令过程。

12．因子分析是把每个原始变量分解为两部分因素，一部分是（公共因子），另一部分为（特殊因子）。

13．变量共同度是指因子载荷矩阵中（第i行元素的平方和）。

14．公共因子方差与特殊因子方差之和为（1）。

15．聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的（亲疏程度）进行科学的分类。

16．Q型聚类法是按（样品）进行聚类，R型聚类法是按（变量）进行聚类。17．Q型聚类统计量是（距离），而R型聚类统计量通常采用（相关系数）。18．六种Q型聚类方法分别为（最长距离法）、（最短距离法）、（中间距离法）、（类平均法）、（重心法）、（离差平方和法）。

19．快速聚类在SPSS中由（k-均值聚类（analyze—classify—k means cluster））过程实现。

20．判别分析是要解决在研究对象已（已分成若干类）的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。

21．用判别分析方法处理问题时，通常以（判别函数）作为衡量新样本点与各已知组别接近程度的指标。

22．进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有（Fisher准则）、（贝叶斯准则）。

23．类内样本点接近，类间样本点疏远的性质，可以通过（类与类之间的距离）与（类内样本的距离）的大小差异表现出来，而两者的比值能把不同的类区别开来。这个比值越大，说明类与类间的差异越（类与类之间的距离越大），分类效果越（好）。

24．Fisher判别法就是要找一个由p个变量组成的（线性判别函数），使得各自组内点的（离差）尽可能接近，而不同组间点的尽可能疏远。

二、简答题

1、简述复相关系数与偏相关系数。

答：复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如，某种商品的需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

偏相关系数：又叫部分相关系数。部分相关系数反映校正其它变量后某一变量与另一变量的相关关系。偏相关系数是指多元回归分析中，当其他变量固定后，给定的两个变量之间的的相关系数。

偏相关系数的假设检验等同于偏回归系数的t检验。复相关系数的假设检验等同于回归方程的方差分析。

2、简述逐步回归分析方法的具体实施步骤。

答：逐步回归过程如下：

1）自变量的剔除；

2）重新进行少一个自变量的多元线性回归分析；

3）重新进行多一个自变量的多元线性回归分析；

4）重新进行上述步骤，直至无法再删除和再引入自变量为止。

3、提取样本主成分的原则。

答：主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征值小于1，说明该主

成分的解释力度还不如直接引入一个原变量的平均解释力度大，因此，一般可以用特征值大于1作为纳入标准。

4、简述系统聚类法的基本思想及主要步骤。

答：系统聚类的基本思想是：距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直进行下去，每个样品（或变量）总能聚到合适的类中。

系统聚类过程是：假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；第二步根据所确定的样品（或变量）“距离”公式，把距离较近的两个样品（或变量）聚合为一类，其它的样品（或变量）仍各自聚为一类，共聚成n 1类；第三步将“距离”最近的两个类进一步聚成一类，共聚成n 2类；……，以上步骤一直进行下去，最后将所有的样品（或变量）全聚成一类，也简称聚集法。还有与以上方法相反的称分解法。

5、简述快速聚类（k—均值聚类）的基本思想及主要步骤。

答：基本思想：1.一个样品分配给最近中心（均值）的类中，将所有样品分成k个初始类。2.通过欧式距离将每个样品划入离中心最近的类中，并对得到样品或失去样品的类重新计算中心坐标。3.重复步骤2，直到所有样品都不能再分配时为止。

6、判别分析的分类。

答：判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。

判别分析按判别的组数来分，有两组判别分析和多组判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别对所处理的变量方法不同，有逐步判别、序贯判别等；按判别准则不同，有距离判别、贝叶斯判别（Bayes）、费歇（Fisher）判别等。

7、简述Fisher判别规则及具体判别步骤。

答：Fisher 判别法的基本思想：从多个总体（类）抽取一定的样本，借助方差分析的思想，建立p 个指标的线性判别函数，把待判样品代入线性判别函数，然后与临界值比较，就可判样品属于哪个类。

Fisher 判别法的具体算法步骤：由Fisher 线性判别式()M M S 211

*-=

-ωω求解向量ω*的步

骤：

① 把来自两类ωω21

训练样本集

X 分成ω1和ω2两个子集X1和X2。

② 由

,1,1

i =∑=

∈I X n M X x i

k k i ，计算M i 。

③ 由

()()

i k i k X x i

k M x M X S ∑--=∈i 计算各类的类内离散度矩阵S i ，i=1,2。

④ 计算类内总离散度矩阵S S S 21+=ω。 ⑤ 计算S ω的逆矩阵S 1

-ω。 ⑥ 由

()M M S 211

*-=

-ωω求解ω*。

三、计算题

1.现收集了92组合金钢中的碳含量x 及强度y ，且求得：

03.29415126

.263019

.07989

.45,

1255.0=====yy xy xx L L L y x

(1)求y 关于x 的一元线性回归方程； (2)求y 与x 的相关系数；

(3)列出对方程作显著性检验的方差分析表；

(4)在x=0.1时，求y

?的点估计。

2. 某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回归方程为

10.360.0940.1310.210i i i i edu sibs medu fedu =-++ 20.214R =

式中，edu 为劳动力受教育年数，sibs 为劳动力家庭中兄弟姐妹的个数，medu 与fedu 分别为母亲与父亲受到教育的年数。问

（1）若medu 与fedu 保持不变，为了使预测的受教育水平减少一年，需要sibs 增加多少？

（2）请对medu 的系数给予适当的解释。

（3）如果两个劳动力都没有兄弟姐妹，但其中一个的父母受教育的年数均为12年，另一个的父母受教育的年数均为16年，则两人受教育的年数预期相差多少年

3．下表给出一二元模型的回归结果。

方差来源平方和（SS）自由度（d.f.）来自回归(ESS) 65965 —

来自残差(RSS) ——

总离差(TSS) 66042 14

求：（1）样本容量是多少？RSS是多少？ESS和RSS的自由度各是多少？

（2）2R和2R？

（3）检验假设：解释变量总体上对Y有无影响。你用什么假设检验？为什么？

4．在一项研究中，测量了376只鸡的骨骼，并利用相关系数矩阵进行主成分分析，见下表：

Y1 Y2 Y3 Y4 Y5 Y6

头长x1

头宽x2

肱骨x3

尺骨x4

股骨x5

胫骨x6

0.35

0.33

0.44

0.43

0.44

0.53

0.70

–0.19

–0.25

–0.28

–0.22

0.76

-0.64

-0.05

-0.02

-0.06

-0.05

0.00

0.53

0.48

–0.51

–0.48

-0.04

0.00

0.19

–0.15

–0.67

–0.70

0.00

–0.04

0.59

–0.63

0.48

0.15

特征值 4.57 0.71 0.41 0.17 0.08 0.06

(1)计算前三个主成分各自的贡献率和累积贡献率。

(2)对于y4,y5,y6的方差很小这一点，你怎样对实际情况作出推断。

解：

5．在一项对杨树的性状的研究中，测定了20株杨树树叶，每个叶片测定了四个变量：叶长(x1),2/3处宽(x2)，1/3处宽(x3)，1/2处宽(x4)。这四个变量的相关系数矩阵的特征根和标准正交特征向量分别为：

)7930.0,5513.0,2519.0,0612.0(007

.0)1624.0,5589.0,7733.0,2516.0(049.0)0824.0,2695.0,0984.0,9544.0(024.1)5814.0,5577.0,5735.0,1485.0(920.24

211--='=--='=-='=---='=U U U U λλλλ

写出四个主成分，计算它们的贡献率。解：各自的主成分为：

Z1=0.1485X 1-0.5735X 2-0.5577X 3-0.5814X 4

Z2=0.9544X 1-0.0984X 2+0.2695X 3+0.0824X 4 Z3=0.2516X 1+0.7733X 2-0.5589X 3-0.1624X 4 Z4=-0.0612X 1+0.2519X 2+0.5513X 3-0.7930X 4 则各自的贡献率为：

W1=2.920/(2.920+1.024+0.049+0.007)=0.73 W2=1.024/(2.920+1.024+0.049+0.007)=0.256 W2=0.049/(2.920+1.024+0.049+0.007)=0.01225 W2=0.007/(2.920+1.024+0.049+0.007)=0.00175

6．对纽约股票市场上的五种股票的周回升率x1,x2,x3,x4,x5进行了主成分分析，其中x1,x2,x3分别表示三个化学工业公司的股票回升率，x4,x5表示两个石油公司的股票回升率，主成分分析是从相关系数矩阵出发进行的，前两个特征根和对应的标准正交特征向量为：

)582.0,526.0,260.0,509.0,240.0(809.0)421.0,421.0,470.0,457.0,464.0(857.22

211--='=='=U U λλ

(1)计算这两个主成分的方差贡献率。

解：各自的主成分为：

Z1=0.464X1+0.457X2+0.470X3+0.421X4+0.421X5

Z2=0.240X1+0.509X2+0.260X3-0.526X4-0.582X5

则各自的贡献率为：

W1=2.587/(2.587+0.809)=0.762

W2=0.809/(2.587+0.809)=0.238

(2)能否对这两个主成分的意义作一个合理的解释，并给两个主成分命名。

答：

解释：由SPSS抽取的两个主成分，其特征值分别为2.857和0.809,。根据主成分分析得知：各自的贡献率为W1=76.2%，W2=23.8%。由此可知，第一个主成分对变量（股票回升率）影响较大。

命名：一、化学工业公司股票回升率

二、石油公司股票回升率

7、下面给出了八个样品的两个指标数据

使用按动态聚类法进行聚类，采用欧氏距离(取1、3、7号样本为聚点)。

解：

四、上机操作

会进行回归、聚类、因子、主成分、判别分析基本操作，上级题目随机抽取。

★请指出下面SPSS软件操作分别代表多元统计分析中什么分析：（1）Analysis→Regression→Linear regression 回归分析

（2）Analysis→Classify→Hierachical Cluster 系统聚类分析

聚类分析

（3）Analysis→Classify→Kmean Cluster K-均值聚类分析（4）Analysis→Data Reduction→Factor 因子分析

（5）Analysis→Data Reduction→Faactor 主成分分析

（6）Analysis→Classify→Discriminant 判别分析

应用多元统计分析试题及答案

一、填空题： 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素：一部分为公共因子，另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立，则样本均值向量x服从的分布为_x~N(μ，Σ/n)_。二、简答 1、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。相应分析，是指对两个定性变量的多种水平进行分析。设有两组因素A和B，其中因素A包含r个水平，因素B包含c个水平。对这两组因素作随机抽样调查，得到一个rc的二维列联表，记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换，使得因素A

和因素B 具有对等性，从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。从k 个总体中抽取具有p 个指标的样品观测数据，借助方差分析的思想构造一个线性判别函数系数：确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。协差阵的检验检验0=ΣΣ 0p H =ΣI ： /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI ： /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟考题及答案.docx

一、判断题（对） 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵（对（） 2 标准化随机向量的协差阵与原变量的相关系数阵相同。对） 3 典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5 X (X 1 , X 2 , , X p ) ~ N p ( , ) ， X , S 分别是样本均值和样本离差阵，则 X , S 分别是 , 的无偏估计。 n （对） 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) ， X 作为样本均值的估计，是无偏的、有效的、一致的。（错） 7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对） 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则 Fisher 判别与距离判别等价。（对） 10 距离判别法要求两总体分布的协差阵相等， Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设是总体的协方差阵，的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位正交化特征向量 i ( a i1, a i 2 ,L ,a im ) ，则第一主成分的表达式是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ，方差为 1 。 3 设是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ，则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题（20分） 1、若),2,1(),,(~)(n N X p 且相互独立，则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ，总体),(~ p N X ，对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ，兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是： x y 10，多元回归的数学模型是： p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。二、计算题（60分） 1、设三维随机向量),(~3 N X ，其中 200031014，问1X 与2X 是否独立？),(21 X X 和3X 是否独立？为什么？解：因为1),cov(21 X X ，所以1X 与2X 不独立。把协差矩阵写成分块矩阵 22211211，),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ，而012 ，所以),(21 X X 和3X 是不相关的，而正态分布不相关与相互

多元统计分析试题(A卷)

广西科技大学 2013 — 2014 学年第 2 学期课程考核试题考核课程多元统计分析（ A 卷）考核班级统计101、102班学生数 114 印数 120 考核方式闭卷考核时间 120 分钟一、填空题（每空3分，共15分） 1、设 2~(,) X N μ∑，其中 12(,)X x x ' =， 12(,)μμμ' =， 2 11ρσρ ?? ∑= ??? ，则 1212ov(,)C x x x x +-= 。 2、设A 和B 为常数矩阵，ov(,)C x y =∑，则ov(,)C Ax By = 。 3、聚类分析就是分析如何对样品（或变量）进行量化分类的问题。根据分类对象的不同，聚类分析分为聚类和聚类。 4、因子分析中，因子载荷矩阵A 中元素ij a 的统计意义是。 5、为研究两组变量12,,,p x x x L 和 12,,,q y y y L 之间的相关关系，一般采用方法。二、简述题（每小题10分，共20分） 1、简述系统聚类法的基本思想。 2、简述主成分分析和因子分析的基本思想，并比较二者的异同点。三、（10分）设随机向量X 的协方差矩阵为 1643()442329V X -?? ? =-- ? ?-?? 求其相关系数矩阵R 。四、（15分）设3121~(,),110X N A μ-?? ∑= ?-?? ，其中 ()1642111,441214μ-?? ? =-∑=-- ? ?-?? ，求Y AX =的分布.

五、（15分）已知两个总体1π，2π的概率密度分别为1()f x 和2()f x ，且总体的先验概率分布为120.6,0.4p p ==，误判损失为(1|2)12c =个单位， (2|1)4c =个单位。（1）建立最小平均误判代价（）判别规则；（2）设有一新样品0x 满足1020()0.36,()0.24f x f x ==，判定0x 的归属问题。六、（10分）设三元总体123(,,)X x x x '= 的协方差矩阵为 4121932325?? ? ∑=- ? ?-?? 试求总体的主成分以及各主成分的贡献率。七、（15分）某学校体检中获得的30位学生身体的四项指标，数据见下表。对数据做主成分分析，利用软件运行，得到如下输出结果：

多元统计分析期末复习

第一章：多元统计分析研究的内容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X 均值向量：随机向量X 与Y 的协方差矩阵：当X=Y 时Cov （X ，Y ）=D （X ）；当Cov （X ，Y ）=0 ，称X ，Y 不相关。随机向量X 与Y 的相关系数矩阵： )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ，Y 为随机向量，A ，B 为常数矩阵 E （AX ）=AE （X ）； E （AXB ）=AE （X ）B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换（优缺点） 1、中心化变换（平移变换）：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换（规格化变换）：规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在0－1之间；且变换后的数据都不再具有量纲，便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析模拟试题教学提纲

多元统计分析模拟试题

多元统计分析模拟试题（两套：每套含填空、判断各二十道） A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步判别法。 2)Q型聚类分析是对样品的分类，R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性，需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出，他们之间的关系为 = 8)最短距离法适用于条形的类，最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想，在损失很少的信息前提下，把多个指标转化为几个综合指标的多元统计方法。 10)在进行主成分分析时，我们认为所取的m（m

(完整word版)实用多元统计分析相关习题

练习题一、填空题 1．人们通过各种实践，发现变量之间的相互关系可以分成（相关）和（不相关）两种类型。多元统计中常用的统计量有：样本均值、样本方差、样本协方差和样本相关系数。 2．总离差平方和可以分解为（回归离差平方和）和（剩余离差平方和）两个部分，其中（回归离差平方和）在总离差平方和中所占比重越大，则线性回归效果越显著。3．回归方程显著性检验时通常采用的统计量是（S R/p）/[S E/（n-p-1）]。 4．偏相关系数是指多元回归分析中，（当其他变量固定时，给定的两个变量之间的）的相关系数。 5．Spss中回归方程的建模方法有（一元线性回归、多元线性回归、岭回归、多对多线性回归）等。 6．主成分分析是通过适当的变量替换，使新变量成为原变量的（线性组合），并寻求（降维）的一种方法。 7．主成分分析的基本思想是（设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来替代原来的指标）。 8．主成分表达式的系数向量是（相关系数矩阵）的特征向量。 9．样本主成分的总方差等于（1）。 10．在经济指标综合评价中，应用主成分分析法，则评价函数中的权数为（方差贡献度）。主成分的协方差矩阵为（对称）矩阵。主成分表达式的系数向量是（相关矩阵特征值）的特征向量。 11．SPSS中主成分分析采用（analyze—data reduction—facyor）命令过程。 12．因子分析是把每个原始变量分解为两部分因素，一部分是（公共因子），另一部分为（特殊因子）。 13．变量共同度是指因子载荷矩阵中（第i行元素的平方和）。 14．公共因子方差与特殊因子方差之和为（1）。 15．聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的（亲疏程度）进行科学的分类。 16．Q型聚类法是按（样品）进行聚类，R型聚类法是按（变量）进行聚类。 17．Q型聚类统计量是（距离），而R型聚类统计量通常采用（相关系数）。 18．六种Q型聚类方法分别为（最长距离法）、（最短距离法）、（中间距离法）、（类平均法）、（重心法）、（离差平方和法）。 19．快速聚类在SPSS中由（k-均值聚类（analyze—classify—k means cluster））过程实现。 20．判别分析是要解决在研究对象已（已分成若干类）的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。 21．用判别分析方法处理问题时，通常以（判别函数）作为衡量新样本点与各已知组别接近程度的指标。 22．进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有（Fisher准则）、（贝叶斯准则）。 23．类内样本点接近，类间样本点疏远的性质，可以通过（类与类之间的距离）与（类内样本的距离）的大小差异表现出来，而两者的比值能把不同的类区别开来。这个比值越大，说明类与类间的差异越（类与类之间的距离越大），分类效果越（好）。24．Fisher判别法就是要找一个由p个变量组成的（线性判别函数），使得各自组内点的

多元统计分析模拟考题及答案

一、判断题（对）112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5),(~),,,(21∑'=μp p N X X X X Λ，,X S 分别是样本均值和样本离差阵，则, S X n 分别是,μ∑的无偏估计。（对）6),(~),,,(21∑'=μp p N X X X X Λ，X 作为样本均值μ的估计，是无偏的、有效的、一致的。（错）7 因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。（对）9 判别分析中，若两个总体的协差阵相等，则Fisher 判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher 判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵． 2、设∑是总体1(,,)m X X X =L 的协方差阵，∑的特征根(1,,)i i m λ=L 与相应的单位正交化特征向量 12(,,,)i i i im a a a α=L ，则第一主成分的表达式是 11111221m m y a X a X a X =+++L ，方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵，∑的特征根和标准正交特征向量分别为：' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________， __________， ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立？ (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

实用多元统计分析相关习题学习资料

实用多元统计分析相尖习题练习题一、填空题 1?人们通过各种实践，发现变量之间的相互矢系可以分成（相尖）和（不相尖）两种类型。多元统计中常用的统计量有：样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为（回归离差平方和）和（剩余离差平方和）两个部分，其中（回归离差平方和）在总离差平方和中所占比重越大，则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是（S R/P）/[S E/ （n-p-1） ]O 4?偏相尖系数是指多元回归分析中，（当其他变量固定时，给定的两个变量之间的）的相尖系数。 5. Spss中回归方程的建模方法有（一元线性回归、多元线性回归、岭回归、多对多线性回归）等。

6 ?主成分分析是通过适当的变量替换，使新变量成为原变量的（线性组合），并寻求（降维）的一种方法。 7 ?主成分分析的基本思想是（设法将原来众多具有一定相尖性（比如P个指标），重新组合成一组新的互相无矢的综合指标来替代原来的指标）。 8 ?主成分表达式的系数向量是（相尖系数矩阵）的特征向量。 9 ?样本主成分的总方差等于（1）。 10 ?在经济指标综合评价中，应用主成分分析法，则评价函数中的权数为（方差贡献度）。主成分的协方差矩阵为（对称）矩阵。主成分表达式的系数向量是（相尖矩阵特征值）的特征向量。 11. SPSS 中主成分分析采用（analyze—data reduction — facyor）命令过程。 12?因子分析是把每个原始变量分解为两部分因素，一部分是（公共因子），另一部

分为（特殊因子）。 13 ?变量共同度是指因子载荷矩阵中（第i行元素的平方和）。 14 ?公共因子方差与特殊因子方差之和为（1） o 15 ?聚类分析是建立一种分类方法，它将一批样品或变量按照它们在性质上的（亲疏程度）进行科学的分类。 16. Q型聚类法是按（样品）进行聚类，R型聚类法是按（变量）进行聚类。 17. Q型聚类统计量是（距离），而R型聚类统计量通常采用（相尖系数）。 18. 六种Q型聚类方法分别为（最长距离法）、（最短距离法）、（中间距离法）、（类平均法）、（重心法）、（离差平方和法）。 19?快速聚类在SPSS中由（k■均值聚类（analyze— classify— k means cluste））过程实现。 20. 判别分析是要解决在研究对象已（已分成若干类）的情况下，确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时，通常以（判别函数）作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时，通常指定一种判别规则，用来判定新样本的归属，常见的判别准则有（Fisher准则）、（贝叶斯准则）。 23. 类内样本点接近，类间样本点疏

多元统计分析试题(2012)

近几年，中国房地产业得到了长足的发展，但房地产价格的上涨一直饱受争议，甚至有逃离“北、上、广”的言论，这也从侧面反映了房地产价格的区域性特征，下表为2008年中国31个省、市、自治区房地产业的相关统计数据，试根据这些数据进行聚类分析。表1中指标说明如下： X1：房屋平均销售价格； X2：住宅平均销售价格； X3：别墅、高档公寓平均销售价格； X4：经济适用房平均销售价格； X5：办公楼平均销售价格； X6：商业营业用房平均销售价格 X7：其他平均销售价格； X8：商品房销售面积； X9：住宅销售面积表1

为研究某地区人口死亡状况，已按某种方法将15个已知样品分为3类，指标及原始数据见表2，试建立判别函数，并判定另外4个待判样品属于哪类？表2 X1：0岁组死亡概率X4：55岁组死亡概率 X2：1岁组死亡概率X5：80岁组死亡概率 X3：10岁组死亡概率X6：平均预期寿命题3 利用主成分分析综合评价全国重点水泥企业的经济效益。原始数据见表3。表3

题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标，数据如下表4所示。以2008年为例进行说明。选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量，运用SPSS软件，对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。自变量如下:x 1 ——农业增加值(亿元),x 2——工业增加值(亿元),x 3 ——建筑业增加值(亿元),x 4 ——人口数(万人),x 5 ——社会消费总额(亿元),x 6 ——受灾面积(万公顷)。据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。表5

多元统计分析期末考试考点整理

二名词解释 1、多元统计分析：多元统计分析是运用数理统计的方法来研究多变量（多指标）问题的理论和方法，是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量：是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值，是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地，所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量：多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量三、计算题解：

答：答：

题型三解答题 1、简述多元统计分析中协差阵检验的步骤答：第一，提出待检验的假设和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。 2、简述一下聚类分析的思想答：聚类分析的基本思想，是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不相似的归为其他类。直到把所有的样品（或指标）聚合完毕. 3、多元统计分析的内容和方法答：1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量，使研究问题得到简化但损失的信息又不太多。（1）主成分分析（2）因子分析（3）对应分析等

多元统计分析期末复习试题

第一章：多元统计分析研究的容（5点） 1、简化数据结构（主成分分析） 2、分类与判别（聚类分析、判别分析） 3、变量间的相互关系（典型相关分析、多元回归分析） 4、多维数据的统计推断 5、多元统计分析的理论基础第二三章：二、多维随机变量的数字特征 1、随机向量的数字特征随机向量X均值向量：随机向量X与Y的协方差矩阵：当X=Y时Cov（X，Y）=D（X）；当Cov（X，Y）=0 ，称X，Y不相关。随机向量X与Y的相关系数矩阵： 2、均值向量协方差矩阵的性质 (1).设X，Y为随机向量，A，B 为常数矩阵 E（AX）=AE（X）； E（AXB）=AE（X）B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ，Y 独立，则Cov(X,Y)＝０，反之不成立． (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地，当为对角阵时，相互独立。 (2).若，Ａ为sxp 阶常数矩阵，d 为s 阶向量，ＡＸ＋d ～ . 即正态分布的线性函数仍是正态分布． (3).多元正态分布的边缘分布是正态分布，反之不成立． (4).多元正态分布的不相关与独立等价．例３．见黑板．三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的（简单）样本”的理解---独立同截面． (2)多元分布样本的数字特征---常见多元统计量样本均值向量＝样本离差阵Ｓ＝样本协方差阵Ｖ＝ S ;样本相关阵Ｒ (3) ,Ｖ分别是和的最大似然估计； (4)估计的性质是的无偏估计； ,Ｖ分别是和的有效和一致估计；；Ｓ～，与Ｓ相互独立；第五章聚类分析：一、什么是聚类分析：聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚，甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法：系统聚类法（直观易懂）、动态聚类法（快）、有序聚类法（保序）...... Q-型聚类分析（样品）R-型聚类分析（变量）变量按照测量它们的尺度不同，可以分为三类：间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换（优缺点） 1、中心化变换（平移变换）：中心化变换是一种坐标轴平移处理方法，它是先求出每个变量的样本平均值，再从原始数据中减去该变量的均值，就得到中心化变换后的数据。不改变样本间的相互位置，也不改变变量间的相关性。 2、标准化变换：首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化。经过标准化变换处理后，每个变量即数据矩阵中每列数据的平均值为0，方差为1，且也不再具有量纲，同样也便于不同变量之间的比较。 3、极差正规化变换（规格化变换）：规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值，这两者之差称为极差，然后从每个变量的每个原始数据中减去该变量中的最小值，再除以极差。经过规格化变换后，数据矩阵中每列即每个变量的最大数值为1，最小数值为0，其余数据取值均在0－1之间；且变换后的数据都不再具有量纲，便于不同的变量之间的比较。 4、对数变换：对数变换是将各个原始数据取对数，将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种：距离，它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设H0和H1；第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策（拒绝或接受）。协差阵的检验检验0=ΣΣ 0p H =ΣI ： /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI ： /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ：统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言，在协差阵已知和未知的两种情形下，如何分别构造的统计量？ 3. 作多元线性回归分析时，自变量与因变量之间的影响关系一定是线性形式的吗？多元线性回归分析中的线性关系是指什么变量之间存在线性关系？答：作多元线性回归分析时，自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换，将其变为线性关系，然后再做回归分析。多元线性回归分析的线性关系指的是随机变量间的关系，因变量y 与回归系数βi 间存在线性关系。多元线性回归的条件是：（1）各自变量间不存在多重共线性；（2）各自变量与残差独立；（3）各残差间相互独立并服从正态分布；（4）Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤基本思想：

多元统计分析模拟考题及答案

、判断题（对）1X （兀公2丄，X p）的协差阵一定是对称的半正定阵（对）2标准化随机向量的协差阵与原变量的相关系数阵相同。（对）3典型相关分析是识别并量化两组变量间的关系，将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。（对）4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。（错）5X （X-X2，,X p） ~ N p（ , ），X,S分别是样本均值和样本离 S 差阵，则X,—分别是，的无偏估计。 n （对）6X （X「X2， ,X p） ~ N p（ , ），X作为样本均值的估计，是无偏的、有效的、一致的。（错）7因子载荷经正交旋转后，各变量的共性方差和各因子的贡献都发生了变化（对）8因子载荷阵A （a j）中的a ij表示第i个变量在第j个公因子上的相对重要性。（对）9判别分析中，若两个总体的协差阵相等，则Fisher判别与距离判别等价。（对）10距离判别法要求两总体分布的协差阵相等，Fisher判别法对总体的分布无特定的要求。二、填空题 1、多元统计中常用的统计量有：样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X （X」,X m）的协方差阵，的特征根i（i 1,L ,m）与相应的单位正交化特征向量i （盼无丄,a m），则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X （X1,X2,X3, X4）的协方差阵，的特征根和标准正交特征向量分别为： 1 2.920 U；(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 （ 0.0612,0.2519,0.5513, 0.7930），则其第二个主成分的表达式是 4

应用多元统计分析习题解答_因子分析

第七章因子分析 7.1 试述因子分析与主成分分析的联系与区别。答：因子分析与主成分分析的联系是：①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的，都是从一个协方差阵出发，利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇，将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳，那么因子分析可以说是将原指标给予分解、演绎。因子分析与主成分分析的主要区别是：主成分分析本质上是一种线性变换，将原始坐标变换到变异程度大的方向上为止，突出数据变异的方向，归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外，主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面？答：因子分析是一种通过显在变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说，①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类；用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么，起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况，就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。答：对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为： 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理，=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度；另一方面也反映了

多元统计分析试题(A卷)(答案)

《多元统计分析》试卷 1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立，则样本均值向量X 服从的分布为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品所属类型的一种统计方法，常用的判别方法有__ 距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类，R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ==，总体), (~∑μp N X ，对样品进行分类常用的距离有：明氏距离，马氏距离 2 ()ij d M =)()(1 j i j i x x x x -∑'--，兰氏距离()ij d L = 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是：εββ++=x y 10，多元回归的数学模型是： εββββ++++=p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。一、填空题（每空2分，共40分）二、计算题（每小题10分，共40分）

1、设三维随机向量),(~3∑μN X ，其中??? ?? ??=∑200031014，问1X 与2X 是否独立？ ),(21'X X 和3X 是否独立？为什么？解：因为1),cov(21=X X ，所以1X 与2X 不独立。把协差矩阵写成分块矩阵??? ? ??∑∑∑∑=∑22211211 ，),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ，而012=∑，所以),(21'X X 和3X 是不相关的，而正态分布不相关与相互独立是等价的，所以),(21'X X 和3X 是独立的。 2、设抽了五个样品，每个样品只测了一个指标，它们分别是1 ,2 ,4.5 ,6 ,8。若样本间采用明氏距离，试用最长距离法对其进行分类，要求给出聚类图。解：样品与样品之间的明氏距离为：????????? ? ??=02 5 .36 7 05.14505 .25.30 105 432154 321) 0(x x x x x x x x x x D 样品最短距离是1，故把21X X 与合并为一类，计算类与类之间距离（最长距离法）得距离阵 ??????? ? ?? =025.3705.1505.30} ,{},{54 32154321) 1(x x x x x x x x x x D 类与类的最短距离是 1.5，故把43X X 与合并为一类，计算类与类之间距离（最长距

多元统计分析心得

多元统计分析读书心得聚类分析聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类分析方法认为，在所研究的统计总体中，各样品或指标(变量)之间存在着程度不同的相似性(亲琉关系)，因此可以根据一批样品的多个观测指标，具休找到一些能够度量其相似程度的统计量，并依据这些统计量完成事物的分类。具体的方法，是按样品或指标的相似性或亲疏关系，逐级地归并即聚类，每次的归并聚成一个新的类.直到把全部的样品或指标聚成一类，形成一个由小类逐步到大类的分类系统为止二若将聚类过程的结果绘成一张分类图谱并进行分析、则就可以完成整个聚类分析过程。它的主要应用有：聚类分析在商业上被用来发现不同的客户群，并且通过购买模式刻画不同的客户群的特征。在生物上聚类分析被用来动植物分类和对基因进行分类，获取对种群固有结构的认识。在地理上，聚类能够帮助在地球中被观察的数据库商趋于的相似性。聚类分析在因特网上被用来在网上进行文档归类来修复信息等等。下面来简要介绍一下曲国庆和姜玉春写的聚类分析及其在土地利用分类上的应用，它利用系统聚类分析的基本原理，并根据实际的土地申报登记和土地利用的调查资料，选择反映住宅建设和占地情况的人均占地面积、平均年建房率、建设用地利用率、反映耕地分布和占有情况的人均耕地面积、当地经济状况等为聚类指标，探讨聚类分析的模式相似性测度，计算方法和步骤。这其中涉及了很多问题，如样本数据的采集、统计、标准化和样本相似度测度的选择及确定，文章最后给出了土地利用聚类分析的计算方法和步骤。读何晓群编著的多元统计分析和张文璋编著的实用统计分析方法与SPSS应用得出的一些体会如下：在聚类分析这一章，张文璋编的多元更具有系统性和层次性，比如他将聚类分析方法用一个表格的形式表现出来，让不同方法之间的区别与联系一目了然，同时，他将理论分析和SPSS软件操作结合在一起，都进行了仔细的讲述。回归分析在数量分析中，我们经常会看到变量与变量之间存在着一定的联系，而不只是前面所讨论的单个变量的某些孤立的特性，如均值、方差的特性等。我们要了解的是变量之间是如何发生相互影响的，这就是所谓的相关分析和回归分析。回归分析（regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法，运用十分广泛，回归分析按照涉及的自变量的多少，可