多元统计复习题 附答案

多元统计复习题 附答案
多元统计复习题 附答案

复习题

原文:

答案:

4.2 试述判别分析的实质。

4.3 简述距离判别法的基本思想和方法。

4.4 简述贝叶斯判别法的基本思想和方法。

4.5 简述费希尔判别法的基本思想和方法。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它

们的和集为,则称,为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。

答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G1和G2,其均值分别是μ1和μ2,对于一个新的样品X,要判断它来自哪个总体。计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),则

X,D2(X,G1)D2(X,G2)

X ,D 2(X ,G 1)> D 2

(X ,G 2, 具体分析,

2212(,)(,)

D G D G -X X

111122111111

111222*********

()()()()

2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()

2()

22()2()

---''=-++-'

+?

?=--- ??

?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

X ,W(X) X ,W(X)<0

②多个总体的判别问题。

设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是和k ΣΣΣ,,,21 ,且

ΣΣΣΣ====k 21。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。

具体分析,21

(,)()()D G ααα-'=--X X μΣX μ

1111

22()C α

αααα----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X

取ααμΣI 1-=,αααμΣμ1

2

1-'-=C ,k ,,2,1 =α。

可以取线性判别函数为

()W C αα

α'=+X I X , k ,,2,1 =α 相应的判别规则为i G ∈X 若 1()max()i k

W C α

αα≤≤'=+X I X

4.4 简述贝叶斯判别法的基本思想和方法。

基本思想:设k 个总体,其各自的分布密度函数)(,),(),(21x x x k f f f ,假设k 个总体各自出现的概率分别为k q q q ,,,21 ,0≥i q ,

11

=∑=k

i i

q

。设将本来属于i G 总体的样品错判到总体j G 时造成的损失为)|(i j C ,

设k 个总体相应的p 维样本空间为 ),,,(21k R R R R =。

在规则R 下,将属于的样品错判为j G 的概率为

x x d f R i j P j

R i )(),|(?= j i k

j i ≠=,,2,1,

则这种判别规则下样品错判后所造成的平均损失为

∑==k

j R i j P i j C R i r 1

)],|()|([)|( k i ,,2,1 =

则用规则R 来进行判别所造成的总平均损失为

∑==k

i i R i r q R g 1

),()(

∑∑===k i k

j i R i j P i j C q 1

1

),|()|(

k μμμ,,,21 k G G G ,,,21 k j i ,,2,1, =k G G G ,,,21 i G

贝叶斯判别法则,就是要选择一种划分,使总平均损失)(R g 达到极小。 基本方法:∑∑===

k i k

j i R i j P i j C q R g 1

1),|()|()(

x x d f i j C q k

i k

j R i i j

∑∑?===1

1

)()|(

∑?∑===k j R k

i i i j

d f i j C q 1

1

))()|((x x

1

(|)()()k i

i

j

i q C j i f h ==∑x x ,则 ∑?

==k

j R j j

d h R g 1

)()(x x

若有另一划分),,,(**2*1*

k

R R R R =,∑?

==k

j R j j

d h R g 1

*

*)()(x x

则在两种划分下的总平均损失之差为

∑∑?

==?-=-k i k

j R R j i j

i d h h R g R g 11

*

*)]()([)()(x x x

因为在i R 上)()(x x j i h h ≤对一切j 成立,故上式小于或等于零,是贝叶斯判别的解。 从而得到的划分)

,,,(21k R R R R =为

1{|()min ()}

i i j j k

R h h ≤≤==x x x k i ,,2,1 =

4.5 简述费希尔判别法的基本思想和方法。

答:基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 1122()p p U u X u X u X '=+++=X u X 系数),,,(21'=p u u u u 可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出()U X 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。

② 当k=2时,若 则费希尔判别与距离判别等价。当判别变量服从正态分布时,二者与贝叶斯判别也等价。

③ 当 时,费希尔判别用 作为共同协差阵,实际看成等协差阵,此与距离判别、贝叶斯判别不同。 ④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X ,W(X)

X ,W(X)

二者的区别在于阈值点。当21q q =,)1|2()2|1(C C =时,1=d ,0ln =d 。二者完全相同。

4.7 设有两个二元总体 和 ,从中分别抽取样本计算得到 , , 假设 ,试用距离判别法建立判别函数和判别规则。 样品X =(6,0)’应属于哪个总体?

解: =

, =

, =

=

’ Σ

k R R R ,,,21

Σ

即样品X 属于总体

5.1 判别分析和聚类分析有何区别? 5.2 试述系统聚类的基本思想。

5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造

5.5试述K 均值法与系统聚类法的异同。

5.1 判别分析和聚类分析有何区别?

答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。

5.2 试述系统聚类的基本思想。

答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。

5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?

答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1

()()

p

q q

ij ik jk k d q X X ==-∑

q 取不同值,分为 (1)绝对距离(1q =)

1

(1)p

ij ik jk k d X X ==-∑

(2)欧氏距离(2q =)

21/2

1

(2)()

p

i j i k j k

k d X X

==-∑

(3)切比雪夫距离(q =∞)

1()max ij ik jk

k p

d X X ≤≤∞=-

1

()p

ik jk

X X d L -=

(二)马氏距离

(三)兰氏距离

对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用

(一)夹角余弦

(二)相关系数

5.5试述K 均值法与系统聚类法的异同。

答:相同:K —均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的。

不同:系统聚类对不同的类数产生一系列的聚类结果,而K —均值法只能产生指定类数的聚类结果。

具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K —均值法确定类数的参考。

6.1 试述主成分分析的基本思想。 6.2 主成分分析的作用体现在何处?

6.3 简述主成分分析中累积贡献率的具体含义。

6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

6.1 试述主成分分析的基本思想。

答:我们处理的问题多是多指标变量问题,由于多个变量之间往往存在着一定程度的相关性,人们希望能通过线性组合的方式从这些指标中尽可能快的提取信息。当第一个组合不能提取更多信息时,再考虑第二个线性组合。继续这个过程,直到提取的信息与原指标差不多时为止。这就是主成分分析的基本思想。

6.2 主成分分析的作用体现在何处?

答:一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得

2

1()()()ij i j i j d M -'=--X X ΣX X

cos p

ik jk

ij X X θ=∑

()()p

ik i jk j ij X X X X r --=∑

到一个更低维的随机向量;主成分分析的作用就是在降低数据“维数”的同时又保留了原数据的大部分信息。

6.3 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把p 个原始变量12,,

,p X X X 的总方差()tr Σ分解成了p 个相互独立的变量12,,

,p Y Y Y 的方差之和

1

p

k

k λ

=∑。主成分分析的目的是减少变量的个数,所以一般不会使用所有p 个主成分的,忽略一些带有较小方差的主成

分将不会给总方差带来太大的影响。这里我们称1

p

k k k k ?λλ==∑ 为第k 个主成分

k Y 的贡献率。第一主成分的贡献率

最大,这表明11Y T '=X 综合原始变量12,,

,p X X X 的能力最强,而23,,,p Y Y Y 的综合能力依次递减。若只取()

m p <个主成分,则称1

1

p

m

m k

k

k k ψλλ

===∑∑ 为主成分1,,m Y Y 的累计贡献率,累计贡献率表明1,,m Y Y 综合12,,

,p

X X X 的能力。通常取m ,使得累计贡献率达到一个较高的百分数(如85%以上)。

6.5 试述根据协差阵进行主成分分析和根据相关阵进行主成分分析的区别。

答:从相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。从协方差矩阵 出发的,其结果受变量单位的影响。主成分倾向于多归纳方差大的变量的信息,对于方差小的变量就可能体现得不够,也存在“大数吃小数”的问题。实际表明,这种差异有时很大。我们认为,如果各指标之间的数量级相差悬殊,特别是各指标有不同的物理量纲的话,较为合理的做法是使用R 代替∑。对于研究经济问题所涉及的变量单位大都不统一,采用R 代替∑后,可以看作是用标准化的数据做分析,这样使得主成分有现实经济意义,不仅便于剖析实际问题,又可以避免突出数值大的变量。

7.1 试述因子分析与主成分分析的联系与区别。 7.2 因子分析主要可应用于哪些方面?

7.3 简述因子模型 中载荷矩阵A 的统计意义。

7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?

7.1 试述因子分析与主成分分析的联系与区别。

答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。

因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。

7.2 因子分析主要可应用于哪些方面?

答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。

7.3 简述因子模型 中载荷矩阵A 的统计意义。 答:对于因子模型

1122i i i ij j im m i X a F a F a F a F ε=++++++ 1,2,,i p = 因子载荷阵为1112

121

22212

12

(,,

,)m m m p p pm a a a a a a A A A a a a ?????

?==??????

?

?A

i X 与j F 的协方差为:

1Cov(,)Cov(,)m

i j ik k i j k X F a F F ε==+∑

=1

Cov(

,)Cov(,)m

ik

k j i j k a

F F F ε=+∑

=ij a

若对i X 作标准化处理, =ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了变量

i

X 对公共因子

j

F 的相对重要性。

变量共同度2

21

1,2,,m

i

ij j h a

i p ==

=∑

2

2

21122()()()()()i i i im m i D X a D F a D F a D F D ε=++

++22i i h σ=+ 说明变量i X 的方差由两部分组成:第一部分为

共同度2

i h ,它描述了全部公共因子对变量i X 的总方差所作的贡献,反映了公共因子对变量i X 的影响程度。第二部分为特殊因子i ε对变量i X 的方差的贡献,通常称为个性方差。 而公共因子j F 对X 的贡献2

21

1,2,,p

j

ij

i g a

j m ==

=∑

表示同一公共因子j F 对各变量所提供的方差贡献之总和,它是衡量每一个公共因子相对重要性的一个尺度。

7.4 在进行因子分析时,为什么要进行因子旋转?最大方差因子旋转的基本思路是什么?

答:因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。但有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。

最大方差旋转法是一种正交旋转的方法,其基本思路为: ①A

其中令*

**(),

/ij

p m ij ij

i a d a h ?===A A Γ 21

1p j ij i d d p ==∑ *

A 的第j 列元素平方的相对方差可定义为2

21

1()p j ij j i V d d p ==-∑

②12m V V V V =++

+

最大方差旋转法就是选择正交矩阵Γ,使得矩阵*A 所有m 个列元素平方的相对方差之和达到最大。

8.1 什么是对应分析?它与因子分析有何关系?

8.2试述对应分析的基本思想。 8.3 试述对应分析的基本步骤。

8.1 什么是相应分析?它与因子分析有何关系?

答:相应分析也叫对应分析,通常意义下,是指两个定性变量的多种水平进行相应性研究。其特点是它所研究的变量可以是定性的。

相应分析与因子分析的关系是: 在进行相应分析过程中,计算出过渡矩阵后,要分别对变量和样本进行因子分析。因此,因子分析是相应分析的基础。具体而言, ( ) ( )式表明Zu j 为相对于特征值 的关于因素A 各水平构成的协差阵 的特征向量。从而建立了相应分析中R 型因子分析和Q 型因子分析的关系。

8.2试述相应分析的基本思想。

答:相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。对这两组因素作随机抽样调查,得到一个r c ?的二维列联表,记为()ij r c k ?=K 。要寻求列联表列因素A 和行因素B 的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A 和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。

8.3 试述相应分析的基本步骤。 答:(1)建立列联表 设受制于某个载体总体的两个因素为A 和B ,其中因素A 包含r 个水平,因素B 包含c 个水平。对这两组因素作随机抽样调查,得到一个r c ?的二维列联表,记为

()ij r c

k ?=K 。

(2)将原始的列联资料K =(kij) r ?c 变换成矩阵Z =(zij) r ?c ,使得zij 对因素A 和列因素B 具有对等性。通过变换

。得c '=ΣZ Z ,r '=ΣZZ 。

(3)对因素B 进行因子分析。

计算出c '=ΣZ Z 的特征向量 , , 及其相应的特征向量 , , 计算出因素B 的因子 ) (4)对因素A 进行因子分析。

计算出r '=ΣZZ 的特征向量 , , 及其相应的特征向量 , , 计算出因素A 的因子 (5)选取因素B 的第一、第二公因子 选取因素A 的第一、第二公因子

将B 因素的c 个水平( ),( ) ,( ) A 因素的r 个水平( )( )( ) 同时反应到相同坐标轴的因子平面上上

(6)根据因素A 和因素B 各个水平在平面图上的分布,描述两因素及各个水平之间的相关关系。

9.1 什么是典型相关分析?简述其基本思想。 9.2 什么是典型变量?它具有哪些性质?

9.3 试分析一组变量的典型变量与其主成分的联系与区别。

9.1 什么是典型相关分析?简述其基本思想。

答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想:

(1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1)

(1)(1)

(1)12(,,

,)p X X X =X

、(2)(2)(2)

(2)

12(,,

,)q X X X =X 是两组相互关联的随机变量,分别在两组变量中选

取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。

在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。

9.2 什么是典型变量?它具有哪些性质?

答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说,

()(1)()(1)()(1)()(1)

11

22

i i i i i P P

U a X a X

a X

'=+++a X

()(2)()(2)

()(2)

()(2)1122i i i i i q q

V b X b X b X '=+++b X

在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称(1)(1)'a X 、(1)(2)'b X 是(1)

X 、

(2)X 的第一对典型相关变量。

典型变量性质:

典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1

(1,2,,)k k D U D V k r ===

(,)0,(,)0()i j i j Cov U U Cov V V i j ==≠

2. 0(,1,2,,)

(,)0

()0()

i i j i j i r Cov U V i j j r λ≠==??

=≠??>?

9.3 试分析一组变量的典型变量与其主成分的联系与区别。

答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。

()(1)()(1)()(1)

()(1)1122i i i i i P P

U a X a X a X '=+++a X ()(2)()(2)()(2)()(2)1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1

2

(,,,)p

X X X =X 、(2)(2)(2)(2)1

2

(,,,)q

X X X =X

4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。

6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。

6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。

7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分析法找出其简化的指标系统。

4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。

⑴根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。

⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。

解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:

1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,将左边的变量列表中的

“group”变量选入分组变量中,将X1、X2、X3变量选入自变量中,并选择Enter independents together

单选按钮,即使用所有自变量进行判别分析。

2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值

和最大值中分别输入1和3。单击Continue按钮,返回主界面。如图4.1

图4.1 判别分析主界面

3. 单击Statistics …按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients 栏中的Fisher ’s :给出Bayes 判别函数的系数。(注意:这个选项不是要给出Fisher 判别函数的系数。这个复选框的名字之所以为Fisher ’s ,是因为按判别函数值最大的一组进行归类这种思想是由Fisher 提出来的。这里极易混淆,请读者注意辨别。)如图

4.2。单击Continue 按钮,返回主界面。

图4.2 statistics 子对话框

4. 单击Classify …按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。

图4.3 classification 对话框

5. 返回判别分析主界面,单击OK 按钮,运行判别分析过程。

1) 根据判别分析的结果建立Bayes 判别函数: Bayes 判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes 判别函数系数。由此可建立判别函数如下: Group1: 3761.162297.121689.11843.811X X X Y ++--= Group2: 3086.172361.131707.10536.942X X X Y ++--= Group3: 3447.62960.41194.2449.173X X X Y ++--=

将各样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。

表4.1 Bayes 判别函数系数

根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%

表4.2 错判矩阵

2) 该新饮料的0.31=X ,82=X ,53=X ,将这3个自变量代入上一小题得到的Bayes 判别函数,2Y 的值最大,

该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification 子对话框中同时要求输出casewise results ,运行判别过程,得到相同的结果。

6.8利用主成分分析法,综合评价六个工业行业的经济效益指标。

解:令资产总计为X1,固定资产净值平均余额为X2,产品销售收入为X3,利润总额为X4,用SPSS 对这六个行业进行主成分分析的方法如下:

1. 在SPSS 窗口中选择Analyze →Data Reduction →Factor 菜单项,调出因子分析主界面,并将变量15X X -移

入Variables 框中,其他均保持系统默认选项,单击OK 按钮,执行因子分析过程(关于因子分子在SPSS 中实现的详细过程,参见7.7)。得到如表6.1所示的特征根和方差贡献率表和表6.2所示的因子载荷阵。 第一个因子就可以解释86.5%

表6.1 特征根和方差贡献率表

表6.2 因子载荷阵

2.将表6.2中因子载荷阵中的数据输入SPSS数据编辑窗口,命名为a1。点击菜单项中的Transform→Compute,

调出Compute variable对话框,在对话框中输入等式:

z1=a1 / SQRT(3.46),计算第一个特征向量。点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。

表6.3

根据表6.3得主成分的表达式:

X

Y1X

.0

X

509

+

+

X+

=

530

.0

413

4

3

.0

.0

537

2

1

3.再次使用Compute命令,调出Compute variable对话框,在对话框中输入等式:

y1x

.0

4

*

x

x

=

+

+

x+

1

509

3

.0

413

*

*

.0

537

*

2

.0

53

根据六个工业行业计算所的y1的大小可得石油和天然气开采业的经济效益最好,煤炭开采和选业其次,接着依次是黑色金属、非金属、有色金属和其他采矿业。

6.10 根据习题5.10中2003年我国省会城市和计划单列市的主要经济指标数据,利用主成分分析法对这些地区进行分类。

解:用SPSS进行主成分分析的具体方法参见6.8,分析结果如下:

表6.7 特征根和方差贡献率表

表6.8 因子载荷阵

根据表6.6得主成分的表达式:

939.0839.0731.064.054.0431.0314.0228.0129.01X X X X X X X X X Y +++-++++= 924.0812.0739.0627.052.0437.0329.0248.0147.02X X X X X X X X X Y -++----+=

分别计算出以上三项后,利用公式2121Y Y Y ∑∑+=

λ

λ

λλ得到综合得分并排序如下表:

最后的分类可以根据最终得分Y的值来划分,由于没有给出具体的分类标准,具体分类结果根据各人的主观意愿可以有多种答案。

可以归为一类,属于文科学习能力的指标;第二个公共因子在前三个指标上有较大载荷,同样可以归为一类,这三个指标同属于理科学习能力的指标。根据表7.3易得:

X

X

X

064

X

.0

1X

+

+

=

+

1

F+

X

+

378

.0

5

.0

.0

432

4

6

2

085

332

.0

137

.0

3

X

X

.0

2X

X

X

+

=

439

+

+

F+

+

X

.0

073

.0

5

.0

6

169

4

014

400

.0

2

.0

3

484

1

表7.3 因子得分系数矩阵

将每个学生的六门成绩分别代入F1、F2,比较两者的大小,F1大的适合学文,F2大的适合学理。

计算结果为学号是1、16、24的学生适合学文,其余均适合学理。

7.8 某汽车组织欲根据一系列指标来预测汽车的销售情况,为了避免有些指标间的相关关系影响预测结果,需首先进行因子分析来简化指标系统。下表是抽查欧洲某汽车市场7个品牌不同型号的汽车的各种指标数据,试用因子分

解:令价格为X1,发动机为X2,功率为X3,轴距为X4,宽为X5,长为X6,轴距为X7,燃料容量为X8,燃料效率为X9,用SPSS找简化的指标系统的具体步骤同7.7。

此时在系统默认情况下提取因子,结果是只抽取了一个成分,从方差贡献来看,前三个成分贡献了90.9%,因此重复因子分析过程,并在第三步Extraction子对话框中的Number of factors后的矩形框中输入3,即为要提取的公因子的数目。因子分析结果如下:

表7.4 旋转后的因子得分系数矩阵

其简化了指标体系为1F 、2F 、3F ,从旋转后的因子得分系数矩阵得:

9071.08186.07036.06599.05354.04305.03060.02015.01399.01X X X X X X X X X F --++++---= 9082.08221.07291.06100.05195.04344.03700.02525.01289.02X X X X X X X X X F +---+-++= 9239.08651.07494.06332.05338.04241.03409.02278.01342.03X X X X X X X X X F --+--+--=

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

统计软件部分试题

2.数值型变量缺失值的表示形式为()A .0 B.。 C.NA. D.空格 3.建立一个(数值)库应使用语句()A. data B. format C. libname D. infile 4.在数据步中有语句input a b c, 则采用的读取模式为()。A. 按列B. 格式化C. 列举D.命名 5.合并两数据集需要在数据步中给出()语句。A.join B.merge C.set https://www.360docs.net/doc/bc3917455.html,bine 6.对散点图和连线图进行显示设备和修饰主要在语句()中进行A.FORMA T B.PLOT C.SYMBOL D.V AR 7.进行假设检验时,若得到的p值小于检验水平a,则()原假设A.保留 B.接受 C.拒绝 D.继续检验 8.下列因素中不会影响置信区间大小的是()A.置信水平 B.样本均值 C.样本方差 D.样本容量 9.绘制三维网格图可用过程()实现A.G3D B.G3DGRID C.GCHART D.GPLOT 10.用REG过程进行多元线性回归时,如需选择最优模型可通过选项()设置A.ALPHA= B.ENIRY= C.SELECTION= D.MODEL= 二、填空题(10分,每空1分) 1.SAS系统的基础模块是______,模块是________。 2.如需在创建数据集时设置变量的类型和长度,则需要用______语句设置。 3.数据集的转置通过______过程步实现。 4.生成随机数的通用函数是________。 5.能够反映样本中某个变量的数据分布情况的图是______,可调用__过程步绘制。 6.在过程步中,通过______语句指定分组变量,通过____语句指定频数变量。 7.过程步____可用于计算两个变量的相关系数。 1.绘制某些连线图之前为什么要对数据自变量的值排序? 2.在数据步中,在按列模式或格式化模式下变量可跳跃或重复读取,但在列举模式下变量只能按源文件中的顺序读取? 3.对样本数据进行正态分布的拟合优度检验可采用哪些方法? 4.调用ANOV A过程步进行方差分析时对数据有何假设?

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

统计软件应用期末试题

河北大学课程考核试卷 2016-2017学年春(学期)2014级 考核科目统计软件应用 1、1996-2004年我国农村居民人均消费支出Y和人均纯收入X如下表:(单位元) 年份1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 X 1577 1926 2090 2161 2210 2253 2366 2475 2622 2936 Y 1310 1572 1617 1590 1577 1670 1741 1834 1943 2184 (1)利用OLS法建立一元线性回归模型 (2)判断该模型是否通过经济意义的检验,并阐述其经济意义 (3)假设2005年农村居民家庭人均纯收入增长到3500元,预测该年的人均消费支出为多少元? 2、某种商品的需求量(y,吨)、价格(x1,元/千克)和消费者收入(x2,元)。(1)利用OLS法建立多元线性回归模型,写出方程 (2)判断该模型的拟合优度,并解释其意义。 (3)判断回归方程总体的显著性。 (4)利用怀特检验,判断该模型是否具有异方差性 y x 1x 2 58890 24.1 75600 64850 23.66 90800 61325 31.08 106700 63800 32.45 108300 66500 30.96 121000 63200 34.2 130500 66000 34.9 143500 71200 37.8 160500 74650 39.23 180000 68300 45.5 189000 3、已知某地区的个人储蓄Y,可支配收入X的截面样本数据如表(1)建立最小二乘模型 (2)利用戈德费尔德匡特检验法判断该模型是否具有异方差性(3)根据DW检验,判断该模型是否具有自相关性(dL=1.36,du=1.5) 时期Y X 1 97 8777 2 105 9026

多元统计分析复习整理

一、聚类分析的基本思想: 我们认为,所研究的样品或指标之间存在着程度不同的相似性。根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另一些彼此之间相似程度较大的样品又聚合到另外一类。把不同的类型一一划分出来,形成一个由小到大的分类系统。最后,用分群图把所有的样品间的亲疏关系表示出来。 二、聚类分析的方法 系统聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法、加入法 三、系统聚类法的种类 最短距离法、最长距离法、重心法、类平均法、离差平方和法 四、判别分析的基本思想 判别分析用来解决被解释变量是非度量变量的情形,预测和解释影响一个对象所属类别。识别一个个体所属类别的情况下有着广泛的应用 判别分析将对象进行分析,通过人们选择的解释变量来预测或者解释每个对象的所属类别。 五、判别分析的假设条件 判别分析的假设条件之一是每一个判别变量不能是其他判别变量的线性组合;判别分析的假设之二是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数。判别分析的假设之三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。当违背该假设时,计算的概率将非常的不准确。 六、判别分析的方法 距离判别法、Bayes判别法、Fisher判别法、逐步判别法

七、距离判别法的判别准则 设有两个总体1G 和2G ,x 是一个p 维样品,若能定义样品到总体1G 和2G 的距离d (x ,1G )和d (x ,2G ),则用如下规则进行判别:若样品x 到总体1G 的距离小于到总体2G 的距离,则认为样品x 属于总体1G ,反之,则认为样品x 属于总体样品x 属于总体2G ,若样品x 到总体1G 和2G 的距离相等,则让它待判。 八、Fisher 判别的思想 Fisher 判别的思想是投影,将k 组p 维数据投影到某一个方向,使的它们的投影与组之间尽可能地分开。 九、Bayes 判别的思想 Bayes 统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes 统计的思想用于判别分析,就得到Bayes 判别。 十、判别分析的方法和步骤 1.判别分析的对象 2.判别分析的研究设计 3.判别分析的假定 4.估计判别模型和评估整体拟合 5.结果的解释 6.结果的验证 十一、提取主成分的原则 1.累计方差贡献率大于85%, 2.特征根大于1 ,3碎石图特征根的变化趋势。 十二、因子分析的步骤 1.根据研究问题选取原始变量。 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性。 3.求解初始公共因子及因子载荷矩阵。 4.因子旋转。 5.因子得分。 6.根据因子得分值进行进一步分析。

多元统计分析试题(2012)

近几年,中国房地产业得到了长足的发展,但房地产价格的上涨一直饱受争议,甚至有逃离“北、上、广”的言论,这也从侧面反映了房地产价格的区域性特征,下表为2008年中国31个省、市、自治区房地产业的相关统计数据,试根据这些数据进行聚类分析。 表1中指标说明如下: X1:房屋平均销售价格; X2:住宅平均销售价格; X3:别墅、高档公寓平均销售价格; X4:经济适用房平均销售价格; X5:办公楼平均销售价格; X6:商业营业用房平均销售价格 X7:其他平均销售价格; X8:商品房销售面积; X9:住宅销售面积 表1

为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据见表2,试建立判别函数,并判定另外4个待判样品属于哪类? 表2 X1:0岁组死亡概率X4:55岁组死亡概率 X2:1岁组死亡概率X5:80岁组死亡概率 X3:10岁组死亡概率X6:平均预期寿命 题3 利用主成分分析综合评价全国重点水泥企业的经济效益。原始数据见表3。 表3

题4 反映城镇居民消费支出状况的指标主要有食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信以及教育文化娱乐服务等八项消费支出指标,数据如下表4所示。以2008年为例进行说明。选取反映我国各省、市、自治区的城镇居民人均消费支出8个指标作为原始变量,运用SPSS软件,对全国31个中心城市的人均消费水平水平作因子分析。

题5、在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量。自变量如下:x 1 ——农业增 加值(亿元),x 2——工业增加值(亿元),x 3 ——建筑业增加值(亿元),x 4 ——人口数(万人),x 5 ——社会 消费总额(亿元),x 6 ——受灾面积(万公顷)。据《中国统计年鉴》获得1979—1998共20个年分的统计数据,见表5。由定性分析知,所选自变量都与变量y有较强的相关性,试做出一个较为理想的回归方程。 表5

最新统计软件SPSS试卷一及答案

统计软件 试卷A (试卷共8页,答题时间120分钟) 一、实验操作分析题(15分) 10名15岁中学生身高体重数据如下: 表1 10名15岁中学生身高体重数据 编号 1 2 3 4 5 6 7 8 9 10 性别 男 男 男 男 男 女 女 女 女 女 身高(cm ) 166.0 169.0 170.0 165.1 172.0 159.4 161.3 158.0 158.6 169.0 体重(kg ) 57.0 58.5 51.0 58.0 55.0 44.7 45.4 44.3 42.8 51.5 体重指数(BMI )=体重(kg) / 身高(m)2,即体重(kg)除以身高(m)的平方。回答下列问题: (1)SPSS 数据工作表; (2)男生体重指数的均数为 (kg/m 2) ;标准差为: (kg/m 2); (3)女生体重指数的均数为 (kg/m 2) ;标准差为: (kg/m 2 )。 二、实验操作分析题(15分) 某市2015年110名7岁男童身高数据如下: 身高组段 频数 110~ 1 112~ 3 114~ 9 116~ 9 118~ 15 120~ 18 122~ 21 124~ 14 126~ 10 128~ 4 130~ 3 132~ 2 134~136 1 对此数据做描述性分析。回答下列问题: (1) SPSS 数据工作表; (2)身高的平均数、中位数、众数、标准差和极差各是多少? (3)身高是否是有偏分布?如果是,是右偏还是左偏?为什么? 三、实验操作分析题(15分) 某啤酒厂生产三种类型啤酒:淡啤酒、普通啤酒、黑啤酒。根据下列资料检验男性与女性饮酒者啤酒偏好是否相同。回答下列问题: 表3 男性与女性饮者啤酒偏好的样本数据

多元统计复习题-题干

因子分析复习题 1.试述因子分析与主成分分析的联系与区别。 区别 主成分分析:以原变量的线性组合将原变量组合成少数几个主成分。 因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。 两者的分析重点不一致 C=AX 主成分为原始变量线性组合,重点在综合原始变量信息。 X=LF+e 原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。 联系 主成分分析:数据降维(多项变少项) 因子分析是通过主成分推导而来。 两者的分析重点不一致 C=AX 主成分为原始变量线性组合,重点在综合原始变量信息。 X=LF+e 原始变量为公因子与特殊因子线性组合,公因子重点反映支配原始变量的不可观测的潜在因素。 2.因子分析主要可应用于哪些方面? 因子分析:将原变量分解成几个公因子的线性组合,从而更好地理解原变量的内在关系。 用途:心理学、社会学和经济学。 作用:分类、从显在变量里探索不可直接观察的公共因子 3.简述因子模型错误!未找到引用源。中载荷矩阵L的统计

意义。 4.在进行因子分析时,为什么要进行因子旋转?正交旋转 (最大方差因子旋转)的基本思路是什么? 因子旋转 ?使得每一个变量在某一个因子上负荷尽量大 而在其他因子上负荷尽量小——varimax! ?所有因子保持不相关——互相垂直 ?旋转后共性方差不变 5. 设某客观现象可用X=(错误!未找到引用源。)’来描述,在因子分析时,从约相关阵出发计算出特征值为错误!未找到引用源。由于错误!未找到引用源。,所以找前两个特征值所对应的公共因子即可,又知错误!未找到引用源。对应的正则化特征向量分别为(0.707,-0.316,0.632)’及(0,0.899,0.4470)’,要求: (1)计算因子载荷矩阵A,并建立因子模型。

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

中医药统计学与软件应用试题1

1.测量体重、转氨酶等生理指标所得的资料类型是(B ) A、计数资料 B、计量资料 C、等级资料 D、间断性资料 2.、用某种新疗法治疗某病患者41人,治疗结果如下: 治疗结果治愈显效好转恶化死亡 治疗人数8 23 6 3 1 该资料的类型是(C ) A、数值资料 B、计量资料 C、等级资料 D、个体资料 3.观察川芎对冠心病患者心血管功能影响的实验中,川芎属于( A ) A.被试因素B.受试对象C.因素水平D.以上都不是 4.为了直观地比较化疗后相同时间点上一组乳癌患者血清肌酐和血液尿素氮两项指标观测值的变异度的大小,可选用的指标是(D ) A、标准差 B、标准误 C、相关系数 D、变异系数 5.不同地区水中平均碘含量与地方性甲状腺肿患病率的资料如下: 地区编号: 1 2 3 4 . . . . . . 17 碘含量:10.0 2.0 2.5 3.5 . . . . . . 24.5 患病率:40.5 37.7 39.0 20.0 . . . . . . 0.0 为了通过测定碘含量来预测地方性甲状腺肿的患病率,应选用(B ) A、相关分析 B、回归分析 C、正常值范围 D、均不对 6.参数是(B ) A.参与个体数B.总体的统计指标C.样本的统计指标D.样本的总和 7.随机抽得观察指标为数值变量的实验数据为21.23.25.27.28.20.22.23.25.24.求平均水平,最好选用(C ) A.中位数B.几何均数C.算术均数D.众数 8.有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度应该是(D ) A.n1+n2 B.n1+n2 -1 C.n1+n2 +1 D.n1+n2 -2 9.已知甲药的疗效不会低于乙药,检验的目的是为了得出甲药的疗效是否明显地优于乙药,此时应选用(B ) A.t检验B.单侧检验C.卡方检验D.双侧检验 10.关于标准差,下面哪个说法是正确的(B ) A.标准差可以是负数B.标准差必定大于或等于零 C.标准差无单位D.同一资料的标准差一定比均数小 11.在某个连续分布总体中随机抽样的变量是X,(B ),理论上样本均数的分布很快趋向正态分布。 A.X服从正态分布,随样本大小n增大 B.X不服从正态分布,随样本大小n增大 C.n不变,随样本个数k增多 D.X不服从正态分布,随样本个数k增多

多元统计复习题附答案

复习题 原文: 答案: 4.2 试述判别分析的实质。 4.3 简述距离判别法的基本思想和方法。 4.4 简述贝叶斯判别法的基本思想和方法。 4.5 简述费希尔判别法的基本思想和方法。 4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。 4.2 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互不相交,且它 们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2 (X ,G 1)D 2(X ,G 2) X ,D 2 (X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222111 211122 ()()()()2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +??=--- ???''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X) X ,W(X)<0 ②多个总体的判别问题。 设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是k μμμ,,,21 和k ΣΣΣ,,,21 ,且 ΣΣΣΣ====k 21。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。 具体分析,21(,)()()D G ααα-'=--X X μΣX μ

《spss统计软件》练习题库及答案

华中师范大学网络教育学院 《SPSS统计软件》练习题库及答案(本科) 一、选择题(选择类) (A)1、在数据中插入变量的操作要用到的菜单是: A Insert Variable; B Insert Case; C Go to Case; D Weight Cases (C)2、在原有变量上通过一定的计算产生新变量的操作所用到的菜单是: A Sort Cases; B Select Cases; C Compute; D Categorize Variables (C)3、Transpose菜单的功能是: A 对数据进行分类汇总; B 对数据进行加权处理; C 对数据进行行列转置; D 按某变量分割数据 (A)4、用One-Way ANOVA进行大、中、小城市16岁男性青年平均身高的比较,结果给出sig.=,说明: A. 按照显著性水平,拒绝H0,说明三种城市的平均身高有差别; B. 三种城市身高没有差别的可能性是; C. 三种城市身高有差别的可能性是; D. 说明城市不是身高的一个影响因素 (B)5、下面的例子可以用Paired-Samples T Test过程进行分析的是:A 家庭主妇和女大学生对同种商品喜好的差异; B 服用某种药物前后病情的改变情况; C 服用药物和没有服用药物的病人身体状况的差异; D性别和年龄对雇员薪水的影响 二、填空题(填空类) 6、Merge Files菜单用于合并数据库有两种情况:如果两数据库变量相同,是_观测对象__的合并;如果不同,则是_变量__的合并。 7、用于对计数资料和有序分类资料进行统计描述和简单的统计推断,在分析时可以产生二维或多维列联表,在统计推断时能进行卡方检验的菜单是_ Crosstabs __。 8、One-Samples T Test过程用于进行样本所在总体均数___与__已知总体均数_的比较。 三、名词解释(问答类) 9、Repeated Measures:重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结果间存在相关,这样就不满足普通分析的要求,需要用重复测量的方差分析模型来解决。

实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

相关文档
最新文档