因子分析法

因子分析法
因子分析法

因子分析因子分析

一、基础理论知识

1概念

因子分析(Factoranalysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。

主成分分析(Principalcomponentanalysis):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

2特点

(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。

(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。

(3)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显着的相关关系。

(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。

3类型

根据研究对象的不同,把因子分析分为R型和Q型两种。

当研究对象是变量时,属于R型因子分析;

当研究对象是样品时,属于Q型因子分析。

但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。4分析原理

假定:有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵:

当p较大时,在p维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。

线性组合:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标(主成分),则其线性组合为:

Lij是原变量在各主成分上的载荷

无论是哪一种因子分析方法,其相应的因子解都不是唯一的,主因子解仅仅是无数因子解中之一。

zi与zj相互无关;

z1是x1,x2,…,xp的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…的所有线性组合中方差最大者。则,新变量指标z1,z2,…分别称为原变量指标的第一,第二,…主成分。

Z为因子变量或公共因子,可以理解为在高维空间中互相垂直的m个坐标轴。

主成分分析实质就是确定原来变量xj(j=1,2,…,p)在各主成分zi(i=1,2,…,m)上的荷载lij。

从数学上容易知道,从数学上也可以证明,它们分别是相关矩阵的m个较大的特征值所对应的特征向量。

5分析步骤

5.1确定待分析的原有若干变量是否适合进行因子分析(第一步)

因子分析是从众多的原始变量中重构少数几个具有代表意义的因子变量的过程。其潜在的要求:原有变量之间要具有比较强的相关性。因此,因子分析需要先进行相关分析,计算原始变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验时,大部分相关系数均小于0.3且未通过检验,则这些原始变量就不太适合进行因子分析。

进行原始变量的相关分析之前,需要对输入的原始数据进行标准化计算(一般采用标准差标准化方法,标准化后的数据均值为0,方差为1)。

SPSS在因子分析中还提供了几种判定是否适合因子分析的检验方法。主要有以下3种:

巴特利特球形检验(BartlettTestofSphericity)

反映象相关矩阵检验(Anti-imagecorrelationmatrix)

KMO(Kaiser-Meyer-Olkin)检验

(1)巴特利特球形检验

该检验以变量的相关系数矩阵作为出发点,它的零假设H0为相关系数矩阵是一个单位阵,即相关系数矩阵对角线上的所有元素都为1,而所有非对角线上的元素都为0,也即原始变量两两之间不相关。

巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到。如果该值较大,且其对应的相伴概率值小于用户指定的显着性水平,那么就应拒绝零假设H0,认为相关系数不可能是单位阵,也即原始变量间存在相关性。

(2)反映象相关矩阵检验

该检验以变量的偏相关系数矩阵作为出发点,将偏相关系数矩阵的每个元素取反,得到反映象相关矩阵。

偏相关系数是在控制了其他变量影响的条件下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小,这些变量越适合进行因子分析。

(3)KMO(Kaiser-Meyer-Olkin)检验

该检验的统计量用于比较变量之间的简单相关和偏相关系数。

KMO值介于0-1,越接近1,表明所有变量之间简单相关系数平方和远大于偏相关系数平方和,越适合因子分析。

其中,Kaiser给出一个KMO检验标准:KMO>0.9,非常适合;

0.8

5.2构造因子变量

因子分析中有很多确定因子变量的方法,如基于主成分模型的主成分分析和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。前者应用最为广泛。

主成分分析法(Principalcomponentanalysis):

该方法通过坐标变换,将原有变量作线性变化,转换为另外一组不相关的变量Zi(主成分)。求相关系数矩阵的特征根λi(λ1,λ2,…,λp>0)和相应的标准正交的特征向量li;根据相关系数矩阵的特征根,即公共因子Zj的方差贡献(等于因子载荷矩阵L中第j列各元素的平方和),计算公共因子Zj的方差贡献率与累积贡献率。

主成分分析是在一个多维坐标轴中,将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。通过计算特征根(方差贡献)和方差贡献率与累积方差贡献率等指标,来判断选取公共因子的数量和公共因子(主成分)所能代表的原始变量信息。

公共因子个数的确定准则:1)根据特征值的大小来确定,一般取大于1的特征值对应的几个公共因子/主成分。2)根据因子的累积方差贡献率来确定,一般取累计贡献率达85-95%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。也有学者认为累积方差贡献率应在80%以上。

5.3因子变量的命名解释

因子变量的命名解释是因子分析的另一个核心问题。经过主成分分析得到的公共因子/主成分Z1,Z2,…,Zm是对原有变量的综合。原有变量是有物理含义的变量,对它们进行线性变换后,得到的新的综合变量的物理含义到底是什么?

在实际的应用分析中,主要通过对载荷矩阵进行分析,得到因子变量和原有变量之间的关系,从而对新的因子变量进行命名。利用因子旋转方法能使因子变量更具有可解释性。

计算主成分载荷,构建载荷矩阵A。

计算主成分载荷,构建载荷矩阵A。载荷矩阵A中某一行表示原有变量Xi 与公共因子/因子变量的相关关系。载荷矩阵A中某一列表示某一个公共因子/因子变量能够解释的原有变量Xi的信息量。有时因子载荷矩阵的解释性不太好,通常需要进行因子旋转,使原有因子变量更具有可解释性。因子旋转的主要方法:正交旋转、斜交旋转。

正交旋转和斜交旋转是因子旋转的两类方法。前者由于保持了坐标轴的正交性,因此使用最多。正交旋转的方法很多,其中以方差最大化法最为常用。

方差最大正交旋转(varimaxorthogonalrotation)——基本思想:使公共因子的相对负荷的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。

斜交旋转(obliquerotation)——因子斜交旋转后,各因子负荷发生了变化,出现了两极分化。各因子间不再相互独立,而是彼此相关。各因子对各变量的贡献的总和也发生了改变。

斜交旋转因为因子间的相关性而不受欢迎。但如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。适用于大数据集的因子分析。

无论是正交旋转还是斜交旋转,因子旋转的目的:是使因子负荷两极分化,要么接近于0,要么接近于1。从而使原有因子变量更具有可解释性。

5.4计算因子变量得分

因子变量确定以后,对于每一个样本数据,我们希望得到它们在不同因子上的具体数据值,即因子得分。估计因子得分的方法主要有:回归法、Bartlette 法等。计算因子得分应首先将因子变量表示为原始变量的线性组合。即:回归法,即Thomson法:得分是由贝叶斯Bayes思想导出的,得到的因子得分是有偏的,但计算结果误差较小。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。

Bartlett法:Bartlett因子得分是极大似然估计,也是加权最小二乘回归,得到的因子得分是无偏的,但计算结果误差较大。

因子得分可用于模型诊断,也可用作进一步分析如聚类分析、回归分析等的原始资料。关于因子得分的进一步应用将在案例介绍一节分析。

5.5结果的分析解释

此部分详细见案例分析

二、案例分析

1研究问题

石家庄18个县市14个指标因子,具体来说有人均GDP(元/人)、人均全社会固定资产投资额、人均城镇固定资产投资额、人均一般预算性财政收入、第三产业占GDP比重(%)、人均社会消费品零售额、人均实际利用外资额(万美元/人)、人均城乡居民储蓄存款、农民人均纯收入、在岗职工平均工资、人才密

度指数、科技支出占财政支出比重(%)、每万人拥有执业医师数量、每千人拥有病床数。

要求根据这14项内容进行因子分析,得到维度较少的几个因子。

2实现步骤

【1】在“Analyze”菜单“DataReduction”中选择“Factor”命令,如下图所示。

【2】在弹出的下图所示的FactorAnalysis对话框中,从对话框左侧的变量列表中选择这14个变量,使之添加到Variables框中。

【3】点击“Descriptives”按钮,弹出“FactorAnalysis:Descriptives”对话框,如图所示。

Statistics框用于选择哪些相关的统计量,其中:

Univariatedescriptives(变量描述):输出变量均值、标准差;

Initialsolution(初始结果)

CorrelationMatrix框中提供了几种检验变量是否适合做引子分析的检验方法,其中:

Coefficients(相关系数矩阵)

Significanceleves(显着性水平)

Determinant(相关系数矩阵的行列式)

Inverse(相关系数矩阵的逆矩阵)

Reproduced(再生相关矩阵,原始相关与再生相关的差值)

Anti-image(反影像相关矩阵检验)

KMOandBartlett’stestofsphericity(KMO检验和巴特利特球形检验)

本例中,选中该对话框中所有选项,单击Continue按钮返回FactorAnalysis 对话框。

【4】单击“Extraction”按钮,弹出“FactorAnalysis:Extraction”对话框,选择因子提取方法,如下图所示:

因子提取方法在Method下拉框中选取,SPSS共提供了7种方法:PrincipleComponentsAnalysis(主成分分析)

Unweightedleastsquares(未加权最小平方法)

Generalizedleastsquares(综合最小平方法)

Maximumlikelihood(最大似然估价法)

Principalaxisfactoring(主轴因子法)

Alphafactoring(α因子)

Imagefactoring(影像因子)

Analyze框中用于选择提取变量依据,其中:

Correlationmatrix(相关系数矩阵)

Covariancematrix(协方差矩阵)

Extract框用于指定因子个数的标准,其中:

Eigenvaluseover(大于特征值)

Numberoffactors(因子个数)

Display框用于选择输出哪些与因子提取有关的信息,其中:

Unrotatedfactorsolution(未经旋转的因子载荷矩阵)

Screenplot(特征值排列图)

MaximuninterationsforConvergence框用于指定因子分析收敛的最大迭代次数,系统默认的最大迭代次数为25。

本例选用Principalcomponents方法,选择相关系数矩阵作为提取因子变量的依据,选中Unrotatedfactorsolution和Screeplot项,输出未经过旋转的因子载荷矩阵与其特征值的碎石图;选择Eigenvaluseover项,在该选项后面可以输入1,指定提取特征值大于1的因子。单击Continue按钮返回FactorAnalysis对话框。【5】单击FactorAnalysis对话框中的Rotation按钮,弹出FactorAnalysis:Rotation 对话框,如下图所示:

该对话框用于选择因子载荷矩阵的旋转方法。旋转目的是为了简化结构,以帮助我们解释因子。SPSS默认不进行旋转(None)。

Method框用于选择因子旋转方法,其中:

None(不旋转)

Varimax(正交旋转)

DirectOblimin(直接斜交旋转)

Quanlimax(四分最大正交旋转)

Equamax(平均正交旋转)

Promax(斜交旋转)

Display框用于选择输出哪些与因子旋转有关的信息,其中:

Rotatedsolution(输出旋转后的因子载荷矩阵)

Loadingplots(输出载荷散点图)

本例选择方差极大法旋转Varimax,并选中Rotatedsolution和Loadingplot 项,表示输出旋转后的因子载荷矩阵和载荷散点图,单击Continue按钮返回FactorAnalysis对话框。

【6】单击FactorAnalysis对话框中的Scores按钮,弹出FactorAnalysis:Scores对话框,如下图所示:

该对话框用以选择对因子得分进行设置,其中:

Regression(回归法):因子得分均值为0,采用多元相关平方;

Bartlett(巴特利法):因子得分均值为0,采用超出变量范围各因子平方和被最小化;

Anderson-Rubin(安德森-洛宾法):因子得分均值为0,标准差1,彼此不相关;

Displayfactorscorecoefficientmatrix:选择此项将在输出窗口中显示因子得分系数矩阵。

【7】单击FactorAnalysis对话框中的Options按钮,弹出FactorAnalysis:Options 对话框,如下图所示:

该对话框可以指定其他因子分析的结果,并选择对缺失数据的处理方法,其中:

MissingValues框用于选择缺失值处理方法:

Excludecaseslistwise:去除所有缺失值的个案

Excludecasespairwise:含有缺失值的变量,去掉该案例

Replacewithmean:用平均值代替缺失值

CofficientDisplayFormat框用于选择载荷系数的显示格式:

Sortedbysize:载荷系数按照数值大小排列

Suppressabsolutevalueslessthan:不显示绝对值小于指定值的载荷量

本例选中Excludecaseslistwise项,单击Continue按钮返回FactorAnalysis对话框,完成设置。单击OK,完成计算。

3结果与讨论

(1)SPSS输出的第一部分如下:

第一个表格中列出了18个原始变量的统计结果,包括平均值、标准差和分

(2)

该表格给出的是18个原始变量的相关矩阵

CorrelationMatrix

人均GDP(元/人) 人均全社会固定

资产投资额

人均城镇固定资

产投资额

Correlation 人均GDP(元/人) 1.000 .503 .707 人均全社会固定资产投资额.503 1.000 .883

人均城镇固定资产投资额.707 .883 1.000

人均一般预算性财政收入.776 .571 .821

第三产业占GDP比重(%) .567 .507 .759

人均社会消费品零售额.737 .247 .600

人均实际利用外资额(万美元/

人)

.454 .356 .648 人均城乡居民储蓄存款.707 .480 .780

农民人均纯收入.559 -.073 .130 在岗职工平均工资.789 .325 .544 人才密度指数.741 .470 .737 科技支出占财政支出比重(%).582 .378 .486 每万人拥有执业医师数量.434 .520 .733 每千人拥有病床数.573 .565 .761

CorrelationMatrix

人均一般预算性财政收入第三产业占GDP

比重(%)

人均社会消费品

零售额

Correlation 人均GDP(元/人) .776 .567 .737 人均全社会固定资产投资额.571 .507 .247

人均城镇固定资产投资额.821 .759 .600

人均一般预算性财政收入 1.000 .830 .693

第三产业占GDP比重(%) .830 1.000 .646

人均社会消费品零售额.693 .646 1.000

人均实际利用外资额(万美元/

人)

.797 .822 .616 人均城乡居民储蓄存款.907 .882 .839

农民人均纯收入.132 .278 .516

在岗职工平均工资.736 .548 .609

人才密度指数.795 .745 .812

科技支出占财政支出比重(%).729 .575 .490

每万人拥有执业医师数量.818 .844 .627

每千人拥有病床数.911 .806 .629

CorrelationMatrix

人均实际利用外资额(万美元/人)人均城乡居民储

蓄存款农民人均纯收入

Correlation 人均GDP(元/人) .454 .707 .559 人均全社会固定资产投资额.356 .480 -.073

人均城镇固定资产投资额.648 .780 .130

人均一般预算性财政收入.797 .907 .132

第三产业占GDP比重(%) .822 .882 .278

人均社会消费品零售额.616 .839 .516

人均实际利用外资额(万美元/

人)

1.000 .792 -.007 人均城乡居民储蓄存款.792 1.000 .264 农民人均纯收入-.007 .264 1.000 在岗职工平均工资.388 .647 .411 人才密度指数.752 .868 .315 科技支出占财政支出比重(%).570 .626 .210 每万人拥有执业医师数量.795 .885 -.075 每千人拥有病床数.784 .866 .000

CorrelationMatrix

在岗职工平均工

资人才密度指数科技支出占财政支出比重(%)

Correlation 人均GDP(元/人) .789 .741 .582 人均全社会固定资产投资额.325 .470 .378

人均城镇固定资产投资额.544 .737 .486

人均一般预算性财政收入.736 .795 .729

第三产业占GDP比重(%) .548 .745 .575

人均社会消费品零售额.609 .812 .490

人均实际利用外资额(万美元/

人)

.388 .752 .570 人均城乡居民储蓄存款.647 .868 .626

农民人均纯收入.411 .315 .210

在岗职工平均工资 1.000 .539 .421

人才密度指数.539 1.000 .577

科技支出占财政支出比重(%).421 .577 1.000

每万人拥有执业医师数量.477 .739 .519

每千人拥有病床数.575 .719 .769

CorrelationMatrix

每万人拥有执业医师数量每千人拥有病床

Correlation 人均GDP(元/人) .434 .573 人均全社会固定资产投资额.520 .565

人均城镇固定资产投资额.733 .761

人均一般预算性财政收入.818 .911

第三产业占GDP比重(%) .844 .806

人均社会消费品零售额.627 .629

人均实际利用外资额(万美元/

.795 .784

人)

人均城乡居民储蓄存款.885 .866

农民人均纯收入-.075 .000

在岗职工平均工资.477 .575

人才密度指数.739 .719

科技支出占财政支出比重(%).519 .769

每万人拥有执业医师数量 1.000 .912

每千人拥有病床数.912 1.000

(3)SPSS输出结果的第四部分如下:

KMOandBartlett'sTest

Kaiser-Meyer-OlkinMeasureo

.551

fSamplingAdequacy.

Bartlett'sTestofSphericity Approx.Chi-Square 324.227

df 91

Sig. .000

该部分给出了KMO检验和Bartlett球度检验结果。其中KMO值为0.551,根据统计学家Kaiser给出的标准,KMO取值小于0.6,不太适合因子分析。Bartlett球度检验给出的相伴概率为0.00,小于显着性水平0.05,因此拒绝Bartlett球度检验的零假设,认为适合于因子分析。

(4)SPSS

是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到18个特征值,它们是因子子分析的初始解,可利用这18个特征值和对应的特征向量计算出银子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个变量的共同度为1;第三列是根据因子分析最终解计算出的变量共同度。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵。(此处由于软件的原因有点小问题)

这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。

(5

列和InitialEigenvalues列(第一列到第四列)描述了因子分析初始解对原有变量总体描述情况。第一列是因子分析13个初始解序号。第二列是因子变量的方差贡献(特征值),它是衡量因子重要程度的指标,例如第一行的特征值为9.139,后面描述因子的方差依次减少。第三列是各因子变量的方差贡献率

(%ofVariance),表示该因子描述的方差占原有变量总方差的比例。第四列是

因子变量的累计方差贡献率,表示前m个因子描述的总方差占原有变量的总方差的比例。第五列和第七列则是从初始解中按照一定标准(在前面的分析中是设定了提取因子的标准是特征值大于1)提取了3个公共因子后对原变量总体的描述情况。各列数据的含义和前面第二列到第四列相同,可见提取了5个因子后,它们反映了原变量的大部分信息。第八列到第十列是旋转以后得到的因子对原变量总体的刻画情况。各列的含义和第五列到第七列是一样的。

该表格可以得到如下因子模型:

X=AF+aε

x1=0.959F1-0.075F2+0.015F3+0.158 F4-0.140F5-0.023F6-0.096F7+0.017F8-0.117F9 +0.004F10-0.062F11-0.040 F12+0.021 F13

该表格是按照前面设定的方差极大法对因子载荷矩阵旋转后的结果。未经过旋转的载荷矩阵中,因子变量在许多变量上都有较高的载荷。

经过旋转之后,第一个因子含义略加清楚,基本上放映了“每万人拥有执业医师数量”、“第三产业占GDP比重(%)”、“人均实际利用外资额(万美元/人)”;第二个因子基本上反映了“人均全社会固定资产投资额”、“人均城镇

该部分输出的是因子转换矩阵,表明了因子提取的方法是主成分分析,旋转的方法是方法极大法。

ComponentTransformationMatrix

该部分是载荷散点图,这里为3个因子的三维因子载荷散点图,以三个因子为坐标,给出各原始变量在该坐标中的载荷散点图,该图是旋转后因子载荷矩阵的图形化表示方式。如果因子载荷比较复杂,则通过该图则较容易解释。

根据这个表格可以看出下面的因子得分函数。

F1=-0.054x1+0.003x2+0.100x3-0.090x4+0.046x5-0.083x6-0.068x7+0.000x8+3.170x9+0 .495x10-2.090x11-0.549x12+1.365x13

……

SPSS根据这13个因子的得分函数,自动计算2-个样本的3个引子得分,并且将3个引子得分作为新变量,保存在SPSS数据编辑窗口中(分别为FAC1_1、

FAC2_1、FAC3_1、FAC4_1、FAC5_1、FAC6_1、FAC7_1、FAC8_1、FAC9_1、FAC10_1、FAC11_1、FAC12_1、FAC13_1)

相关主题
相关文档
最新文档