主成份分析法在上市公司财务分析中的应用

主成份分析法在上市公司财务分析中的应用
主成份分析法在上市公司财务分析中的应用

经营与管理

《生产力研究》N o.1.2003

主成份分析法在上市公司财务分析中的应用

郝晓雁,宋东风,贾常晋

(山西财经大学,山西太原030006)

【摘 要】 主成分分析法是一种有效的多指标决策和综合评价的多元统计方法。用与上市公司财务状况的综合分析十分简单、有效。本文首先简单介绍了主成分分析法的原理和计算步骤;然后通过选取适当的研究样本和财务指标,构建一个主成分分析模型,利用统计软件SPSS计算,得到上市公司的综合财务评估得分,进而做出综合性评价。并利用上市公司的综合财务评估得分,举例进行了纵向比较和横向比较两种应用。最后总结分析了主成分分析法在上市公司财务分析中应用的优点和局限性。

【关键词】 主成分分析法,财务分析,综合财务评估得分

【中图分类号】F275 【文献标识码】A 【文章编号】1004—2768(2003)01—0263—03

主成分分析法是一种有效的多指标决策和综合评价的多元统计方法。本文就是利用主成分分析法,通过建立的上市公司财务分析模型,探索主成分分析法在上市公司财务分析中的应用及其优缺点。

一、主成分分析法的引入

随着我国社会主义市场经济体制的建立和我证券市场的发展和完善,上市公司面临越来越激烈的市场竞争,经营规模的不断扩大,产生的财务信息十分巨大,需要一种有效的分析方法处理如此大量的财务信息;同时,投资者在选择投资方向时,要作出正确的投资决策,提高投资收益,所有这些都离不开对公司的财务状况和其价值进行分析。对于上市公司和投资者来说财务信息量是十分巨大的,不可能也没有必要对所有的财务信息进行分析,合理而有效的利用信息非常重要,因此企业经营者和投资者迫切需要一种科学的综合分析方法对企业的经营状况和财务状况作出总体的正确评价。

而传统的综合评分法,无论是沃尔评价法、复合财务系数(MFS),还是国内中国诚信证券评估有限公司的综合指数法、财政部颁发的评价体系,各种方法计算较简单,但若所评价的指标相关性较大,这会导致评价的重复;其次,人为主观地给定权数,一方面会导致对某一因素过高或过低估计,使评价不能完全反映上市公司的真实情况,另一方面则会诱使上市公司粉饰或片面地追求权数高的指标。在给公司评分时,各财务指标的权重人为给定,主观成份太重,缺乏科学性。所以我们需要一种既在实践上行得通,又在理论上得到论证的科学评判方法。

主成分分析法是在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的原始数据,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息,把原来多个变量化为少数几个综合指标的一种多元统计分析方法,从数学角度来看,这是一种降维处理技术。美国的一些公司和企业从五十年代中期就开始在财务分析中引入包括主成分分析、因子分析法、聚类分析法等在内的多元统计分析方法,有了较大的丰富和发展。目前,我国对这些方法的应用主要集中在一些上市公司和证券公司成立的数量分析小组,但应用也较为简单,有较大的发展前景和空间。

主成分分析法用于上市公司综合财务状况分析,在方法上,也就是要找到一个函数P=f(X1,X2,…,X n),P为综合得分(X1,X2,…,X n为企业的财务指标)。将某企业的X1,X2,…,X n 代入此关系式f,得出P值来说明企业的财务状况。这种函数在理论上存在,但是由于财务指标之间关系的复杂性,我们找到它却不大可能。但是我们可以通过一定的方法确定X1,X2,…,X n 中哪些指标是主要的,且重要的程度是多少,即每个财务指标的权重。然后通过一定的方法将其综合,求出综合得分(q)作为真实得分P的近似,以满足解决问题的需要。

二、主成分分析法的几种基本原理

1、设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X:

Y=Y11Y12Y1P Y21Y22Y2P Y N1Y N2Y NP(1)注:Y ij表示第i家上市公司的第j项财务指标数据

2、指标的标准化处理

进行标准化处理后,我们可得到新的数据矩阵X。

X=X11X12X1P X21X22X2P X N1X N2X NP(2)

【收稿日期】2002-07-06

【作者简介】郝晓雁(1970-),女,河南省孟州市人,山西财经大学讲师,研究方向:财务管理;宋东风(1964-),男,河南人,山西财经大学工商管理系副教授,研究方向:企业管理、国际市场营销;贾常晋,男,太原人,山西财经大学2002年统计专业应届毕业。

362

其中:X ij =

Y ij -Y j

VAR (Y j )

(i =1,2,…,n ;j =1,2,,…,p )

注:Y j 为第j 项财务指标数据的均值;VAR (Y j )为第j 项财务指标数据的方差。

3、计算相关系数矩阵R

R =r 11r 12…r 1p r 21r 22…r 2p r p1r p2…r pp

(3)在公式(3)中,r ij (i ,j =1,2,…,p )为原来变量x i 与x j 的相关系数,其计算公式为:

r ij

∑n

k =1(x bi -x i ))(x kj -x j )

∑n

k =1

(x ki -x i )2

∑n

k =1

(x kj -x j )

2

(4)

因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角

元素或下三角元素即可。

4、计算特征值与特征向量

首先,解特征方程|λI -R|=0求出特征值λi (i =1,2,…,p ),因为R 为正定矩阵,所以其特征值λi 都为正数,将其按大小顺

序排列,即λ1≥λ2≥…,≥λn ≥0,特征值是各主分量的方差,它的大小反映了各个主分量在描述被评价对象上所起的作用;然后,

|R -λ|U =0可确定特征向量的矩阵U 。

U =u 11u 12…u 1p u 21u 22…u 2p u p1u p2…u pp 5、计算主成分贡献率及累计贡献率,确定主成分个数

主成分Z i 的贡献率:λj /∑p

j =1

λj ;累积贡献率:∑m

j =1

λj /∑p

j =1

λj

一般取累计贡献率达80-95%的特征值λ1,λ2,…,λm 所对应的第一,第二,……,第m (m ≤p )个主成分。

6、计算主成分载荷,解释主成分

因子载荷量是主成分Z i 与原始指标X i 的相关系数R (Z i ,X i ),因子载荷量揭示了主成分与各财务比率之间关系的相关程度,利用它可较好地解释主成分的经济意义。在确定了选择m 个主成分之后,关键的一步是要对主成分做经济解释,即要对各主成分赋予新的意义,给出合理的解释,这个解释应该根据主成分的计算结果结合定性分析进行。主成分是原始财务指标的线性组合。在这个线性组合中各变量的系数有大有小,有正有负。一般而言,线性组合中系数的绝对值大的财务比率表明其对该主成分的属性做出了较大的贡献,若几个财务比率系数相当时,则应认为这一主成分是这几个财务比率性质的综合。

7、构造企业财务综合评分函数

企业财务综合评分函数即为各主成分因子的线性函数。P m =a 1z 1+a 2z 2+…+a m z m (a i 为主成分的贡献率)根据该函数计算出上市公司的综合值,并进行降序排列名次。

二、主成分分析法实际应用

得出企业财务综合评分函数后,主成分分析法在实际中主要有横向和纵向两种应用.即将选定的财务指标代入企业财务综合评分函数式,计算得到上市公司财务状况的综合评估分值,再对综合评估分值按从高到低进行排序。纵向比较,是用企业不同年度的财务指标计算企业财务综合得分,分值高的年份代表企业当年的财务状况较好,反之,则相反;横向比较,是用不同公司的财务指标计算得出各自的企业财务综合得分,显然分值越高代表企业的财务状况越好,相反,则越差。以下仅以企业

财务综合得分的纵向比较为例,目的在于介绍和推广这种新型的上市公司从财务状况综合分析评价技术。

第一步:选取财务指标。

表1

山西汾酒2000年中、2000年末、2001年中个主要财务指标

X 1%X 2%X 3%X 4元X 5%X 6万元X 7元X 8%X 9%2000年中 1.610.009090.32740.030.696537247103525.730.02782000年末0.310.002200.16280.0060.71381743923628.610.01352001年中

1.83

0.01345

0.1932

0.033

0.7361

20704

1441

26.36

0.0696

(注:X 1净资产收益率,X 2总资产报酬率,X 3总资产周转率,X 4每股收益,X 5股本权益比率,X 6主营业务收入,X 7每股净资产,X 8资产负债率,X 9营业利润率)

第二步:利用spss 统计软件计算特征值、贡献率、累计贡献

率,确定主成分

基本原理中的标准化处理和相关系数矩阵主要是从数理逻辑关系上证明以下所选取的主成分的基本原理,可利用SPSS 软件自动完成。因而在实际应用中可以直接进入本步骤来确定并解释主成分。

表2

主成分特征值、贡献率及累计贡献率表

C om ponent

Initial E igenvalues T otal

%ofvariance Cumulative %1 5.99766.63366.6332 3.00333.367100.00037.100E -167.889E -15100.0004 3.067E -16 3.408E -15100.0005 3.247E -17 3.608E -16100.0006-8.20E -17-9.112E -16100.0007-1.97E -16-2.188E -15100.0008-4.60E -16-5.112E -15100.0009

-9.64E -16

-1.071E -14

100.000

从中我们可以看出前两个主成分的累计贡献率就达到了将近100%,则我们取m =2,既取2个主成分来代替原来的9个财务指标,这2个主成分所包含的信息占到了原来的99.99%。

表3

子载荷矩阵表

R otated C om ponent M atrix 2

C om ponent

12X 1.962.272X 2 1.000 1.570E -02

X 3.284.959X 4.953.304X 5.649-.877X 6.953.265X 7.9977.263E -02X 8-.581-.841X 9

.925

-.379

Extraction M ethod :Principal C om ponent Analysis.R otation M ethod :Varimax

with K aiser N ormalization.a.R otation converged in 3iterations.(注:主成分进行

了最大方差旋转)

从因子载荷矩阵中我们可以根据各个财务指标在主成分中占的比重,对该主成分作出合理的经济解释。对于第一个主成分来说,其中占较大载荷量的指标是X 1净资产收益率,X 2总资产报酬率,X 4每股收益,X 6主营业务收入,X 7每股净资产以及X 9营业利润率,从这几个指标我们不难看出第一个主成分代表了企业的赢利能力。而对第二个主成分来说,X 3总资产周转率,X 5股本权益比率和X 8资产负债率所占的因子载荷量最大,

4

62

因此我们可以得出结论,第二个主成分反映的是企业的偿债能力和营运能力。

由此我们得到的两个主成分所代表的经济意义分别为: Z1———赢利能力,Z2———偿债能力和营运能力。

表4因子得分系数矩阵表

Z1Z2

2000年中0.13069 1.14728

2000年末 1.058920.46046

2001年中0.92823-0.68682

在确定了各个主成分的经济意义之后,然后根据因子得分系数矩阵和各个主成分的贡献率来确定最后的企业财务综合评分函数:

P m=0.6663×z1+0.33367×z2

将数据代入上式中我们可以得到山西汾酒2000年中,2000年末和2001年中综合财务评分:

年份得分

2000年中0.469943941

2000年末-0.859623652

2001年中0.389679712

最后我们可以根据上表的得分进行排序可以得出结论,山西汾酒的综合财务状况以2000年中期为最好,2001年中居中,而2000年末为最差。

以上为笔者结合当地的知名上市公司之一所进行的纵向财务分析。同样的原理和技术方法,可以进行不同上市公司的综合财务状况的横向比较分析。根据《2001年度上市公司速查手册》选如下25家上市公司2001年中财务指标:

四川长虹大众交通第一百货青岛海尔申能股份马钢股份仪征化纤春兰股份东方通信中国嘉陵华银电力悦达投资华北制药豫园商城哈药集团真空电子联通国脉广钢股份大江股份鲁银投资创业环保中炬高新厦门机场耀皮玻璃上海汽车

用主成分分析法,可计算得到各个上市公司的综合财务得分,进行排序,结果表明青岛海尔的得分最高,说明其综合财务状况也最好,同时说明青岛海尔在这25只股票中最具投资价值,值得投资者投资。反之中国嘉陵在这25只股票中的综合财务状况最差,其投资风险也最大。联系实际情况我们认为这个结论还是和实际比较吻合的。

三、主成分分析法在上市公司财务分析中应用的评价

1、优点:1)简便性。主成分法利用spss软件进行处理分析,使得计算变得相对简单;2)可行性。上市公司公开披露的三种表,其数据能够满足需要;3)合理性。对财务比率原始数据进行了标准化处理,使得各财务比率之间具有可比性和可加性,同时,根据各主成分的贡献率来确定各主成分在预测函数中的权数,避免了传统的沃尔评分法人为因素的影响。

2、缺点。在运用主成分法进行上市公司财务分析时,也存在着一定的局限性:1)财务分析的前提是企业发布的财务数据必须是真实可信的。但由于目前上市公司的会计信息失真现象依然存在,且较为普遍,一些企业的财务数据并不如实反映企业的财务状况。当然这种局限性也是任何财务分析方法自身无法克服的;2)从理论上讲,主成分法的研究样本须满足正态分布的条件,而目前许多学者研究认为金融时间数列并不服从正态分布,而是服从一种稳态分布;3)从行业角度来看,不同行业的财务比率存在着一定的差异,例如不同发展时期的企业的资产负债率存在差异,处于高速成长期的企业其资产负债率往往是比较高的,不能一概而论。忽略了这种差异,有可能造成分析误差。饮而尽一主成分分析法可以和其他综合分析法一同使用,增强分析结果的可靠性。

总之,主成分分析法的特点决定了其在企业财务分析和财务管理以及证券投资决策中有着广泛的应用,我国的企业应该加强在该领域内的研究,在企业财务分析中逐渐引入这些方法,使得企业管理者和投资者能对企业的经营现状和财务状况作出正确而客观的评价。

【参考文献】

[1]王学民.应用多元分析[M].上海财经大学出版社,1999.

[2]江东明.主成分分析在证券市场个股评价中的应用[J].数理统计与

管理,2001,(3).

[3]苏金明,傅荣华.统计软件SPSS实用指南[M].北京:电子工业出版

社,2000.

[4]程铁信,吴浩刚,孙锡衡.一种基于主成分分析的评标方法[J].统计

学,2000,(4).

[5]叶信才,王美今.上市公司经营业绩综合评分方法的探讨[J].预测,

1999,(3).

(责任编辑:X 校对:Z)

(上接第257页)

从以上分析可以看出,中国企业在进入WT O的经济环境中,面临的是更加严峻的市场竞争。中国企业尤其是国有企业必须摆脱长期的计划经济、计划与市场的混合经济所养成的不良习惯和经营方式,打破生产管理阶段的经营思想桎梏,在新的管理时代建立ERP系统来管理企业,才是企业的最佳选择。目前,部分企业管理已经使用ERP,但仍然带有一定的盲目性。有些企业的决策者不懂得什么是ERP,开发ERP企业要达到什么目的,因而所开发的ERP系统对企业根本不适用,或者使用效果不好,起不到充分发挥企业资源之目的。因此,要开发ERP 系统就必须做好需求分析,根据企业的实际情况来开发ERP系统。

(责任编辑:X 校对:R)

562

主成分分析法运用

统计学简介及在实践中的应用 --以主成分分析法分析影响房价因素为例 姓名:阳飞 学号:2111601015 学院:经济管理学院 指导教师:吴东武 时间:二〇一七年一月六日

1 简介 统计语源最早出现于中世界拉丁语的Status,意思指各种现象的状态和状况。后来由这一语根组成意大利语Stato,有表示“国家”的概念,也含有国家结构和 国情知识的意思。根据这一语根,最早作为学名使用的“统计”的是在十八世纪德国政治学教授亨瓦尔(G.Achenwall)。他在1749年所著《近代欧洲各国国家学纲要》一书的绪言中,就把国家学名定义为“Statistika”(统计)这个词。原意是 指“国家显著事项的比较和记述”或“国势学”,认为统计是关于国家应注意事项的学问。自此以后,各国就相继沿用“统计”这个词,更把这个词译成各国的文字,其中,法国译为Statistique;意大利译为Statistica;英国译为Statistics;日本最初译为“政表”、“政算”、“国势”、“形势”等,直到1880年在太政官中设立了统计院,这个时候才确定以“统计”二字正名。 在我国近代史上首次出现是在1903年(清光绪廿九年)由钮永建、林卓南等翻译了四本由横山雅南所著的《统计讲义录》一书,这个时候才把“统计”这个词从日本传到我国。1907年(清光绪卅三年),由彭祖植编写的《统计学》在日本出版,同时在国内发行。这本书是我国最早的一本“统计学”书籍。自此以后“统计”一词就成了记述国家和社会状况的数量关系的总称。 关于“统计”这个词,后来又引申到了各种各样的组合,包括:统计工作、统计资料、统计科学。 统计工作是指利用科学的方法搜集、整理、分析和提供关于社会经济现象数量资料的工作的总称,它是统计的基础,也称统计实践或统计活动。是在一定统计理论指导下,采用科学的方法,搜集、整理、分析统计资料的一系列活动过程。

主成分分析法总结

主成分分析法总结 在实际问题研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? 一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 主成分分析的具体步骤如下: (1)计算协方差矩阵 计算样品数据的协方差矩阵:Σ=(s ij )p ?p ,其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ,j=1,2,…,p (2)求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单 位特征向量 i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:

PCA主成分分析原理及应用

主元分析(PCA)理论分析及应用 什么是PCA? PCA是Principal component analysis的缩写,中文翻译为主元分析/主成分分析。它是一种对数据进行分析的技术,最重要的应用是对原有数据进行简化。正如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应用线形代数最价值的结果之一。 在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将从一个简单的例子开始说明PCA应用的场合以及想法的由来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(Singular Value Decomposition)之间的联系以及如何将之应用于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。 一个简单的模型 在实验科学中我常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是由于实验环境和观测手段的限制,实验数据往往变得极其的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很困难的问题。在神经科学、气象学、海洋学等等学科实验中,假设的变量个数可能非常之多,但是真正的影响因素以及它们之间的关系可能又是非常之简单的。 下面的模型取自一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表 1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧之上,从平衡位置沿轴拉开一定的距离然后释放。

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法 主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 2.主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。

主成分分析、聚类分析、因子分析的基本思想及优缺点

主成分分析:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差- 协方差结构,即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计) 注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法; 2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分; 3.主成分分析不要求数据来源于正态分布; 4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。 优点:首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价。 缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。 聚类分析:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。 。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。 常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。 注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法要求分析人员事先知道样品分为多少类;

主成分分析法的原理应用及计算步骤..

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点: ↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关 通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性 总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。 二、基本原理 主成分分析是数学上对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。 设F1表示原变量的第一个线性组合所形成的主成分指标,即 11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可 用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵, 记原变量指标为x 1,x 2,…,x p ,设它们降维处理后的综合指标,即新变量为 z 1,z 2,z 3,… ,z m (m ≤p),则 系数l ij 的确定原则: ①z i 与z j (i ≠j ;i ,j=1,2,…,m )相互无关; ②z 1是x 1,x 2,…,x P 的一切线性组合中方差最大者,z 2是与z 1不相关的x 1,x 2,…,x P 的所有线性组合中方差最大者; z m 是与z 1,z 2,……,z m -1都不相关的x 1,x 2,…x P , 的所有线性组合中方差最大者。 新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x P 的第1,第2,…,第m 主成分。 从以上的分析可以看出,主成分分析的实质就是确定原来变量x j (j=1,2 ,…, p )在诸主成分z i (i=1,2,…,m )上的荷载 l ij ( i=1,2,…,m ; j=1,2 ,…,p )。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

主成分分析计算方法和步骤

主成分分析计算方法和步骤: 在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了0.963,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比0.279 0.329 0.252 重点高校数0.345 0.204 0.310 教工人数0.963 0.954 0.896 本科院校数 1.000 0.938 0.881 招生人数0.938 1.000 0.893 教育经费投 0.881 0.893 1.000 入

主成分分析法的步骤和原理

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X1,X2…X p来表示,这p个变量构成的p维随机向量为X=(X1,X2…X p)t。设随机向量X的均值为μ,协方差矩阵为Σ。对X进行线性变化,考虑原始变量的线性组合: Z=μX+μX+…μX Z=μX+μX+…μX ……………… Z=μX+μX+…μX 主成分是不相关的线性组合Z1,Z2……Z p,并且Z1是X,X…X的线性组合中方差最大者,Z2是与Z1不相关的线性组合中方差最大者,…,Z是与Z1,Z2……Z p-1都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始数据可得矩阵X=(x ij)m×p,其中x ij表示第i家上市公司的第j项财务指标数据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分析。其中,R ij(i,j=1,2,…,p)为原始变量X i与X j的相关系数。R为实对称矩阵

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

最新主成分分析与因子分析的优缺点

主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差-协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关.因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法. 聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程.其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似. 三种分析方法既有区别也有联系,本文力图将三者的异同进行比较,并举例说明三者在实际应用中的联系,以期为更好地利用这些高级统计方法为研究所用有所裨益. 二、基本思想的异同 (一) 共同点 主成分分析法和因子分析法都是用少数的几个变量(因子) 来综合反映原始变量(因子) 的主要信息,变量虽然较原始变量少,但所包含的信息量却占原始信息的85 %以上,所以即使用少数的几个新变量,可信度也很高,也可以有效地解释问题.并且新的变量彼此间互不相关,消除了多重共线性.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量.在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到.在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱.因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分.公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分代替原始变量进行进一步的分析,因为主成分变量及因子变量比原始变量少了许多,所以起到了降维的作用,为我们处理数据降低了难度.

主成分法及其应用

【作者简介】 苏键(1985-),男,广西钦州人,助理工程师,研究方向:食品科学。1主成分分析法 何谓主成分分析,就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析[1]。主成分分析的中心思想是缩减一个包括很多相互联系着的变量的数量集,在数量集中保留尽可能多的有用的变量。 主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。主成分分析是设法将原来众多具有一定相关性(比如P 个指标 ),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P 个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var (F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的, 故称F1为第一主成分。如果第一主成分不足以代表原来P 个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov (F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P 个主成分[2]。 主成分分析首先是由K.皮尔森对非随机变量引入的,而后H.霍特林将此方法推广到随机向量的情形[2]。信息的大小通常用离差平方和或方差来衡量。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。 2主成分分析法在食品领域的应用 2.1主成分分析在食品风味方面的应用 目前,主成分分析应用还是比较广泛的,但是就食品风味方面,关于该分析方法的文献鲜见报道。戴素贤等[3]人对七种高香型乌龙茶中的香气成分进行了主成分分析,他们尝试用主成分分析法来研究茶业香型的变化,并进而找到影响这些香型变化的主要化合物,同时还发现了不同的茶别中香气化合物变化的趋势并进行了模拟量化,直观地表现了各种香气化合物对香气的贡献程度。李华等[4]运用多元统计分析确定葡萄酒感官特性,多元统计分析中的主成分分析等数学工具能够把大量的描述葡萄酒感官特性的描述语精简成较少的综合性更强的描述语,这些精简后的描述语不但能够反映精简前描述语的信息,还可以筛选出科学合理的描述符,描述符是描述分析的语言和工具,根据描述符可以分类不同的葡萄酒。邵威平等[5]应用主成分分析法完成了不同品牌啤酒风味差异性的评价,同一品牌啤酒风味一致性的评价,同一品牌不同生产厂之间一致性的评价以及同一生产厂啤酒一致性的评价这些工作。 啤酒是个多指标的风味食品,主成分分析法可以帮助我们更好地研究啤酒理化指标和啤酒风格之间的相关性,从而达到更好地理解啤酒风味的目的。岳田利等[6]人则通过利用主成分分析的方法建立了苹果酒香气质量的评价模型,并以此来对苹果酒样品香气组分进行客观的统计分析。S.Kallithraka 等[7]采用高效液相色谱法和气相色谱法研究了希腊国内不同产地葡萄酒的化合物成分和感官特性,并运用了PCA 法(主成分分析法)对所得参数进行多元分析,最终达到给葡萄酒评价和分类的目的。2.2主成分分析在食品品质方面的应用 食品品质的评价往往是非常复杂的过程。因为影响食品品质的因素大量存在,非人为因素如食品环境中的微生物,温度及pH 等的变化带来的影响。另一方面,由于人为的因素掺假也会造成食品品质的低劣,进而损害广大销售者和消费者的利益。如黎海红等[8]人运用主成分分析法对掺伪芝麻油的检测方法进行研究分析。根据主成分分析的实验原理,可以选择芝麻油的折光率、酸价、色泽、水分及挥发物、皂化值和碘价等理化指标作为变量,将这些变量的所测数据做矩阵处理最后分析就 轻工科技 LIGHT INDUSTRY SCIENCE AND TECHNOLOGY 2012年9月第9期(总第166期) 食品与生物 主成分分析法及其应用 苏键,陈军,何洁 (广西轻工业科学技术研究院,广西南宁530031) 【摘要】 介绍了主成分分析法的定义、原理,概述了该法在食品及一些仪器分析领域的应用,目的是为其他还未应用该分 析方法的学术领域提供一种参考和借鉴,使得主成分分析法能够在越来越多的学术领域中得以推广和应用。 【关键词】主成分分析;应用;概述【中图分类号】TS262【文献标识码】A 【文章编号】2095-3518 (2012)09-12-02

主成分分析分析法

第四节 主成分分析方法 地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问题 是经常会遇到的。 变量太多, 无疑会增加分析问题的难度与复杂性, 而且在许多 实际问题中, 多个变量之间是具有一定的相关关系的。 因此,我们就会很自然地 想到,能否在各个变量之间相关关系研究的基础上, 用较少的新变量代替原来较 多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信 息?事实上, 这种想法是可以实现的, 本节拟介绍的主成分分析方法就是综合处 理这种问题的一种强有力的方法。 第一节 主成分分析方法的原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法, 从数学角度来看, 这是一种降维处理技术。 假定有 n 个地理样本, 每个样本共有 p 个变量描述,这样就构成了一个 n ×p 阶的地理数据矩阵: 如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问 题,自然要在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需 要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使 这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之 间又是彼此独立的。那么,这些综合指标(即新变量 ) 应如何选取呢?显然,其 最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数, 使新的变量 指标之间相互独立且代表性最好。 如果记原来的变量指标为 x 1, 为 x 1,x 2,?, zm (m ≤p ) 。则 x 2 ,?, x p ,它们的综合指标——新变量指标

在(2)式中,系数l ij 由下列原则来决定: (1)z1 2与z j(i ≠j ;i ,j=1 ,2,?,m)相互无关; (2)z 1是x1,x2,?,x p的一切线性组合中方差最大者;z2是与z1不相关的x1,x2,?,x p的所有线性组合中方差最大者;??;z m是与z1,z2,??z m-1 都不相关的x1,x2,?,x p的所有线性组合中方差最大者。 这样决定的新变量指标z1,z2,?,zm分别称为原变量指标x1,x2,?,x p 的第一,第二,?,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,?,z m的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以看出,找主成分就是确定原来变量x j(j=1 ,2,?,p)在诸主成分z i (i=1 ,2,?,m)上的载荷l ij (i=1 ,2,?,m;j=1 ,2,?,p),从数学上容易知道,它们分别是x1,x2,?,x p的相关矩阵的m个较大的特征值所对应的特征向量。 第二节主成分分析的解法 主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:在公式(3)中,r ij (i ,j=1 ,2,?,p)为原来变量x i与x j的相关系数,其计 算公式为 因为R是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。 1 计算相关系数矩阵 2 计算特征值与特征向量

主成分分析法的步骤和原理

主成分分析法的步骤和原理 (总2页) -CAL-FENGHAI.-(YICAI)-Company One1 -CAL-本页仅作为文档封面,使用请直接删除

(一)主成分分析法的基本思想 主成分分析(Principal Component Analysis)是利用降维的思想,将多个变量转化为少数几个综合变量(即主成分),其中每个主成分都是原始变量的线性组合,各主成分之间互不相关,从而这些主成分能够反映始变量的绝大部分信息,且所含的信息互不重叠。[2] 采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点,引进多方面的财务指标,但又将复杂因素归结为几个主成分,使得复杂问题得以简化,同时得到更为科学、准确的财务信息。 (二)主成分分析法代数模型 假设用p个变量来描述研究对象,分别用X 1,X 2 …X p 来表示,这p个变量构 成的p维随机向量为X=(X 1,X 2 …X p )t。设随机向量X的均值为μ,协方差矩阵 为Σ。假设 X 是以 n 个标量随机变量组成的列向量,并且μk 是其第k个元素的期望值,即,μk= E(xk),协方差矩阵然后被定义为: Σ=E{(X-E[X])(X-E[X])}=(如图 对X进行线性变化,考虑原始变量的线性组合: Z1=μ11X1+μ12X2+…μ1p X p Z2=μ21X1+μ22X2+…μ2p X p ……………… Z p=μp1X1+μp2X2+…μpp X p 主成分是不相关的线性组合Z 1,Z 2 ……Z p ,并且Z 1 是X1,X2…X p的线性组合 中方差最大者,Z 2是与Z 1 不相关的线性组合中方差最大者,…,Z p是与Z 1 , Z 2……Z p-1 都不相关的线性组合中方差最大者。 (三)主成分分析法基本步骤 第一步:设估计样本数为n,选取的财务指标数为p,则由估计样本的原始 数据可得矩阵X=(x ij ) m×p ,其中x ij 表示第i家上市公司的第j项财务指标数 据。 第二步:为了消除各项财务指标之间在量纲化和数量级上的差别,对指标数据进行标准化,得到标准化矩阵(系统自动生成)。 第三步:根据标准化数据矩阵建立协方差矩阵R,是反映标准化后的数据之间相关关系密切程度的统计指标,值越大,说明有必要对数据进行主成分分 析。其中,R ij (i,j=1,2,…,p)为原始变量X i 与X j 的相关系数。R为实对 称矩阵(即R ij =R ji ),只需计算其上三角元素或下三角元素即可,其计算公式 为:

主成分分析方法及matlab运用解释

主成分分析方法 在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,这里介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。 一、主成分分析的基本原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵: 11 12121 2221 2 p p n n np x x x x x x X x x x ???=? ???(1) 如何从这么多变量的数据中抓住地理事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm (m≤p)。则 11111221221122221122 ,,.........................................,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++?? =+++?? ??=+++?(2) 在(2)式中,系数l ij 由下列原则来决定:

主成分分析计算方法和步骤

在对某一事物或现象进行实证研究时,为了充分反映被研究对象个体之间的差异, 研究者往往要考虑增加测量指标,这样就会增加研究问题的负载程度。但由于各指标都是对同一问题的反映,会造成信息的重叠,引起变量之间的共线性,因此,在多指标的数据分析中,如何压缩指标个数、压缩后的指标能否充分反映个体之间的差异,成为研究者关心的问题。而主成分分析法可以很好地解决这一问题。 主成分分析的应用目的可以简单地归结为: 数据的压缩、数据的解释。它常被用来寻找和判断某种事物或现象的综合指标,并且对综合指标所包含的信息给予适当的解释, 从而更加深刻地揭示事物的内在规律。 主成分分析的基本步骤分为: ①对原始指标进行标准化,以消除变量在数量极或量纲上的影响;②根据标准化后的数据矩阵求出相关系数矩阵 R; ③求出 R 矩阵的特征根和特征向量; ④确定主成分,结合专业知识对各主成分所蕴含的信息给予适当的解释;⑤合成主成分,得到综合评价值。 结合数据进行分析 本题分析的是全国各个省市高校绩效评价,利用全国2014年的相关统计数据(见附录),从相关的指标数据我们无法直接评价我国各省市的高等教育绩效,而通过表5-6的相关系数矩阵,可以看到许多的变量之间的相关性很高。如:招生人数与教职工人数之间具有较强的相关性,教育投入经费和招生人数也具有较强的相关性,教工人数与本科院校数之间的相关系数最高,到达了,而各组成成分之间的相关性都很高,这也充分说明了主成分分析的必要性。 表5-6 相关系数矩阵 本科院校 数招生人数教育经费投入 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入

师生比重点高校数教工人数 相关性师生比 重点高校数 教工人数 本科院校数 招生人数 教育经费投 入(元) 表5-7给出的是各主成分的方差贡献率和累计贡献率,我们选取主成分的标准有两个:第一,特征根大于1,因为,如果特征根小于1,说明该主成分的解释力度太弱,还比不上直接引入一个原始变量的平均解释力度大;第二,方差贡献率大于85%,如果这两个标准不能同时符合要求,则往往是因为选择的指标不合理或者样本容量太小,应继续调整。表5-7还显示,只有前2个特征根大于1,因此SPSS只提取了前两个主成分,而这两个主成分的方差贡献率达到了%,因此选取前两个主成分已经能够很好地描述我国高等教育地区现状。

主成分分析方法及matlab运用解释

主成分分析方法 在许多实际问题中,多个变量之间就是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法就是可以实现的,这里介绍的主成分分析方法就就是综合处理这种问题的一种强有力的方法。 一、主成分分析的基本原理 主成分分析就是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来瞧,这就是一种降维处理技术。假定有n 个地理样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的地理数据矩阵: 111212122212p p n n np x x x x x x X x x x ???=????L L L L L L L (1) 如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一问题,自然要在p 维空间中加以考察,这就是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又就是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。 如果记原来的变量指标为x 1,x 2,…,x p ,它们的综合指标——新变量指标为z 1,z 2,…,zm(m≤p)。则 11111221221122221122,,......................................... ,p p p p m m m mp p z l x l x l x z l x l x l x z l x l x l x =+++??=+++????=+++?L L L (2) 在(2)式中,系数l ij 由下列原则来决定: (1)z i 与z j (i≠j ;i,j=1,2,…,m)相互无关; (2)z 1就是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2就是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 就是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。 这样决定的新变量指标z 1,z 2,…,zm 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。 从以上分析可以瞧出,找主成分就就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别就是x 1,x 2,…,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。 二、主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如

相关文档
最新文档