聚类分析和主成分分析在股票市场中的应用

所在学院: 专业: 年级及班级: 姓名: 学号:

密 封 线

重庆文理学院试卷答题纸

II 类 A 卷

论文

1.题目

2.正文(同时提交纸质版和电子版,数据附在论文电子版后面)

聚类分析和主成份分析在股票市场中的应用

2014级数学与应用数学(金融方向)1班 蒲东洋 201402404052

多元统计分析评价表

《多元统计分析》II类A卷答题纸

《多元统计分析》II类A卷答题纸聚类分析和主成份分析在股票市场中的应用

摘要:本文利用聚类分析和主成分分析在SPSS中对选用的20家上市公司2017年第

一季度的的财务数据指标进行分析,目的是对股票市场的公司进行综合排名确定对各个股票投资的好坏。聚类分析结果将20家上市公司分为6个类,并选用每个类的代表公司进行主成分分析,并利用综合评价函数得到它们的综合排名,得到排名结果为(白云机场、包钢股份、宝钢股份、东风汽车、民生银行、浦发银行),根据排名可以确定上市公司在股票市场上的相对优劣性,从而选取更好的股票进行投资。

一、引言

改革开放近40多年来,我国经济发展取得了显著成效,经济增长速度和发展水平也取得了令世人瞩目的成绩。从2003年到现在,国民经济保持快速增长,市场经济建设高速发展,使人们的投资理财意识和金融意识逐渐增强,在市场经济中担当主力军角色的股票市场,对中国经济发展和社会稳定起着重要作用,并在政府的推动下,逐渐走向成熟与规范,促使更多投资者将眼光投向了股票。然而“股市有风险,入市须谨慎”的口号时常回荡在股民耳旁。股价涨跌无常,股市变幻莫测,所以投资者想从股市中赢得丰厚的回报,仅靠运气是行不通的,我们需要对各上市公司的管理,规模,最重要的是财务状况进行全面的分析与评价,找出真正的具有较高收益率的股票作为投资对象。而通常情况下对上市公司的运营情况和财务状况的评价都是多指标分析,因此我们在做研究时需要选取各公司具有决定性的几个重要指标来做分析。

二、研究方向

在股票中把具有共同特征的股票群称为板块。股市中的板块可以多种角度来划分,而在每一板块中有几十种甚至上百种股票。面对众多的股票及每个公司大量的财务数据,如何在各个板块众多的股票当中选出具有投资价值的绩优股和潜力股在多元统计分析中的聚类分析和主成分分析的方法,对此问题作出一些探讨。下面我们以2017年20个上证上市公司第一季度的数据作为研究样本,进行具体分析说明。(研究数据来自西南证券交易软件)

三、研究方法及过程

(1)系统聚类

系统聚类分析是一种将数据所对应的研究对象进行分类的方法。这种方法的共同思路是在提前不知道类别的个数与结构的情况下,分析数据对象之间的相似性或相异性。将这些相似或相异性数据看成对象之间“距离”远近的一种度量,将距离近的对象归为一类,远的即为不同类。在下述试验过程中,我们选用欧氏距离来度量类与类之间的相似程度,聚类方法采用最长距离法。

下面我们以样本数据为研究对象,分析中选取了20个上市公司2017年第一季度的净利润(万元),净利润增长率(%),营业总收入(万元),营业总收入增长率(%),加权净资产收益率(%),资产负债比率(%),等六个反映上市公司综合盈利能力的指标,应用SPSS软件的系统聚类过程得到如下结果:

《多元统计分析》 II 类A 卷 答题纸

谱系图为:

图1 系统聚类树状图

从上图可以明显看出2017年第一季度部分上证公司的营销业绩从10那点切下来可以分为6类,如第一类中白云机场、XD 中国国、上港集团、日照港、浙能电力,他们的营销业绩基本相同,即买这几家公司的股票风险相当。既然我们已经把数据中的20家上证公司进行了分类,那么我们就想知道上述公司的排名,便于投资者选取比较有潜力的股票。

(2)主成分分析

主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。它通过降维技术,从代表性指标的角度来进行筛选,将多个变量化成少数几个主成分,这些主成分中包含了原始变量的绝大部分信息。这种方法的优点在于它确定的权数是建立在数据本身特性的基础上,不受主观因素的影响。因此我们如果对数据相关性较强的多指标评价,采用主成分分析法十分有利。例如,在上述研究对象中所提到的上市公司2017年第一季度的业务报表数据,共有六项指标,这些指标之间存在着很大的相关性。表中的每股收益,净资产收益率,以及主营利润增长率指标的变化非常相似。实际上它们反映的都是企业盈利能力,如果用其他方法进行评估,就可能产生过分夸大该趋势的结果。而主成分分析法就避免了这种不足,通过对数据进行变换,能够找出这种主要趋势,并自动赋予权值。所以该方法适用于指标的综合评价,且避免了主观因素的影响,因此在研究中得到了广泛地应用。主成分分析(principal components analysis ,PCA ),也称主分量分析,是由Hotelling 于1933年首先提出的。其基本思想是通过原有变量的少数几个线性组合来解释原有变量所体现的样本变差。

设1X ,2X ,P X 为原有的P 个指标,p n ij x X ?=)(为其标准化观测矩阵,p ij ?=∑p )(σ为其相关系数矩阵,T ni i i i u u u )....,(u 21=(i=1…P)为P 个常数向量。考虑如下线性组合:

《多元统计分析》 II 类A 卷 答题纸

∑==n

i i ij X u Y 1

i 为P 个新指标。i Y 的样本方差为i T

i i u u Y ∑=)var(,协方差

i T

i j i u u Y Y v ∑=),(co (i,j=1…P )

。我们的工作是寻找尽可能少的指标代替原来的P 个指标,同时要求它们含有尽可能多的原指标的信息且互不相关。指标中信息量的多少

用该指标的方差来衡量,方差越大即不相关性越高,即信息含量也就越大,反之亦然。

设∑的特征根和对应的正交化单位特征向量分别为0...21≥≥≥≥P λλλ和1γ2γ,…,P γ则可以证明当i i γ=u 时,有i )var(γ=i Y ,0),(co =j i Y Y v ,(i ,j=1…P )此时令:

P

k

λλλλ+++=

...a 21k ,k=1,2,…,P (1)

P

k

i i

k λλλλ

+++=

∑=...b 211

, k=1,2,…,P (2)

其中k a 表示第k 个主成分的贡献率,k b 表示前k 个主成分的累积贡献率。累积贡献率就表明了前k 个主成分有包含信息量占总信息量的比例,一般当%80b ≥k 或90%时,我们就可以考虑用k 个主成分来表示原有指标而不会损失多少信息。则有综合评价函数为:

k 2221112211....a ...)(F X a X a X a Y Y a Y a x T

k k T T k k γγγ+++=+++= (3)

现将已经分好类的上证公司,第一类、第二类和第四类分别以白云机场、东风汽车、包钢股份为例,利用SPSS 主成分分析的方法来进行分析。分析结果数据如下表所

《多元统计分析》 II 类A 卷 答题纸

由以上结果说明在这个问题中保留两个主成分为宜,前两个的主成分集中了5个原始变量的84%的信息,可以达到较好的效果,即本问题使用两个主成分达到了降维的目的并对前面的公司进行分析。

利用上表2的数据得到主成分量为:

6543211808.0064.0882.0792.0838.0663.0X X X X X X Y ++++--= 6543212188.0888.0417.0340.0458.0699.0X X X X X X Y +++++= 由此可以的到股票综合评价函数为:

21%18.30%37.53Y Y X F +=)(

将前面的股票数据带入上式就能得到股票的综合得分和排名;

表3综合排名

四、研究结果及分析

本文通过选取20家上市公司的股票在2017年第一季度的相关财务指标数据,在SPSS 中使用聚类分析和主成分分析对20家上市公司的股票进行一个完整的风险预测和选取比较有胜算的股票,通过研究将20家上市公司分为了6个类,第一类:白云机场、XD 中国过、上港集团、日照港、浙能电力、上海机场、皖通高速、中原海能、山东钢铁,第二类:东风汽车、上海电力、首创股份,华能国际、华电国际、华夏银行,第三类:浦发银行,第四类:包钢股份、中原高速,第五类:宝钢股份,第六类:民生银行。选取了每个类主要的股票进行主成分分析得到综合评价和排名(1.白云机场2.包钢股份3.宝钢股份4.东风汽车5.民生银行6.浦发银行),这个排名是2017年第一季度的数据分析得来,对后面的投资有一定的参考性,同理如果我们对考虑投资的股票进行这个风险测评得到最好的投资目标,在一定程度上优化了投资,所以这个聚类分析和主成分分析的风险预测体系在股票市场上可以得到有效应用。

《多元统计分析》II类A卷答题纸

《多元统计分析》II类A卷答题纸

《多元统计分析》II类A卷答题纸

《多元统计分析》II类A卷答题纸

相关文档
最新文档