数学建模之因子分析法

数学建模之因子分析法
数学建模之因子分析法

因子分析

因子分析就是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。

1.因子分析法的应用

①汽车行业业绩评价研究(下载文档),

②上市公司盈利能力及资本结构实证分析,

③生育率影响因素分析。

2.步骤

①对原始数据进行标准化处理

用12,,,m x x x L 表示因子分析指标的m 个变量,评价对象有n 个,ij a 表示第i

个评价对象对应于第j 个指标的取值。将每个指标值ij a 转化为标准化指标ij a %,

即 ,(1,2,,;1,2,,)ij j

ij j a a i n j m s μ-===%L L 式中:11n j ij i a n μ==∑,21

1()1n

j ij j i s a n μ==--∑ 相应地,标准化指标变量为

,(1,2,,)j j

j j x x j m s μ-==%L

②计算相关系数矩阵R

()ij m m R r ?=

1

,(,1,2,,)1n ki kj

k ij a a r i j m n =?==-∑%%L

式中:1,ii ij ji r r r ==,ij r 是第i 个指标和第j 指标之间的相关系数。

③计算初等载荷矩阵 解特征方程0=-

R I λ,得到特征值(1,2,,)i i m λ=L 12,0m λλλ≥≥≥≥L ,再求出相对应的特征值i λ的特征向量(1,2,,)i u i m =L ,其中12(,,,)T j j j mj u u u u =L ,得到初等载荷矩阵为

111,,m m u u λλ??Λ=??

L ④ 确定主因子的个数()k k m ≤

一般选取使得累计贡献率1185%k m i

i i i λλ==≥∑∑的这k 个主因子,对k 个因子载荷

矩阵作旋转,用()1k Λ表示1Λ的前k 列,T 表示正交矩阵,则得矩阵()21

k T Λ=Λ,建立因子模型,即

1111111,.k k m m mk k x F F x F F αααα=++?? ??=++?%L M

%

L ⑥计算因子得分,作出综合评价

求出单个因子的得分函数?j F ,用?ij F 表示第i 个样本对第j 个因子的得分估

计值,Y 表示原始数据标准化后的矩阵,则总得分为

1??()ij n k k

F F YR -?==Λ 例题

我国上市公司赢利能力与资本结构的实证分析已知上市公司的数据见表1

表1 上市公司数据

试用因子分析法对上述企业进行综合评价。

模型的建立

①对原始数据进行标准化处理

用12,,,m x x x L 表示因子分析指标的m 个变量,评价对象有n 个,ij a 表示第i

个评价对象对应于第j 个指标的取值。将每个指标值ij a 转化为标准化指标ij a %,

即 ,(1,2,,;1,2,,)ij j

ij j a a i n j m s μ-===%L L 式中:11n j ij i a n μ==∑,21

1()1n

j ij j i s a n μ==--∑ 相应地,标准化指标变量为

,(1,2,,)j j

j j x x j m s μ-==%L

②计算相关系数矩阵R

()ij m m R r ?=

1

,(,1,2,,)1n ki kj

k ij a a r i j m n =?==-∑%%L

式中:1,ii ij ji r r r ==,ij r 是第i 个指标和第j 指标之间的相关系数。

③计算初等载荷矩阵 解特征方程0=-R I λ,得到特征值(1,2,,)i i m λ=L 12,0m λλλ≥≥≥≥L ,再求出相对应的特征值i λ的特征向量(1,2,,)i u i m =L ,其中12(,,,)T j j j mj u u u u =L ,得到初等载荷矩阵为

11,m ?Λ=?L

④ 确定主因子的个数()k k m ≤

一般选取使得累计贡献率1185%k m i

i i i λλ==≥∑∑的这k 个主因子,对k 个因子载荷

矩阵作旋转,用()1k Λ表示1Λ的前k 列,T 表示正交矩阵,则得矩阵()21

k T Λ=Λ,建立因子模型,即

1111111,.k k m m mk k x F F x F F αααα=++?? ??=++?%L M

%

L 模型的求解:

我们选取两个主因子。利用MATLAB 程序计算得旋转后的因子贡献及贡献率见表2,因子载荷阵见表3。

表2 贡献率数据

表3 旋转因子分析表

计算因子得分,作出综合评价

我们用回归方法求单个因子得分函数

11?,1,2,,j j jm m F b x b x j k =++=%%L L

用?ij

F 表示第i 个样本对第j 个因子的得分估计值,则 11?,(1

,2,,;1,2,,)ij j i jm im F b x b x i n j k =++==%%L L L 即

1121112222112k k m m km b b b b b x R B b b x -??

????=??????

L L

L L L L L 用Y 表示原始数据标准化后的矩阵,则总得分为 1??()ij n k

F F YR B -?== 计算得出各个因子得分函数为

1123421234

0.5310.16150.18310.50150.0450.51510.5810.0199F x x x x F x x x x =+-+=-++-%%%%%%%% 总得分为 1244.4941.886.17

F F F += 计算出16家上市公司赢利能力的综合得分见表4。

表416家上市公司赢利能力的综合得分

数学建模常用模型方法总结精品

【关键字】设计、方法、条件、动力、增长、计划、问题、系统、网络、理想、要素、工程、项目、重点、检验、分析、规划、管理、优化、中心 数学建模常用模型方法总结 无约束优化 线性规划连续优化 非线性规划 整数规划离散优化 组合优化 数学规划模型多目标规划 目标规划 动态规划从其他角度分类 网络规划 多层规划等… 运筹学模型 (优化模型) 图论模型存 储论模型排 队论模型博 弈论模型 可靠性理论模型等… 运筹学应用重点:①市场销售②生产计划③库存管理④运输问题⑤财政和会计⑥人事管理⑦设备维修、更新和可靠度、项目选择和评价⑧工程的最佳化设计⑨计算器和讯息系统⑩城市管理 优化模型四要素:①目标函数②决策变量③约束条件 ④求解方法(MATLAB--通用软件LINGO--专业软件) 聚类分析、 主成分分析 因子分析 多元分析模型判别分析 典型相关性分析 对应分析 多维标度法 概率论与数理统计模型 假设检验模型 相关分析 回归分析 方差分析 贝叶斯统计模型 时间序列分析模型 决策树 逻辑回归

传染病模型马尔萨斯人口预测模型微分方程模型人口预 测控制模型 经济增长模型Logistic 人口预测模型 战争模型等等。。 灰色预测模型 回归分析预测模型 预测分析模型差分方程模型 马尔可夫预测模型 时间序列模型 插值拟合模型 神经网络模型 系统动力学模型(SD) 模糊综合评判法模型 数据包络分析 综合评价与决策方法灰色关联度 主成分分析 秩和比综合评价法 理想解读法等 旅行商(TSP)问题模型 背包问题模型车辆路 径问题模型 物流中心选址问题模型 经典NP问题模型路径规划问题模型 着色图问题模型多目 标优化问题模型 车间生产调度问题模型 最优树问题模型二次分 配问题模型 模拟退火算法(SA) 遗传算法(GA) 智能算法 蚁群算法(ACA) (启发式) 常用算法模型神经网络算法 蒙特卡罗算法元 胞自动机算法穷 举搜索算法小波 分析算法 确定性数学模型 三类数学模型随机性数学模型 模糊性数学模型

因子分析模型的建立

基于因子分析模型的居民消费价格指数影响因素分 析 摘要:由于目前对居民消费价格变动原因的分析指标很多,且指标体系中各指标之间存在着多重共线性,从而影响了分析模型的稳定性,使所得模型中出现了不符合经济学原理的现象。本文采用多元统计分析方法,以2010年居民消费物价水平为例,建立了关于居民消费价格分类指数变动的因子分析模型,研究发现影响居民消费价格指数的主要因素为食品、衣着和家用设备等生活必需品的价格水平,其次为健身等娱乐设施价格和房价水平。 关键词:消费价格指数;影响因素;因子分析 一、研究背景 随着社会主义市场经济体制的确立和逐步完善,我国经济总量和综合实力迅速上升,居民的生活水平显着提高,经济和社会都有了较大的发展。相对于过去而言,居民食品方面的消费支出比重在逐渐下降,而在文化娱乐等方面的消费支出比重越来越大。国家发改委在全国物价局长会议上指出,明年要围绕促进经济平稳较快发展这一主线,积极稳妥地推进价格改革,切实改进价格监管,保持价格总水平基本稳定。同时由于影响价格变动的因素日益复杂,价格异常波动的可能性增加。分析影响居民消费价格指数的主要影响因素,改进价格监管,保持价格总水平基本稳定有着重要意义;同时也为产业政策的制定和宏观经济的调控提供了参考。 居民消费价格指数(CPI)是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标,在一定程度上也反映出我国居民消费结构的变化。本文通过对2010年全国居民消费价格指数的变化进行因子分析,从而确定出影响全国居民消费物价水平和消费结构变化的主导因素。 二、因子分析模型的建立 因子分析最初是由英国心理学家C.Spearman提出的,是多元统计分析的一个重要分支,其主要目的是浓缩数据。通过对诸多变量的相关性研究,来表示原来变量的主要信息。假设有n个样本,对于多指标问题X=(X1,X2,...Xk),形成的背景原因是多种多样的,其中共同原因称为公共因子,假设用Fj表示,它们之间是两两正交的;每一个分量Xi又有其特定的原因,称为特殊因子,假设用ei表示,其两两之间互不相关,且只对相应的Xi起作用。同时,F与e相互独立。于是因子分析的数学模型可表示为: Fi叫做公共因子(也称主因子),它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。

第1章 数学建模与误差分析

第1章数学建模与误差分析 1.1 数学与科学计算 数学是科学之母,科学技术离不开数学,它通过建立数学模型与数学产生紧密联系,数学又以各种形式应用于科学技术各领域。数学擅长处理各种复杂的依赖关系,精细刻画量的变化以及可能性的评估。它可以帮助人们探讨原因、量化过程、控制风险、优化管理、合理预测。近几十年来由于计算机及科学技术的快速发展,求解各种数学问题的数值方法即计算数学也越来越多地应用于科学技术各领域,相关交叉学科分支纷纷兴起,如计算力学、计算物理、计算化学、计算生物、计算经济学等。 科学计算是指利用计算机来完成科学研究和工程技术中提出的数学问题的计算,是一种使用计算机解释和预测实验中难以验证的、复杂现象的方法。科学计算是伴随着电子计算机的出现而迅速发展并获得广泛应用的新兴交叉学科,是数学及计算机应用于高科技领域的必不可少的纽带和工具。科学计算涉及数学的各分支,研究它们适合于计算机编程的数值计算方法是计算数学的任务,它是各种计算性学科的联系纽带和共性基础,兼有基础性和应用性的数学学科。它面向的是数学问题本身而不是具体的物理模型,但它又是各计算学科共同的基础。 随着计算机技术的飞速发展,科学计算在工程技术中发挥着愈来愈大的作用,已成为继科学实验和理论研究之后科学研究的第三种方法。在实际应用中所建立的数学模型其完备形式往往不能方便地求出精确解,于是只能转化为简化模型,如将复杂的非线性模型忽略一些因素而简化为线性模型,但这样做往往不能满足精度要求。因此,目前使用数值方法来直接求解较少简化的模型,可以得到满足精度要求的结果,使科学计算发挥更大作用。了解和掌握科学计算的基本方法、数学建模方法已成为科技人才必需的技能。因此,科学计算与数学建模的基本知识和方法是工程技术人才必备的数学素质。 1.2 数学建模及其重要意义 数学,作为一门研究现实世界数量关系和空间形式的科学,在它产生和发展的历史长河中,一直是和人们生活的实际需要密切相关。用数学方法解决工程实际和科学技术中的具体问题时,首先必须将具体问题抽象为数学问题,即建立起能描述并等价代替该实际问题的数学模型,然后将建立起的数学模型,利用数学理论和计算技术进行推演、论证和计算,得到欲求解问题的解析解或数值解,最后用求得的解析解和数值解来解决实际问题。本章主要介绍数学建模基本过程和求解数学问题数值方法的误差传播分析。 1.2.1 数学建模的过程 数学建模过程就是从现实对象到数学模型,再从数学模型回到现实对象的循环,一般通过表述、求解、解释、验证几个阶段完成。数学建模过程如图1.2.1所示,数学模型求解方法可分为解析法和数值方法,如图1.2.2所示。 表述是将现实问题“翻译”成抽象的数学问题,属于归纳。数学模型的求解方法则属于演绎。归纳是依据个别现象推出一般规律;演绎是按照普遍原理考察特定对象,导出结论。演绎利用严格的逻辑推理,对解释现象做出科学预见,具有重要意义,但是它要以归纳的结论作为公理化形式的前提,只有在这个前提下

(完整版)SPSS因子分析法-例子解释

因子分析的基本概念和步骤 一、因子分析的意义 在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在: 计算量的问题 由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。 变量间的相关性问题 收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。类似的问题还有很多。 为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。 因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善。 因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,名为因子。通常,因子有以下几个特点: ↓因子个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。 ↓因子能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。 ↓因子之间的线性关系并不显著 由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解决变量多重共线性等给分析应用带来的诸多问题。 ↓因子具有命名解释性 通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解

数学建模模拟题,图论,回归模型,聚类分析,因子分析等 (48)

第11章第2题 摘要 本题分析4 种化肥和3 个小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,可视为两因素方差分析,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。 试验的目的是分析化肥的四个不同水平以及小麦品种的三个不同水平对小麦产量有无显着性影响。 关键词:方差分析显着性化肥种类小麦品种

一.问题重述 为了分析4 种化肥和3 个小麦品种对小麦产量的影响,把一块试验田等分成36个小块,分别对3种种子和四种化肥的每一种组合种植3 小块田,产量如表1所示(单位公斤),问不同品种、不同种类的化肥及二者的交互作用对小麦产量有无显着影响。 二.问题分析 本题意在分析四种化肥和三种小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,为两因素方差分析问题,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。通过对这两种因素的不同水平及交互作用的分析,从而分析 4 种化肥和3 个小麦品种对小麦产量的影响。 三.模型假设 1.假设只有化肥种类和小麦品种两个因素,其他因素对试验结果不构成影响。 2.假设不存在数据记录错误。 3.假设每一块试验田本身各项指标相同,不会影响结果。 四.符号说明 数字1,2,3,4——不同的化肥种类 数字1,2,3——不同的小麦品种 五.模型建立 将化肥种类和小麦品种视为两个因素,四种化肥种类看作是化肥种类的四个不同水平,三个小麦品种看作是小麦品种的三个不同水平,将表1的数据进行整理,如表2所示。

六.模型求解 将表2数据导入到spss软件中,进行两因素方差检验,得到结果如下:表3

因子分析例题

因子分析例题 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

因子分析 因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。 第一节 因子分析的基本思想 首先我们看下面两个实际例子: 例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、 讨人喜欢的能力、自信心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。 例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系 有八项指标:固定资产利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这八项指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功夫。 因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。 因子分析分为两类,即R 型因子分析(对变量作因子分析),Q 型因子分析(对样品作因子分析)。 第二节 第二节 因子分析的数学模型 1.1. 模型(R 型) 设),,,(21p x x x X =为观察到的随机向量,),,,(21m F F F F =是不可观测的向量。 有 即 其中)',,(1p εεε =称作误差或特殊因子。 满足假设: 1)p m ≤ 2)0),cov(=εF , 3)m I F =)var(,),,()var(2 21p diag σσε =。 称i F 为第i 个公共因子,ij a 为因子载荷。 因子分析与主成分的关系:

数学建模常用算法模型

数学模型的分类 按模型的数学方法分: 几何模型、图论模型、微分方程模型、概率模型、最优控制模型、规划论模型、马氏链模型等 按模型的特征分: 静态模型和动态模型,确定性模型和随机模型,离散模型和连续性模型,线性模型和非线性模型等 按模型的应用领域分: 人口模型、交通模型、经济模型、生态模型、资源模型、环境模型等。 按建模的目的分: 预测模型、优化模型、决策模型、控制模型等 一般研究数学建模论文的时候,是按照建模的目的去分类的,并且是算法往往也和建模的目的对应 按对模型结构的了解程度分: 有白箱模型、灰箱模型、黑箱模型等 比赛尽量避免使用,黑箱模型、灰箱模型,以及一些主观性模型。 按比赛命题方向分: 国赛一般是离散模型和连续模型各一个,2016美赛六个题目(离散、连续、运筹学/复杂网络、大数据、环境科学、政策) 数学建模十大算法 1、蒙特卡罗算法 (该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性,比较好用的算法) 2、数据拟合、参数估计、插值等数据处理算法 (比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用Matlab作为工具) 3、线性规划、整数规划、多元规划、二次规划等规划类问题 (建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo软件实现) 4、图论算法 (这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备)

5、动态规划、回溯搜索、分治算法、分支定界等计算机算法 (这些算法是算法设计中比较常用的方法,很多场合可以用到竞赛中) 6、最优化理论的三大非经典算法:模拟退火法、神经网络、遗传算法 (这些问题是用来解决一些较困难的最优化问题的算法,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用) 7、网格算法和穷举法 (当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具) 8、一些连续离散化方法 (很多问题都是从实际来的,数据可以是连续的,而计算机只认的是离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的) 9、数值分析算法 (如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用) 10、图象处理算法 (赛题中有一类问题与图形有关,即使与图形无关,论文中也应该要不乏图片的这些图形如何展示,以及如何处理就是需要解决的问题,通常使用Matlab进行处理) 算法简介 1、灰色预测模型(必掌握) 解决预测类型题目。由于属于灰箱模型,一般比赛期间不优先使用。 满足两个条件可用: ①数据样本点个数少,6-15个 ②数据呈现指数或曲线的形式 2、微分方程预测(高大上、备用) 微分方程预测是方程类模型中最常见的一种算法。近几年比赛都有体现,但其中的要求,不言而喻。学习过程中 无法直接找到原始数据之间的关系,但可以找到原始数据变化速度之间的关系,通过公式推导转化为原始数据的关系。 3、回归分析预测(必掌握) 求一个因变量与若干自变量之间的关系,若自变量变化后,求因变量如何变化; 样本点的个数有要求: ①自变量之间协方差比较小,最好趋近于0,自变量间的相关性小; ②样本点的个数n>3k+1,k为自变量的个数;

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模__SPSS_典型相关分析

典型相关分析 在对经济问题的研究和管理研究中,不仅经常需要考察两个变量之间的相关程度,而且还经常需要考察多个变量与多个变量之间即两组变量之间的相关性。典型相关分析就是测度两组变量之间相关程度的一种多元统计方法。 典型相关分析计算步骤 (一)根据分析目的建立原始矩阵 原始数据矩阵 ?? ????????? ???nq n n np n n q p q p y y y x x x y y y x x x y y y x x x 2 1 2 1 222212221 1121111211 (二)对原始数据进行标准化变化并计算相关系数矩阵 R = ?? ? ? ??22211211 R R R R 其中11R ,22R 分别为第一组变量和第二组变量的相关系数阵,12R = 21 R '为第一组变量和第二组变量的相关系数 (三)求典型相关系数和典型变量 计算矩阵=A 111-R 12R 122-R 21R 以及矩阵=B 122-R 21R 1 11-R 12R 的特征值和特征向量,分 别得典型相关系数和典型变量。 (四)检验各典型相关系数的显著性 第五节 利用SPSS 进行典型相关分析 第一步,录入原始数据,如下表:X1 X2 X3 X4 X5 分别代表多孩率、综合节育率、初中及以上受教育程度的人口比例、人均国民收入和城镇人口比例。

1、点击“Files→New→Syntax”打开如下对话框。 2、输入调用命令程序及定义典型相关分析变量组的命令。如图

输入时要注意“Canonical correlation.sps”程序所在的根目录,注意变量组的格式和空格。 第三步,执行程序。用光标选择这些命令,使其图黑,再点击运行键,即可得到所有典型相关分析结果。

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

数学建模之因子分析法

因子分析 因子分析就是一种降维、简化数据的技术。它通过研究众多变量之间的部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。 1.因子分析法的应用 ①汽车行业业绩评价研究(下载文档), ②上市公司盈利能力及资本结构实证分析, ③生育率影响因素分析。 2.步骤 ①对原始数据进行标准化处理 用12,, ,m x x x 表示因子分析指标的m 个变量,评价对象有n 个,ij a 表示第i 个评价对象对应于第j 个指标的取值。将每个指标值ij a 转化为标准化指标ij a ,即 ,(1,2, ,;1,2, ,)ij j ij j a a i n j m s μ-= == 式中:11n j ij i a n μ==∑,21 1()1n j ij j i s a n μ==--∑ 相应地,标准化指标变量为 ,(1,2, ,)j j j j x x j m s μ-= = ②计算相关系数矩阵R ()ij m m R r ?= 1 ,(,1,2, ,)1 n ki kj k ij a a r i j m n =?= =-∑ 式中:1,ii ij ji r r r ==,ij r 是第i 个指标和第j 指标之间的相关系数。

③计算初等载荷矩阵 解特征方程0=-R I λ,得到特征值(1,2,,)i i m λ=12,0m λλλ≥≥≥≥,再 求出相对应的特征值i λ的特征向量(1,2,,)i u i m =,其中12(,,,)T j j j mj u u u u =, 得到初等载荷矩阵为 11, ,m m u λ?Λ=? ④ 确定主因子的个数()k k m ≤ 一般选取使得累计贡献率11 85%k m i i i i λλ ==≥∑∑的这k 个主因子,对k 个因子载 荷矩阵作旋转,用() 1k Λ表示1Λ的前k 列,T 表示正交矩阵,则得矩阵()21k T Λ=Λ,建立因子模型,即 1111111, . k k m m mk k x F F x F F αααα=++?? ??=++? ⑥计算因子得分,作出综合评价 求出单个因子的得分函数?j F ,用?ij F 表示第i 个样本对第j 个因子的得分估计值,Y 表示原始数据标准化后的矩阵,则总得分为 1??()ij n k k F F YR -?== Λ 例题 我国上市公司赢利能力与资本结构的实证分析已知上市公司的数据见表1 表1 上市公司数据

因子分析数学模型说课材料

因子分析数学模型

因子分析数学模型 1、因子分析看基本思想 因子分析是一种旨在寻找隐藏在多变量数据中,无法直接观察到却影响或支配可观测变量的潜在因子,并估计潜在因子对可观测变量的影响程度,以及潜在因子之间的相关性的一种多元统计分析方法。其基本思想是从分析多变量数据的相关关系入手,找到支配这种相关关系的少数几个相关独立的潜在因子,并通过建立起这些潜在因子与原变量之间的数量关系来预测潜在因子的状态,帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主成分分析都能起到清理多个原始变量内在结构关系的作用,但主成分分子重在综合原始变量信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。 因子分析法就是这些潜在因子的数学模型方法,它是在主成分的基础上构筑若干个意义较为明确的潜在因子,以它们为框架分析原变量,以考察原变量间的联系与区别。 2、因子分析的基本原理 3、因子分析的数学模型 假设对n例样品观测了p个指标,即,,…,,得到观测数据。我们的任务就是从一组观测数据出发,通过分析各指标,,…,之间的相关性,找出支配作用的潜在因子,使得这些因子可以解释各个指标之间的相关性。 因子分析模型描述如下: (1)X=(,,…,)是可观测随机变量,均值向量E(X)=0,协方差Cov(X)与相关矩阵R相等,(只要将变量标准化即可实现)。 (2)F=(,,…,)(m<=p)是不可测的向量,其均值E(F)=0,协方差矩阵Cov(F)=1,即向量的各分量是独立的。 (3)e=(,,…,)与F相互独立,且E(e)=0,e的协方差矩阵是对角矩阵,即各分量e之间是相互独立的。 则因子分析的数学模型如下:

因子分析例题

因子分析例题标准化管理部编码-[99968T-6889628-J68568-1689N]

因子分析 因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。 第一节 因子分析的基本思想 首先我们看下面两个实际例子: 例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、讨人喜 欢的能力、自信心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。 例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系有八项 指标:固定资产利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这八项指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功 夫。 因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。 因子分析分为两类,即R 型因子分析(对变量作因子分析),Q 型因子分析(对样品作因子分析)。 第二节 第二节 因子分析的数学模型 1.1. 模型(R 型) 设),,,(21p x x x X =为观察到的随机向量,),,,(21m F F F F =是不可观测的向量。 有 即 其中)',,(1p εεε =称作误差或特殊因子。 满足假设: 1)p m ≤ 2)0),cov(=εF , 3)m I F =)var(,),,()var(2 21p diag σσε =。 称i F 为第i 个公共因子,ij a 为因子载荷。 因子分析与主成分的关系: 联系:两者都可以看作逼近协方差矩阵∑。

数学建模案例分析

案例分析1: 自行车外胎的使用寿命 问题: 目前,自行车在我国是一种可缺少的交通工具。它小巧、灵活、方便、易学,而且价格适中,给广大居民带来了不小的益处。但是,自行车也有令人头痛的地方,最常见的问题莫过于扎胎了。扎胎的原因有很多,但相当一部分是由于外胎磨损,致使一些玻璃碴、小石子很容易侵入、扎破内胎。为了减少不必要的麻烦,如何估计自行车外胎的寿命,及时更换? 分析: 分析角度:由于题目里未明确指出我们是应从厂家角度,还是应从用户角度来考虑这个问题,因此需要我们自己做出合理判断。若从厂家角度,我们面对的应当是一大批自行车外胎的平均寿命的估计。这样的估计要求一定精确度和相对明确的使用环境;而从用户角度来说,面对的仅是个人的一辆车,不需要很高的精确度,这样的寿命估计更简单,易于随时了解,下面仅从用户角度进行分析。 产品的使用者需要了解产品的寿命,是基于安全性及更换的费用来考虑的。我们将这两个标准作为主要标准来分析,首先值得注意的两个关键性问题是如何定义寿命、何时为寿命的终止。寿命的定义要做到科学,直观,有可比性,在航空工业中航天飞机的使用寿命是用重复使用的次数来衡量,而工厂机器设备的寿命则以连续工作的时间来定义。本题外胎的寿命亦可用时间来表征,但由于外胎的寿命直接与其磨损速度相关;而磨损速度又与使用频率及行驶速度相互联系,致使外胎的寿命不一定与使用时间成正比(这种非正比关系使我们不能拿一辆—天跑200公里的自行车与一天只跑1公里的自行车进行寿命比较),降低了可比性。如换成自行车的路程寿命来比较,就好得多。产品寿命是在安全性和更换费用相互制约下达到的一个点,在这个点上,外胎的安全系数降到用户不可接受的最低值,更换费用(寿命越长,在一定意义上更换费用越低)也达到了最大限度的节省。 弄清了上面两个问题后,我们继续明确建立模型需要解决哪些问题及建立模型的重点难点。 自行车使用过程中,一来影响因素多,二来这些因素之间彼此相关,十分复杂,要做到比较准确地估计使用寿命,不但要对外胎的性能有相当的了解,而且对使用环境更不能忽视。当然我们由于是站在用户角度上来考虑的,相对地就可忽略一些次要的影响因素。 这样的数学模型面对着两个主要问题。一、自行车使用寿命与外胎厚度的关系,二、外胎能够抵御小石子破坏作用的最小厚度。后者可处理得相对简略些(如只考虑一块具有一般特征的小石子对外胎的破坏作用),而重点(也是难点)是第一个问题。车重、人重、轮胎性质(力学的、热学的、甚至化学的)和自行车使用频率等都左右着它们的关系。这么多相关因素,不必一一都加以考虑(用户是不会在意这么多的),有些因素,可以先不考虑,在模型的改进部分再作修改,采取逐步深入的方法,如:摩擦损耗有滑动摩擦和滚动摩擦损耗两种,由于滚动摩擦占用的时间(或路程)显然占绝对优势,因此可重点考虑。但滑动摩擦造成的一次损坏又比滚动摩擦大,在刹车使用过频的情况下,就不能不考虑了。 最后,需对得出的结果用简单清晰的文字进行说明,以供用户参考。 案例分析2:城市商业中心最优位置分析 问题: 城市商业中心是城市的基本构成要素之一。它的形成是一个复杂的定位过程。商业中心的选址涉及到各种因素制约,但其中交通条件是很重要的因素之一。即商业中心应位于城市“中心”,如果太偏离这一位置,极有可能在城市“中心”地带又形成一个商业区,造成重复建设。 某市对老商业中心进行改建规划,使居民到商业中心最方便。如果你是规划的策划者,如何建立一个数学模型来解决这个问题。

SPSS学习系列因子分析

31. 因子分析 一、基本原理 因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。 因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。 因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显着的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。 因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。 得到估计的因子模型后,还必须对得到的公因子进行解释。即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。该公因子的重要程度就是在因子模型矩阵中相应于这

个因子的系数。 由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。 每个样本都可以计算其在各个公因子上的得分,利用因子得分以及该公因子的方差贡献比例,又可以计算每个样本的综合得分。 二、因子分析实例 例1(综合评价问题)对我国30个省市经济发展的8个指标进行分析和排序。数据文件如下: x1=GDP;x2=居民消费水平;x3=固定资产投资; x4=职工平均工资;x5=货物周转量;x6=居民消费价格; x7=商品价格指数;x8=工业总产值。 1. 【分析】——【降维】——【因子分析】,打开“因子分析”窗口,将变量“x1-x8”选入【变量】框;

数学建模模型分类

模型类型: 一:关联分析类(回归分析、相关分析法、熵权法、归一化、主成分分析、聚类分析、典型相关分析、灰色关联度分析、层次分析法、判别分析法、小波分析、灵敏度分析、误差分析、残差检验、回归方程显著性检验) 二:预测类(时间序列、灰色预测、插值拟合) 三:图论模型(最短路问题、图片匹配类模型) 四:最优化类(遗传算法、神经网络、蚁群算法、线性规划、非线性规划、多目标规划、动态规划) 类别类别(2)模型名称关键点备注 参 考 书 目 复杂系统库存模型排队模型 可靠系统 差 分方程模型动力系统类 酵母菌增长模型 平衡点;平 衡点的分 类 地高辛衰减模型 战争模型 总量一定 时,对单量 的分配 竞争物种模型 不稳定平 衡:对初始 值敏感 比例性模型 钓鱼比赛模型 几何相似 性 身高、体重与灵活性模型 A 数据拟合模型最小二乘拟合 停止距离模型97 海湾收成模型 多项式拟合 磁带播放模型 高阶多项 式敏感度 很强 光滑化115 停止距离模型(2) 三阶样条 法。有自然 和强制样 条两种 134 A 预时间序列GM(1,1),指数平滑,线性平滑因果分析法

测 A 聚类分析灰色关联度分析聚类分析 因子分析 模 拟方法蒙特卡罗算法 硬币投掷模型149 汽油储存模型 逆线性样 条(可改变 随机数范 围) 155 港口系统模型 改变参数 时,改善情 况的分析 164 离 散概率模型马尔可夫链 汽车租赁模型 要结合蒙特卡 罗算法 176 投票趋势模型177 Markov决策 串联和并联系统模型178 线性规划模型 无约束类生产计划模型192取整数类载货模型194动态规划类197 多目标规划类投资问题 有时须对 目标进行 取舍。可采 取加权 系统层次分析196 冲突目标 Minmax与maxmin 机会约束 约束满足 概率性>P 矛盾约束 约束相互 矛盾 单纯形法木匠生产模型 注意步骤 性。 215组合模型 参数模型 动态规划决策法 背包问题 排序问题 多步骤形 的规划 数值搜索法工业流程优化 黄金分割 搜索法 还有二分搜索 法 233

数学建模模拟题图论回归模型聚类分析因子分析等

数学建模模拟题图论回归模型聚类分析因子分 析等 集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-

第11章第2题 摘要 本题分析4 种化肥和3 个小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,可视为两因素方差分析,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。 试验的目的是分析化肥的四个不同水平以及小麦品种的三个不同水平对小麦产量有无显着性影响。 关键词:方差分析显着性化肥种类小麦品种 一.问题重述 为了分析4 种化肥和3 个小麦品种对小麦产量的影响,把一块试验田等分成36个小块,分别对3种种子和四种化肥的每一种组合种植3 小块田,产量如表1所示(单位公斤),问不同品种、不同种类的化肥及二者的交互作用对小麦产量有无显着影响。 表1 二.问题分析 本题意在分析四种化肥和三种小麦品种对小麦产量的影响,以及二者交互作用对小麦产量的影响,为两因素方差分析问题,即化肥和小麦品种两个因素,4种化肥可看作是化肥的四个不同水平,3个小麦品种也可以看作是小麦品种的三个不同水平。通过对这两种因素的不同水平及

交互作用的分析,从而分析4 种化肥和3 个小麦品种对小麦产量的影响。 三.模型假设 1.假设只有化肥种类和小麦品种两个因素,其他因素对试验结果不构成 影响。 2.假设不存在数据记录错误。 3.假设每一块试验田本身各项指标相同,不会影响结果。 四.符号说明 数字1,2,3,4——不同的化肥种类 数字1,2,3——不同的小麦品种 五.模型建立 将化肥种类和小麦品种视为两个因素,四种化肥种类看作是化肥种类的四个不同水平,三个小麦品种看作是小麦品种的三个不同水平,将表1的数据进行整理,如表2所示。 表2

数学建模 聚类分析因子分析实例

多元统计分析中的降维方法在四川省社会福利中的应用 由于计算机的发展和日益广泛的使用,多元分析方法也很快地应用到社会学、农业、医学、经济学、地质、气象等各个领域。在国外,从自然科学到社会科学的许多方面,都已证实了多元分析方法是一种很有用的数据处理方法;在我国,多元分析对于农业、气象、国家标准和误差分析等许多方面的研究工作都取得了很大的成绩,引起了广泛的注意。在许多领域的研究中,为了全面系统地分析问题,对研究对象进行综合评价,我们常常需要考虑衡量问题的多个指标(即变量),由于变量之间可能存在着相关性,如果采用一元统计方法,把多个变量分开,一次分析一个变量,就会丢失大量的信息,研究结果也会偏差很大。因此需要采用多元统计分析的方法,同时对所有变量的观测数据进行分析。多元统计分析就是一种同时研究多个变量之间的相互关系,经过对变量的综合处理,充分提取变量之间的信息,进行综合分析和评价的统计方法。多元统计分析法主要包括降维、分类、回归及其他统计思想。 一.多元统计分析方法中降维的方法 1.概述 多元统计分析方法是同时对多个变量的观察数据做综合处理和分析。在不损失有价值信息的情况下,简化观测数据或数据结构,尽可能简单地将被研究对象描述出来,使得对复杂现象的解释变得更容易些。同时,采用多元统计分析中的聚类分析或判别分析可以对变量或样品进行分类与分组。根据所测量的特征和分类规则将一些“类似的”对象或变量分组。多元统计分析也可以研究变量间依赖性。即对变量间关系的本质进行研究。是否所有的变量都相互独立?还是一个变量或多个变量依赖于其他变量?它们又是怎样依赖的?通过观测变量数据的散点图,我们可以建立多元回归统计模型,确定出变量之间具体的依赖关系,进而可以根据某些变量的观测值预测另一个或另一些变量的值对事物现象的发展作预测。最后我们需要构造假设,并对所建立的以多元总体参数形式陈述的多种特殊统计假设进行检验。 在多元统计分析方法中数据简化或结构简化,实质上就是数学中的降维方法。多元统计分析中的降维方法主要包括聚类分析、判别分析、主成分分析、因子分析、对应分析和典型相关分析等几种方法。其中主成分分析和因子分析是在作综合评价方面应用最广泛、较为有效的方法。本文主要介绍这两种多元统计分析方法的应用。 2 主成分分析 2.1主成分分析的基本思想 在大部分实际问题中,需要考察的变量多,变量之间是有一定的相关性的,主成分分析就是以损失很少部分信息为代价,保留绝大部分信息的前提下, 将原来众多具有一定线性相关性的p个指标压缩成少数几个互不相关的综合指 标(主成分),并通过原来变量的少数几个的线性组合来给出各个主成分的具有实际背景和意义的解释。由于主成分分析浓缩了众多指标的信息,降低了指标的

相关文档
最新文档