数理统计第二次大作业——聚类与判别分析

数理统计第二次大作业——聚类与判别分析
数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析

学号:姓名:

摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。

对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。

关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析

1.引言

国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。

地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。

本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。

2.地区经济发展的聚类和判别分析

分地区生产总值主要包括的内容有:

(1)第一产业: 包括农、林、牧、渔业。

(2)第二产业: 包括工业及建筑业。

(3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融

业、房地产业及其他产业。

(一)相关自变量的选择

本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市(不包括港澳台地区)。

我们选用2006和2007年度地区生产总值的数据进行分析(2006年度数据来自中国统计年鉴2007,2007年度数据来自中国统计年鉴2008,见附件)。

(二)聚类分析

首先采取系统聚类法(hierarchical cluster)进行对所有31个地区聚类分析(数据为2007年度地区生产总值):

表1 处理过程汇总

表1表示所有观测量都加入聚类判别分析,没有遗漏。

表2 聚类过程小结

聚类进度表,表中列出了观测量或类合并的详细步骤。

图1 树状谱系图

图中横向聚类表示差异的大小,从图中可以清晰的看出整个的观测量的聚类过程。

分析结果显示,青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类,它们在经济发展中处于不利地位,是经济欠发达地区。北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区,可以划归另一类。其余省份划归第三类,为经济中等发达地区。

下面基于做好的分类对结果进行判别分析,确定聚类结果的准确性。

(三)判别分析

为了鉴别聚类分析结果的准确性,我们选用2006年相同地区的数据对上述分类进行判别分析。

在这里我们选用Fisher判别法构造判别函数。

分析结果如下:

表3 案例分析过程

表3表明所有变量都进入了判别分析。

表4 变量表

用逐步分析方法选择用于构造判别函数的变量。

表5 逐步分析法变量表

表6 特征值

Eigenvalues代表用于分析的前两个典则判别函数的特征值, 是组间平方和与组内平方

和之比值。最大特征值与组均值最大的向量对应, 第二大特征值对应着次大的组均值向量。

表7标准化的典则判别式函数系数

标准化的典则判别式函数系数(使用时必须用标准化的自变量)。由图可知Fisher判别法构造的两个典则判别函数为:

Y1=1.275X1+1.824X2-1.654X3

Y2=-0.639X1-0.815X2-0.065X3

表8 结果

预测分类结果小结,可以看出初始分组的正确率。

表9 详细分类结果

从图中我们可以看出,有一个观测量被错误地分到了第1类上,这个观测量是16山东。预测结果应是第二类,但不排除是此地区2006年的发展使其经济状况改善的结果。

上图为观测量分类点图,从图中我们可以清楚地看到观测量的分类情况,可见三个类型

的中心点距离较远,区分效果较好。

3.问题的总结及研究意义

本文以SPSS 16.0为分析工具,通过地区生产总值对地区经济发展进行了聚类和判别分析,对我国各地区经济发展状况有了初步的了解。

总体来说,我国经济发展东强西弱的结果没有改变。我国东部沿海各省份的经济发展明显强于中西部地区;中部地区经济地位近年来不上不下;而位于我国西部偏远地区的青海、西藏等省份,在我国经济发展格局中明显处于不利地位。

当然,我们也应该欣喜地看到,国家西部大开发战略和中部崛起战略的实施必然会对中西部地区经济的发展起着巨大的促进作用。

总之,采用聚类和判别分析分析地区经济发展状况所得的模型符合我国当前实际情况,其结果具有统计学和现实意义,因此有比较实际的应用和研究价值。

参考文献

[1] 孙海燕, 周梦, 李卫国, 冯伟, 应用数理统计, 北京航空航天大学, 2004.9

[2] 周复恭, 黄运成, 应用线性回归分析, 中国人民大学出版社, 1989.8

[3] 中华人民共和国国家统计局, 中国统计年鉴-2008

[4] 中华人民共和国国家统计局, 中国统计年鉴-2007

[5] 倪青山, 刘小丹, SPSS 应用?实验教程, 湖南大学出版社, 2007

华中科技大学数理统计第二次作业

华中科技大学数理统计第二 次作业 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

学院:机械工程学院 1、收集到26家保险公司人员构成的数据,现希望对目前保险公司从业人员受高等教育的程度和年轻化的程度进行推断,具体来说就是推断具有高等教育水平的员工平均比例是否低于80%,35岁以下的年轻人的平均比例是否为0.5。(数据见 练习2数据.xls —练习2.1) 解:希望通过分析这26家保险公司人员构成的数据,研究目前保险公司从业人员受高等教育的程度和年轻化的程度。 (1)推断高等教育水平的员工平均比例是否低于80% 设原假设:保险公司具有高等教育水平的员工比例平均值不低于0.8,即H μ=μ≥0.8 备择假设:H :μ<0.8 n=26,属于小样本,由于σ2未知,选用t 检验,检验统计量 X T = ,取α=0.05 计算的x =0.729273 ,s 2=0.039274 (1) x t n ?≤-- , 1.784t ==- 查t 检验分布表知临界值t=-1.7081 显然,t=-1.784<- t =-1.7081,因此在α=0.05 的水平上拒绝原假设,选择备择假设 结论:保险公司具有高等教育水平的员工比例平均值低于0.8 (2)推断35 岁以下的年轻人的平均比例是否为0.5 设原假设:年轻人比例的平均值与0.5 无显著性差异,即H μ=μ=0.5 备择假设H : μ≠0.5. n=26,属于小样本,由于σ2未知,选用t 检验,检验统计量 X T = ,取α=0.05 计算的x =0.713875 ,s 2=0.022705 拒绝域: /2(1)t n ?≥- , 7.097t == 查表知α=0.05 的双尾t 检验临界值t (25)=2.0595。故超出[-2.0595,2.0595]的值均在拒 绝域内 由于t=7.097不在拒绝域[-2.0595,2.0595]范围内,因此在α=0.05 的水平上拒绝原假设,选择备择假设

数理统计课后答案.doc

数理统计 一、填空题 1、设n X X X ,,21为母体X 的一个子样,如果),,(21n X X X g , 则称),,(21n X X X g 为统计量。不含任何未知参数 2、设母体 ),,(~2 N X 已知,则在求均值 的区间估计时,使用的随机变量为 n X 3、设母体X 服从修正方差为1的正态分布,根据来自母体的容量为100的子样,测得子样均值为5,则X 的数学期望的置信水平为95%的置信区间为 。 025.010 1 5u 4、假设检验的统计思想是 。 小概率事件在一次试验中不会发生 5、某产品以往废品率不高于5%,今抽取一个子样检验这批产品废品率是否高于5%, 此问题的原假设为 。 0H :05.0 p 6、某地区的年降雨量),(~2 N X ,现对其年降雨量连续进行5次观察,得数据为: (单位:mm) 587 672 701 640 650 ,则2 的矩估计值为 。 1430.8 7、设两个相互独立的子样2121,,,X X X 与51,,Y Y 分别取自正态母体)2,1(2 N 与 )1,2(N , 2 *2 2*1,S S 分别是两个子样的方差,令2*2222*121)(,S b a aS ,已知)4(~),20(~22 2221 ,则__________, b a 。 用 )1(~)1(22 2 * n S n ,1,5 b a 8、假设随机变量)(~n t X ,则 2 1 X 服从分布 。)1,(n F 9、假设随机变量),10(~t X 已知05.0)(2 X P ,则____ 。 用),1(~2 n F X 得),1(95.0n F

数理统计作业三

第一部分统计基础与概率计算(共10题,10分/题) 1.某人在每天上班途中要经过3个设有红绿灯的十字路口。设每个路口遇到红 灯的事件就是相互独立的,且红灯持续24秒而绿灯持续36秒。试求她途中遇到红灯的次数的概率分布及其期望值与方差、标准差。 解:读题可知每个路口遇到红灯的概率就是P=24/(24+36)=0、4 假设遇到红灯的次数为X,则,X~B(3,0、4),概率分布如下 0次遇到红灯的概率P0=(1-0、4)3=0、216 1次遇到红灯的概念P1=(1-0、4)2*0、4=0、432 2次遇到红灯的概念P2=(1-0、4)*0、42=0、288 3次遇到红灯的概念P3=0、43=0、064 期望:E(x)=nP=0、4*3=1、2 方差:D(X)=δ2=nPq=0、4*3*(1-0、4)=0、72 标准差: 2、一家人寿保险公司某险种的投保人数有20000人,据测算被保险人一年中的死亡率为万分之5。保险费每人50元。若一年中死亡,则保险公司赔付保险金额50000元。试求未来一年该保险公司将在该项保险中(这里不考虑保险公司的其它费用): (1)至少获利50万元的概率; (2)亏本的概率; (3)支付保险金额的均值与标准差。 解:设被保险人死亡数为X,X~B(20000,0、0005) 2.总收入为2万×50=100万,要获利至少50万,则赔付的保险金额应该不超过50万,也就就 是被保险的人当中死亡人数不能超过10人,精确点就就是用二项分布来做,但就是由于20000这个数比较大,就可以用正态近似来做,就就是认为死亡人数服从与原二项分布的均值方差相同的正态分布,结用正态函数表示。概率为P(X≤10)=0、58304

SPSS聚类分析和判别分析论文

S P S S聚类分析和判别分析 论文 Prepared on 22 November 2020

基于聚类分析的我国城镇居民消费结构实证分析摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。 关键词:消费结构;聚类分析;判别分析;政策建议; 一、引言 近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和谐增长提供决策依据。 二、消费结构的数据分析 消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需求结构,体现一国或各地区的经济发展水平和居民生活状况。 (一)数据来源 为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务八项指标,分别用来反映较高、中等、较低居民消费结构。

数理统计学作业

数理统计学作业 专业:飞行器设计 姓名:刘炜华 学号: 20130302002 2013年9月

1.数据的采集及说明 1.1数据的搜集方法及说明 当复合材料结构开始大量应用之后,在实际使用中可以积累大量的故障统计数据,航空公司在对故障数据进行收集和统计之后,可以对故障数据作故障率直方图和故障频率分布图来进行故障频率信息的统计和分析。 表 1是一架飞机在某段时间内故障间隔飞行小时,下面以该数据集为基础简单估计该架飞机在该时间段内的故障率曲线分布。 表1某飞机一段时间内故障间隔飞行小时 1.2.数据整理 1.表中共有 100 个维修数据,找出其中的最大值为max 652L =小时,最小值为 min 1L =小时; 2.计算组数: 根据经验公式:1 3.32lg k n =+, 计算得1 3.32lg 1 3.32lg1008k n =+=+≈, 所以将数据分为8组; 3.计算组距: max min 6521 828 L L t k --?= =≈; 4.根据公式计算并将所得的结果列成表2: 频率:/j j W f n =

表2故障频率分析过程计算结果 5.计算得:202.98X =,167.0697S =; 根据公式3 1 13 () 1.1035(1)n i i X X V n S =-= =-∑ 6.计算峰度: 根据公式4 1 24 () 3.4853(1)n i i X X V n S =-= =-∑ 1.3.直方图与折线图 图1-1故障频数直方图

图1-2故障频率折线图 图1-3故障频率直方图 图1-4累计频率折线图

从频率直方图即图3中可以看出,靠近左侧的数据出现较多。通过比较频率曲线和指数分布曲线可以看出,该图显示故障呈现典型的指数分布,所以说明趋势方程是指数函数。趋势线方程代表故障频数随时间的发展趋势,据此可以预测未来某一时间段内的故障数,来实现故障相关维修成本的估算。 1.4.经验分布函数 根据定义得出,总体X 的经验分布函数为: 0,1 (),1652,1,2,...,991001,652 n x k F x x k x

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

数理统计第二次作业

数理统计第二次作业 ? 1. 某百货公司连续40 天的商品销售额如下(单位:万元): 41 46 35 42 25 36 28 36 29 45 46 37 47 37 34 37 38 37 30 49 34 36 37 39 30 45 44 42 38 43 26 32 43 33 38 36 40 44 44 35 根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。(数据见练 习1 数据.xls —练习 1.1 )解:频数分布表及直方图如下:由直方图可以看出,该百货公司连续 40 天的销售额近似服从单峰对称的正态分布。 2. 为了确定灯泡的使用寿命(小时),在一批灯泡中随机抽取100 只进行测试,所 得结果如下: 700 706 716 715 728 712 719 722 685 691 709 708 691 690 684 692

705 707 718 701 708 729 694 681 695 685 706 661 735 665 668 710 693 697 674 658 698 666 696 698 706 692 691 747 699 682 698 700 710 722 694 690 736 689 696 651 673 749 708 727 688 689 683 685 702 741 698 713 676 702 701 671 718 707 683 717 733 712 683 692 693 697 664 681 721 720 677 679 695 691 713 699 725 726 704 729 703 696 717 688 (1) 利用计算机对上面的数据进行排序; (2) 以组距为10 进行等距分组,整理成频数分布表,并绘制直方图;(3) 绘制茎叶图,并与直方图作比较. 解( 1)排序如下 (2)频数分布表及频数分布直方图如下:从直方图可以看出,灯泡的使用寿命近似服从单 峰对称的正态分布。 (3)茎叶图如下 与频数分布表比较可知:当频数分布表频数分布间隔为10,且从整10 开始,则茎叶 图各茎所含叶片数与对应频数区间所含项数相等。 3. 某企业决策人考虑是否采用一种新的生产管理流程。据对同行的调查得知,采用新生产管理流程后产品优质率达95%的占四成,优质率维持在原来水平(即80%)的占六成。该企业利用新的生产管理流程进行一次试验,所生产 5 件产品全部达到优质。问该企业决策者会倾向于如何决策? 解:设A =优质率达95%, C =优质率为80%, B =试验所生产的5件全部优质。 P(A) = 0.4 , P(A ) = 0.6 , P(B|A)=0.955 , P(B|A )=0.85 ,所求概率为:P (A I B ) P(A) ?P(B I A) P(A) ?P(B II A)+P(A ) ?P(B I A ) 0.50612 0.30951 0.6115 决策者会倾向于采用新的生产管理流程。

判别分析及聚类分析

判别分析(Discriminant Analysis) 一、概述: 判别问题又称识别问题,或者归类问题。 判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。 根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。 所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。 训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。 判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。 类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢? 同一类别的个体之间距离小,不同总体的样本之间距离大。 距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距 绝对距离 马氏距离:(Manhattan distance) 设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为μ,协方差阵为∑的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为 (,)X与总体(类别)A的距离D X Y= (,) 为D X A= 明考斯基距离(Minkowski distance):明科夫斯基距离 欧几里德距离(欧氏距离) 二、Fisher两类判别 一、训练样本的测量值 A类训练样本

概率论与数理统计作业及解答

概率论与数理统计作业及解答 第一次作业 ★1. 甲? 乙? 丙三门炮各向同一目标发射一枚炮弹? 设事件A ? B ? C 分别表示甲? 乙? 丙击中目标? 则三门炮最多有一门炮击中目标如何表示. 事件E ?{事件,,A B C 最多有一个发生},则E 的表示为 ;E ABC ABC ABC ABC =+++或;AB AC BC =U U 或;AB AC BC =U U 或;AB ACBC =或().ABC ABC ABC ABC =-++ (和A B +即并A B U ,当,A B 互斥即AB φ=时?A B U 常记为A B +?) 2. 设M 件产品中含m 件次品? 计算从中任取两件至少有一件次品的概率. 221M m M C C --或1122(21)(1)m M m m M C C C m M m M M C -+--=- ★3. 从8双不同尺码鞋子中随机取6只? 计算以下事件的概率. A ?{8只鞋子均不成双}, B ?{恰有2只鞋子成双}, C ?{恰有4只鞋子成双}. ★4. 设某批产品共50件? 其中有5件次品? 现从中任取3件? 求? (1)其中无次品的概率? (2)其中恰有一件次品的概率? (1)34535014190.724.1960C C == (2)21455350990.2526.392 C C C == 5. 从1~9九个数字中? 任取3个排成一个三位数? 求? (1)所得三位数为偶数的概率? (2)所得三位数为奇数的概率? (1){P 三位数为偶数}{P =尾数为偶数4},9 =

(2){ P三位数为奇数}{ P =尾数为奇数 5 }, 9 = 或{ P三位数为奇数}1{ P =-三位数为偶数 45 }1. 99 =-= 6.某办公室10名员工编号从1到10?任选3人记录其号码?求?(1)最小号码为5的概率?(2)最大号码为5的概率? 记事件A?{最小号码为5}, B?{最大号码为5}. (1) 2 5 3 10 1 (); 12 C P A C ==(2) 2 4 3 10 1 (). 20 C P B C == 7.袋中有红、黄、白色球各一个?每次从袋中任取一球?记下颜色后放回?共取球三次? 求下列事件的概率:A={全红}?B={颜色全同}?C={颜色全不同}?D={颜色不全同}?E={无黄色球}?F={无红色且无黄色球}?G={全红或全黄}. ☆.某班n个男生m个女生(m?n?1)随机排成一列? 计算任意两女生均不相邻的概率. ☆.在[0? 1]线段上任取两点将线段截成三段? 计算三段可组成三角形的概率. 第二次作业 1. 设A? B为随机事件? P(A)?? P(B)?? (|)0.85 P B A=? 求?(1)(|) P A B? (2)() P A B ∪? (1) ()() 0.85(|),()0.850.080.068, ()10.92 P AB P AB P B A P AB P A ====?= - (2)()()()() P A B P A P B P AB =+- U0.920.930.8620.988. =+-= 2. 投两颗骰子?已知两颗骰子点数之和为7?求其中有一颗为1点的概率. 记事件A?{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}, B?{(1,6),(6,1)}.

西安交大数理统计作业(完整版)

第一章 1.1 X~N(μ,2 σ) 则X~N(μ, 2 n σ ),所以X-μ~N(0, 2 n σ ) P{X-μ <1}= P{ = 0.95 N(0,1),而(0.975) 1.96 Φ= 所以n最小要取[2 1.96x2σ]+1 1.2 (1)至800小时,没有一个元件失效 这个事件等价于P{ 123456 X X X X X X>800}的概率 由已知X服从指数分布,可求得P{ 123456 X X X X X X>800}=7.2 e-(2)至3000小时,所有六个元件都失效的概率 等价与P{ 123456 X X X X X X<3000}的概率 可求得P{ 123456 X X X X X X<3000}= 4.56 (1) e- - 1.5 2 1 () n i i X a = - ∑=2 1 [()()] n i i X X X a = -+- ∑ =22 111 ()2()()() n n n i i i i i X X X a X X X a === -+--+- ∑∑∑ 因为 1 () n i i X X = - ∑=0 所以2 1 () n i i X a = - ∑=22 11 ()() n n i i i X X X a == -+- ∑∑ =22 1 () n i nS X a = +- ∑ 所以当a=X时,2 1 () n i i X a = - ∑有最小值且等于2nS 1.6 (1)由 1 1n i i X X n= =∑

有等式的左边= 221 12n n i i i i X X n μμ==-+∑∑ 等式的右边= 22221122n n i i i i X X X nX nX nX n μμ==-++-+∑∑ = 22 2 2 211 22n n i i i i X nX nX nX X n μμ==-++-+∑∑ = 221 1 2n n i i i i X X n μμ==-+∑∑ 左边等于右边,结论得证。 (2) 等式的左边= 22 11 2n n i i i i X X X nX ==-+∑∑=221 n i i X nX =-∑ 等式的右边= 221 n i i X nX =-∑ 左边等于右边,结论得证。 1.7 (1)由11n n i i X X n ==∑ 及 22 1 1()n n i n i S X X n ==-∑ 有左边=1111111111()1111 n n n n n i i n i i i i X X X X X X n n n n ++++=====+=+++++∑∑∑ 111 ()111 n n n n n nX X X X X n n n ++= +=+-+++=右边 左边等于右边,结论得证。 (2)由 左边=12 21 11 1()1n n i n i S X X n +++==-+∑ 121111[()]11 n i n n n i X X X X n n ++==---++∑ 121111[()()]11 n i n n n i X X X X n n ++==---++∑ 12 2112 1121[()()()()]11(1) n i n i n n n n n i X X X X X X X X n n n +++==----+-+++∑

聚类分析与判别分析区别

聚类分析与判别分析区别1 2 聚类分析和判 3 别分析就是这样的分类方法 4 , 5 目前它们已经成为 6 比较标准的数据分类方法。 7 我们常说 8 “物以类聚、 9 人以群分” 10 , 11 就是聚类分 12 析和判别分析最简单、 13 14 最朴素的阐释 15 , 16 并且这一成 17 语也道明了这两种方法的区别与联系 , 18 19 都是分类 20 技术 , 21 22 但它们是分别从不同的角度来对事物分类 的 23 24 , 25 或者说 , 26 27 是两种互逆的分类方式。聚类分析与 28 判别分析都是多元统计中研究事物分类的基本方 29 法 30 , 31 但二者却存在着较大的差异。 32 一、 33 聚类分析与判别分析的基本概念 34 1 35 、 36 聚类分析 37 又称群分析、 38 点群分析。 39 根据研究对象特征对 40 研究对象进行分类的一种多元分析技术 , 41 42 把性质

相近的个体归为一类 1 2 , 3 使得同一类中的个体都具 4 有高度的同质性 5 , 6 不同类之间的个体具有高度的 异质性。 7 8 根据分类对象的不同分为样品聚类和变量聚类。9 2 、 10 11 判别分析 12 是一种进行统计判别和分组的技术手段。根 13 据一定量案例的一个分组变量和相应的其他多元14 变量的已知信息 15 , 16 确定分组与其他多元变量之间 17 的数量关系 18 , 19 建立判别函数 , 20 21 然后便可以利用这一 22 数量关系对其他未知分组类型所属的案例进行判23 别分组。 24 判 25 别 26 分 27 析 28 中 29 的 30 因 变 31 32 量 33 或 34 判 35 别 36 准 则 37 38 是 39 定 类 40 41 变 42 量 , 43 44 而自变量或预测变量基本上是定距变量。

华中科技大学数理统计第二次作业

学院:机械工程学院 1、收集到26家保险公司人员构成的数据,现希望对目前保险公司从业人员受高等教育的程度和年轻化的程度进行推断,具体来说就是推断具有高等教育水平的员工平均比例是否低于80%,35岁以下的年轻人的平均比例是否为0.5。(数据见练习2数据.xls —练习2.1) 解:希望通过分析这26家保险公司人员构成的数据,研究目前保险公司从业人员受高等教育的程度和年轻化的程度。 (1)推断高等教育水平的员工平均比例是否低于80% 设原假设:保险公司具有高等教育水平的员工比例平均值不低于0.8,即H 0: μ=μ0≥0.8 备择假设:H 1:μ<0.8 n=26,属于小样本,由于σ2 未知,选用t 检验,检验统计量 T = ,取α=0.05 计算的x =0.729273 ,s 2=0.039274 (1) t n ?≤--, 1.784t = =- 查t 检验分布表知临界值t α(26-1)=-1.7081 显然,t=-1.784<-t α(25)=-1.7081,因此在α=0.05 的水平上拒绝原假设,选择备择假设 结论:保险公司具有高等教育水平的员工比例平均值低于0.8 (2)推断35 岁以下的年轻人的平均比例是否为0.5 设原假设:年轻人比例的平均值与0.5 无显著性差异,即H 0: μ=μ0=0.5 备择假设H 1:μ≠0.5. n=26,属于小样本,由于σ2 未知,选用t 检验,检验统计量 T = ,取α=0.05 计算的x =0.713875 ,s 2=0.022705 /2(1)t n ?≥- , 7.097t = = 查表知α=0.05 的双尾t 检验临界值t α/2(25)=2.0595。故超出[-2.0595,2.0595]的值均在拒 绝域内 由于t=7.097不在拒绝域[-2.0595,2.0595]范围内,因此在α=0.05 的水平上拒绝原假设,选择备择假设 结论:保险公司35 岁以下年轻人比例平均值不等于0.5 2、练习1中保险公司的类别分为:1. 全国性公司;2. 区域性公司;3. 外资和中外合资公司。试分析公司类别1与3的人员构成中,具有高等教育水平的员工比例的均值是否存在显著性的差异。(数据见练习2数据.xls —练习2.1) 解:设原假设H 0:μ1-μ2=0,即公司类别1 与3 具有高等教育水平的员工比例均值无显著

最新数理统计大作业题目和答案--0348资料

1、设总体X 服从正态分布),(2 σμN ,其中μ已知,2 σ未知,n X X X ,,,21 为其样本, 2≥n ,则下列说法中正确的是( ) 。 (A ) ∑=-n i i X n 1 2 2 )(μσ是统计量 (B ) ∑=n i i X n 1 22 σ是统计量 (C ) ∑=--n i i X n 1 2 2 )(1μσ是统计量 (D ) ∑=n i i X n 1 2 μ 是统计量 2、设两独立随机变量)1,0(~N X ,)9(~2 χY ,则 Y X 3服从( )。 )(A )1,0(N )(B )3(t )(C )9(t )(D )9,1(F 3、设两独立随机变量)1,0(~N X ,2 ~(16)Y χ )。 )(A )1,0(N )(B (4)t )(C (16)t )(D (1,4)F 4、设n X X ,,1 是来自总体X 的样本,且μ=EX ,则下列是μ的无偏估计的是( ). ) (A ∑ -=-1 1 1 1n i i X n )(B ∑=-n i i X n 1 11 )(C ∑=n i i X n 21 )(D ∑-=111n i i X n 5、设4321,,,X X X X 是总体2 (0,)N σ的样本,2 σ未知,则下列随机变量是统计量的是 ( ). (A )3/X σ; (B ) 4 1 4 i i X =∑; (C )σ-1X ; (D ) 4 221 /i i X σ=∑ 6、设总体),(~2 σμN X ,1,,n X X L 为样本,S X ,分别为样本均值和标准差,则 下列正确的是( ). 2() ~(,)A X N μσ 2() ~(,) B n X N μσ 222 1 1 () ()~()n i i C X n μχσ=-∑ () ~()D t n 7、设总体X 服从两点分布B (1,p ),其中p 是未知参数,15,,X X ???是来自总体的简单随机样本,则下列随机变量不是统计量为( ) ( A ) . 12X X + ( B ) {}max ,15i X i ≤≤

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

西南大学数理统计作业及答案

数理统计第一次 1、设总体X 服从正态分布),(2 σμN ,其中μ已知,2 σ未知,n X X X ,,,21Λ为其样本, 2≥n ,则下列说法中正确的是( ) 。 (A ) ∑=-n i i X n 1 2 2 )(μσ是统计量 (B ) ∑=n i i X n 1 2 2 σ是统计量 (C ) ∑=--n i i X n 1 2 2 )(1 μσ是统计量 (D ) ∑=n i i X n 1 2μ 是统计量 2、设两独立随机变量)1,0(~N X ,)9(~2 χY ,则 Y X 3服从( )。 )(A )1,0(N )(B )3(t )(C )9(t )(D )9,1(F 3、设两独立随机变量)1,0(~N X ,2 ~(16)Y χ )。 )(A )1,0(N )(B (4)t )(C (16)t )(D (1,4)F 4、设n X X ,,1Λ是来自总体X 的样本,且μ=EX ,则下列是μ的无偏估计的是( ). ) (A ∑ -=-1 1 1 1n i i X n )(B ∑=-n i i X n 111)(C ∑=n i i X n 2 1)(D ∑-=1 11n i i X n 5、设4321,,,X X X X 是总体2 (0,)N σ的样本,2 σ未知,则下列随机变量是统计量的是 ( ). (A )3/X σ; (B ) 4 1 4 i i X =∑; (C )σ-1X ; (D ) 4 221 /i i X σ=∑ 6、设总体),(~2 σμN X ,1,,n X X L 为样本,S X ,分别为样本均值和标准差,则 下列正确的是( ). 2() ~(,)A X N μσ2() ~(,)B nX N μσ 222 1 1 () ()~()n i i C X n μχσ=- ∑) () ~()X D t n S μ- 7、设总体X 服从两点分布B (1,p ),其中p 是未知参数,15,,X X ???是来自总体的简单随机样本,则下列随机变量不是统计量为() ( A ).12X X +( B ){}max ,15i X i ≤≤

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析及判别分析 唐鹏钧(DY1001109) 摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。 关键词:聚类分析、判别分析、经济类型 0引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。 (2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得

数理统计作业 3

P120(25题) 在某细沙机上进行断头率测定,试验锭子总数为440个,测得各锭子的断头次数记录如下: 每锭断头数: 0 1 2 3 4 5 6 7 8 实测锭数: 263 112 38 19 3 1 1 0 3 试检验各锭子的断头数是否服从泊松分布(α=0.05)假设H0,各锭子的断头数服从泊松分布即P(x=i)=λie-λ/i!其中λ未知,而λ的极大似然估计为 故自由度数 P121(28题) 做检验

由此图形可大致认为其为母体及正态分布下面用 检验法作检验 查表可知无论 为何值,总有 故接受 即认为母体服从正态分布 2,16==k l ∑==-=16 122 069.3)(i i i i np np m χα069.3)13(2>α χ0 H )13()1216(2 2ααχχ=--2 χ

认为机器之间的差异可以忽略操作工之间的差异显著交互作用的影响显著。 α=0.05查表F0.05(1,3)=10.13 F1=F2=0.1446

概率论与数理统计作业及解答

概率论与数理统计作业及解答

概率论与数理统计作业及解答 第一次作业 ★1. 甲, 乙, 丙三门炮各向同一目标发射一枚炮弹, 设事件A , B , C 分别表示甲, 乙, 丙击中目标, 则三门炮最多有一门炮击中目标如何表示. 事件E ={事件,,A B C 最多有一个发生},则E 的表示为 ;E ABC ABC ABC ABC =+++或;AB AC BC =U U 或;AB AC BC =U U 或;AB ACBC =或().ABC ABC ABC ABC =-++ (和A B +即并A B U ,当,A B 互斥即AB φ=时,A B U 常记为A B +.) 2. 设M 件产品中含m 件次品, 计算从中任取两件至少有一件次品的概率. 22 1M m M C C --或1122 (21)(1)m M m m M C C C m M m M M C -+--=- ★3. 从8双不同尺码鞋子中随机取6只, 计算以下事件的概率. A ={8只鞋子均不成双}, B ={恰有2只鞋子成双}, C ={恰有4只鞋子成双}. 61682616()32()0.2238,143C C P A C ===1414 8726 16()80 ()0.5594,143C C C P B C === 22128626 16()30 ()0.2098.143 C C C P C C === ★4. 设某批产品共50件, 其中有5件次品, 现从中任取3件, 求: (1)其中无次品的概率; (2)其中恰有一件次品的概率. (1)34535014190.724.1960C C == (2)21455350990.2526.392 C C C == 5. 从1~9九个数字中, 任取3个排成一个三位数, 求: (1)所得三位数为偶数的概率; (2)所得三位数为奇数的概率. (1){P 三位数为偶数}{P =尾数为偶数4 },9= (2){P 三位数为奇数}{P =尾数为奇数5 },9 = 或{P 三位数为奇数}1{P =-三位数为偶数45 }1.99 =-= 6. 某办公室10名员工编号从1到10,任选3人记录其号码,求:(1)最小号码为5的概率;(2)最大号码为5的概率. 记事件A ={最小号码为5}, B ={最大号码为5}. (1) 253101();12C P A C ==(2) 2 43101 ().20 C P B C == 7. 袋中有红、黄、白色球各一个,每次从袋中任取一球,记下颜色后放回,共取球三次, 求下列事件的概率:A ={全红},B ={颜色全同},C ={颜色全不同},D ={颜色不全同},E ={无黄色球},F ={无红色且无黄色球},G ={全红或全黄}. 311(),327P A ==1()3(),9P B P A ==33333!2(),339A P C ===8 ()1(),9 P D P B =-=

相关文档
最新文档