北航数理统计聚类分析大作业

应用数理统计大作业（二）

部分省市经济类型的聚类和判别分析

学院：学号：姓名：班级：

机械工程及自动化学院

SY1007???

XXXXX

51班

2011年1月7日

摘要 (1)

符号说明 (1)

0 引言 (1)

1 源数据的提取 (1)

2 聚类分析过程 (2)

2.1 基本概念 (2)

2.2 聚类分析过程 (2)

2.3判别分析 (5)

2.4分类结果分析 (7)

3 结论 (7)

参考文献 (8)

部分省市经济类型的聚类和判别分析

摘要

一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关，本文利用统计软件SPSS，对北京市等13省市2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，得出了分类结果，分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。

关键词：经济类型，聚类分析，判别分析，SPSS

符号说明

X1 地区生产总值

X2职工人均工资

X3第一产业在国民生产总值中占的比重

X4第二产业在国民生产总值中占的比重

X5第三产业在国民生产总值中占的比重0 引言

随着中国经济迅速发展，各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关，本文利用功能强大的统计软件SPSS，对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，结果北京市和天津市属于一类，河北省、浙江省和河南省属于一类，辽宁省、安徽省、湖南省、湖北省、四川省属于一类，江苏省、山东省、广东省属于一类，这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的，具有一定的科学性。

1 源数据的提取

本文所用的数据全来自2009年出版的《中国统计年鉴》，从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

河南省、广东省、四川省和山东省总计13省2008年的五种数据。分别为：地区生产总值（亿元）X1、职工人均工资（元）X2、第一、二、三产业（X3、X4、X5）各自在国民生产总值中占的比重。

分析用到的源数据如表1所示。

表1 分析用到的源数据

地区生产总值

（亿元）

职工人均工资

（元）

第一产业第二产业第三产业

北京10488.03 56328 1.1 25.7 73.2 天津6354.38 41748 1.9 60.1 37.9 河北16188.61 24756 12.6 54.2 33.2 辽宁13461.57 27729 9.7 55.8 34.5 江苏30312.61 31667 6.9 55.0 38.1 浙江21486.92 34146 5.1 53.9 41.0 安徽8874.17 26363 16.0 46.6 37.4 湖北11330.38 22739 15.7 43.8 40.5 湖南11156.64 24870 18.0 44.2 37.8 河南18407.78 24816 14.4 56.9 28.6 广东35696.46 33110 5.5 51.6 42.9 四川12506.25 25038 18.9 46.3 34.8 山东31072.06 26404 9.7 57.0 33.4

2 聚类分析过程

2.1 基本概念

聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称，它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。本文采用的是系统聚类分析，它又称集群分析，是聚类分析中应用最广的一种方法，它根据样本的多指标（变量）、多个观察数据，定量地确定样品、指标之间存在的相似性或亲疏关系，并据此连结这些样品或指标，归成大小类群，构成分类树状图或冰柱图。

判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类，从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品，希望根据这些历史的经验（样品），总结出分类的规律性（判别函数）来指导未来的分类。

2.2 聚类分析过程

进入SPSS18.0程序，选择分析→分类→系统聚类，进行系统聚类分析

（Hierarchical Cluster Analysis），引入的变量是X1至X5。采取对样品（个案）进行聚类，即Q型聚类分析（对研究对象本身分类）。聚类方法使用类间平均链锁法，距离测量技术选择距离平方，即两观察单位间的距离为其值差的平方和，该技术用于Q型聚类，得出以下计算结果。

法为默认设置，即欧氏距离平方值。

表3显示了各地区经济类型的相近程度，越接近于1，说明相近程度越高。

表3 相似矩阵

表4所列各项的意义如下：阶-----聚类步骤号；群集组合-----在某步中合并的个案；系数-----距离或相似系数；首次出现阶群集-----新生成聚类；下一阶-----对应步骤生成的新类将在第几步与其它个案或新类合并。

图1 分析得到的树状结构图

图2 聚类分析结果

图2显示了聚类分析结果。北京市和天津市分为一类，河北省、浙江省和河南省分为一类，辽宁省、安徽省、湖南省、湖北省、四川省分为一类，江苏省、山东省、广东省分为一类。

2.3判别分析

进入SPSS18.0程序，选择分析→分类→判别，采用自变量全进入模型来进行判别分析，由于在聚类分析中将13省市的经济类型分为四类，定义分组变量的取值范围为1～4。得到以下分析结果。

示。

1234

C1= -720.87-0.001X1+0.021X2+19.11X3+8.617X4

C2= -606.806+0.005X1+0.017X2+18.654X3+7.894X4

C3= -565.325+0.003X1+0.017X2+18.385X3+7.657X4

C4= -680.994-0.009X1+0.016X2+18.963X3+7.858X4

下图显示的是所有组的散点图，显示的分类结果和聚类分析基本相同。

图3 散点图

2.4分类结果分析

北京和天津同为直辖市，经济结构相对于别的省份来说相差不大，从原始数据中可以看到北京和天津虽然在各项因素中与北京有一定的差异，但是别的省和北京比差距更大，所以把北京和天津归到一类还是比较合理的。广东、江苏和山东同为国内生产值大省，它们的经济结构几乎相同，所以把它们归为一类是十分合理的。安徽、湖南、湖北、四川同为南方农业大省，国民生产总值中，第一产业(农林牧渔)所占的比重较大，指标相似，但从原始数据也可以看到这几个省份在人均国民生产总值和职工平均工资上都与其它省份有较大差距，经济相对来说与珠三角地区有较大差距，所以把他们归为一类就理所当然了。河北、河南和浙江的地区生产总值相近，河南、河北第二产业所占比例基本相同，它们的经济也可以归为一类。从以上可以看出以上得到的聚类分析结果和我们的直观判断相同，说明采用本文的指标和聚类分析的方法来给各省的经济类型分类是正确的。

3 结论

本文通过运用数理统计的聚类分析的基本知识解决了一个实际问题，即运用聚类分析采用自定义的经济指标划分部分省市的经济类型，通过本文可知聚类分析和判别分析的结果和我们的直观判断吻合，这说明本文采用的经济指标和分析方法都是正确的。

参考文献

[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数

学系, 1999.

[2]张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出

版社，2002.

[3]国家统计局.2009年中国统计年鉴[M]. 中国统计出版社，2009.

[4]戚珉,王霏. 应用聚类分析对部分省市经济类型的分类研究[J]. 科技信息，

2006,(10):70-72.

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰一．算法设计方案： 1.矩阵A的存储与检索将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的，所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是： A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1，λ501，λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs；如果λmax>0,则λ501=λmax；如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法（mifa（）函数），令平移量p=λmax，求出对应的按摸最大的特征值λ，max，如果λmax>0,则λ1=λ，max+p；如果λmax<0,则λ501=λ，max+p。 3.求解A的与数μk=λ1+k（λ501-λ1）/40的最接近的特征值λik （k=1,2，…，39）。使用带原点平移的反幂法，令平移量p=μk，即可求出与μk最接近的特征值λik。 4.求解A的（谱范数）条件数cond（A）2和行列式d etA。 ①cond（A）2=|λ1/λn|，其中λ1和λn分别是矩阵A的模最大和最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后，detA等于U所有对角线上元素的乘积。二．源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

《数理统计》上机四聚类分析

《数理统计》课程实验报告（四）

1 实验内容聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS 、SAS 等。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。请将‘聚类分析数据.xlsx ’中四川省主要城市设施水平的数据用合适的聚类分析方法进行聚类，将四川省主要城市进行分类，并说明理由。 2 实验主要步骤（1）对数据标准化处理利用公式 (min) (max)(min) j j j ij ij x x x x x --= ' （i=1，2，…..n,j=1,2,…m ）其中(max)和(max)j j x x 分别为第j 个变量的最大和最小值。显然，10≤'≤ij x 。（2）计算距离系数阵 q m k q jk ik ij x x d 1 1?? ???? -=∑= （3）计算相似系数统计量

北航数理统计回归分析大作业

应用数理统计第一次大作业学号：姓名：班级： 2013年12月

国家财政收入的多元线性回归模型摘要本文以多元线性回归为出发点，选取我国自1990至2008年连续19年的财政收入为因变量，初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选，最终确定了能反映财政收入与各因素之间关系的“最优”回归方程： 46?578.4790.1990.733y x x =++ 从而得出了结论，最后我们用2009年的数据进行了验证，得出的结果在误差范围内，表明这个模型可以正确反映影响财政收入的各因素的情况。关键词：多元线性回归，逐步回归法，财政收入，SPSS 0符号说明变量符号财政收入 Y 工业 X 1 农业 X 2 受灾面积 X 3 建筑业 X 4 人口 X 5 商品销售额 X 6

进出口总额X7

1 引言中国作为世界第一大发展中国家，要实现中华民族的伟大复兴，必须把发展放在第一位。近年来，随着国家经济水平的飞速进步，人民生活水平日益提高，综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加，国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控，对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。国家财政收入的增长，宏观上必然与整个国家的经济有着必然的关系，但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素，我们就很有必要对其财政收入和影响财政收入的因素作必要的认识，如果能对他们之间的关系作一下回归，并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多，如人口状况、引进的外资总额，第一产业的发展情况，第二产业的发展情况，第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据，包括工业，农业，建筑业，批发和零售贸易餐饮业，人口总数等。文中主要应用逐步回归的统计方法，对数据进行分析处理，最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理本文在进行统计时，查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量，考虑一些与能源消耗关系密切并且直观上

北航2015级硕士研究生数理统计参考答案(B层)

2015－2016 学年第一学期期末试卷参考答案学号姓名成绩考试日期： 2016年1月15日考试科目：《数理统计》（B 层）一、填空题（本题共16分，每小题4分） 1．设12,,n x x x ，是来自正态总体2(0,)N σ的简单样本，则当c = 时，统计量2 21 () n k k x c x x η==-∑服从F -分布，其中1 1n k k x x n ==∑。（(1)n n -） 2. 设12,,n x x x ，是来自两点分布(1,)B p 的简单样本，其中01p <<，2n ≥，则当c = 时，统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计，其中1 1n k k x x n ==∑。（1n n -） 3．设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????，其中0θ>，12,,,n x x x 是来自总体X 简单样本，则θ的充分统计量是。（()n x ） 4．设12,,n x x x ，是来自正态总体2(,)N μσ的简单样本，已知样本均值 4.25x =， μ的置信度为0.95的双侧置信区间下限为3.1，则μ的置信度为0.95的双侧置信区间为(,)。（(3.1,5.4)）

二、（本题12分）设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。（1）求2σ的极大似然估计2σ；（2）求2σ的一致最小方差无偏估计；（3）问2σ的一致最小方差无偏估计是否为有效估计？证明你的结论。解（1）似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导，有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?，可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。（2）因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=，()1h x =，22 1()4w σσ =- ，，由于2()w σ的值域(,0)-∞有内点，由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数，又是2σ的无偏估计，由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。（3）224112 ?()((1))4Var Var x n n σ σ=-=。因为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目第一题： 1. 算法设计方案（1）1λ，501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1，然后根据λt1进行原点平移求出另一特征值λt2，比较两值大小，数值小的为所求最小特征值λ1，数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ，其中需要解线性方程组。因为A 为带状线性方程组，此处采用LU 分解法解带状方程组。（2）与140k λλμλ-5011=+k 最接近的特征值λik 。通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。（3）2cond(A)和det A 。 1）1=n λλ2cond(A)，其中1λ和n λ分别是按模最大和最小特征值。 2）利用步骤（1）中分解矩阵A 得出的LU 矩阵，L 为单位下三角阵,U 为上三角阵，其中U 矩阵的主对角线元素之积即为det A 。由于A 的元素零元素较多，为节省储存量，将A 的元素存为6×501的数组中，程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集本文选取的数据来自大智慧软件的股票基本资料分析数据，从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量，分别是每股收益（单位：元）、净资产收益率（单位：%）、每股经营现金流（单位：元）、主营业务收入同比增长率（单位：%）、净利润同比增长率（单位：%）、流通股本（单位：万股）、每股净资产（单位：元）。各变量的符号说明见表2.1，整理后的数据如表2.2。表2.1 各变量的符号说明自变量符号每股收益（单位：元）X1 净资产收益率（单位：%）X2 每股经营现金流（单位：元）X3 主营业务收入同比增长率（单位：%）X4 净利润同比增长率（单位：%）X5 流通股本（单位：万股）X6 每股净资产（单位：元）X7 表2.2 30支股票的财务指标股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理由于不同的变量之间存在着较大的数量级的差别，因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化，用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大，会导致计算个案间距离时，由于绝对值较小的数值权数较小，个案距离的大小几乎由大数值决定，标准化过程可以解决此类问题，使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数值分析报告第三次大作业

数值分析第三次大作业一、算法的设计方案：（一）、总体方案设计： x y当作已知量代入题目给定的非线性方程组，求（1）解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。（2）分片二次代数插值。通过分片二次代数插值运算，得到与数组t[11][21],u[11][21]]对应的数组z[11][21]，得到二元函数z=(,)i i f x y 。（3）曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表，再根据精度的要求选择适当k 值，并得到曲面拟合的系数矩阵C[r][s]。（4）观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面（1）和（2）的过程，得到与新的插值节点(,)i i x y 对应的(,)i i f x y ，再与对应的(,)i i p x y 比较即可，这里求解 (,)i i p x y 可以直接使用（3）中的C[r][s]和k 。（二）具体算法设计：（1）解非线性方程组牛顿法解方程组()0F x =的解* x ，可采用如下算法： 1）在* x 附近选取(0) x D ∈，给定精度水平0ε>和最大迭代次数M 。 2）对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤，则取*()k x x ≈，并停止计算；否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <，则继续，否则，输出M 次迭代不成功的信息，并停止计算。（2）分片双二次插值给定已知数表以及需要插值的节点，进行分片二次插值的算法：设已知数表中的点为： 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ，需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y ：若12h x x ≤+ 或12 n h x x ->-，插值节点对应取1i =或1i n =-，

北航数理统计聚类分析大作业

应用数理统计大作业（二）部分省市经济类型的聚类和判别分析学院：学号：姓名：班级：机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析摘要一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关，本文利用统计软件SPSS，对北京市等13省市2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，得出了分类结果，分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。关键词：经济类型，聚类分析，判别分析，SPSS 符号说明符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言随着中国经济迅速发展，各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关，本文利用功能强大的统计软件SPSS，对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值（亿元）、职工人均工资（元）、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素，进行聚类分析，结果北京市和天津市属于一类，河北省、浙江省和河南省属于一类，辽宁省、安徽省、湖南省、湖北省、四川省属于一类，江苏省、山东省、广东省属于一类，这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的，具有一定的科学性。 1 源数据的提取本文所用的数据全来自2009年出版的《中国统计年鉴》，从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数理统计期末考试题

材料学院研究生会学术部 2011年12月 2007-2008学年第一学期期末试卷一、（6分，A 班不做）设x 1，x 2，…，x n 是来自正态总体2(,)N μσ的样本，令 )x x T -= ，试证明T 服从t -分布t （2）二、（6分，B 班不做）统计量F-F(n,m)分布，证明 111(,)F F n m αααα-的（0<<1）的分位点x 是。三、（8分）设总体X 的密度函数为其中1α>-，是位置参数。x 1，x 2，…，x n 是来自总体X 的简单样本，试求参数α的矩估计和极大似然估计。四、（12分）设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ，其它，其中,0,μμσσ-∞<<+∞>已知，是未知参数。x 1，x 2，…，x n 是来自总体X 的简单样本。（1）试求参数σ的一致最小方差无偏估计σ∧ ；（2）σ∧ 是否为σ的有效估计？证明你的结论。

五、（6分，A 班不做）设x 1，x 2，…，x n 是来自正态总体211(,)N μσ的简单样本，y 1，y 2，…，y n 是来自正态总体222(,)N μσ的简单样本，且两样本相互独立，其中221122,,,μσμσ是未知参数，2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1，z 2，…，z n ，在显著性水平α下，试构造检验上述问题的t-检验统计量及相应的拒绝域。六、（6分，B 班不做）设x 1，x 2，…，x n 是来自正态总体20(,)N μσ的简单样本，0μ已知，2σ未知，试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。七、（6分）根据大作业情况，试简述你在应用线性回归分析解决实际问题时应该注意哪些方面？八、（6分）设方差分析模型为总离差平方和试求A E(S )，并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。九、（8分）某个四因素二水平试验，除考察因子A 、B 、C 、D 外，还需考察A B ?，B C ?。今选用表78(2)L ，表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航数值分析大作业第二题精解

目标：使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值，并对其中的每一个实特征值求相应的特征向量。已知：sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法：以上是程序运作的逻辑，其中具体的函数的算法，大部分都是数值分析课本上的逻辑，在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法： ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元检查知无重特征值由于=0i A I λ- ，因此在经过选主元的高斯消元以后，i A I λ- 即B 的最后一行必然为零，左上方变为n-1阶单位矩阵[]()()11I n n -?-，右上方变为n-1阶向量[]()11n Q ?-，然后令n u 1=-，则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题（每小题3分，共15分） 1，设总体X 服从正态分布(0,4)N ，而12 15(,,)X X X 是来自X 的样本，则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解：(10,5)F ． 2，?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解：??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==． 3，分布拟合检验方法有_______ 与____ ___. 解：2 χ检验、柯尔莫哥洛夫检验． 4，方差分析的目的是_______ . 解：推断各因素对试验结果影响是否显著． 5，多元线性回归模型=+Y βX ε中，β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解：1?σ-'2Cov(β) =()X X ．二、单项选择题（每小题3分，共15分） 1，设总体~(1,9)X N ，129(,, ,)X X X 是X 的样本，则___B___ . （A ） 1~(0,1)3X N -；（B ）1 ~(0,1)1X N -；（C ） 1 ~(0,1) 9X N -；（D ~(0,1)N ． 2，若总体2(,)X N μσ，其中2σ已知，当样本容量n 保持不变时，如果置信度1α-减小，则μ的置信区间____B___ . （A ）长度变大；（B ）长度变小；（C ）长度不变；（D ）前述都有可能. 3，在假设检验中，就检验结果而言，以下说法正确的是____B___ . （A ）拒绝和接受原假设的理由都是充分的；（B ）拒绝原假设的理由是充分的，接受原假设的理由是不充分的；（C ）拒绝原假设的理由是不充分的，接受原假设的理由是充分的；（D ）拒绝和接受原假设的理由都是不充分的. 4，对于单因素试验方差分析的数学模型，设T S 为总离差平方和，e S 为误差平方和，A S 为效应平方和，则总有___A___ .

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析学号：姓名：摘要：本文运用统计学方法，基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区，对更好地进行统筹规划，促进各地区经济健康协调发展有积极意义。对各地区的经济发展状况进行的聚类和判别分析结果显示，北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位，属于经济较发达地区；辽宁﹑湖南﹑河南等中部省份处于中游，属于中等发达地区；而位于我国西部的西藏﹑青海﹑宁夏等省份，经济发展较为缓慢，属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。关键词：地区生产总值，地区经济发展， SPSS，聚类分析，判别分析 1.引言国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年)，一个国家或地区的经济中所生产出的全部最终产品和劳务的价值，常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现，更可以反映一国的国力与财富。地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况，通过建立地区生产总值模型，对各地区经济发展状况进行分类，具有一定的准确性和合理性。本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析，分析和评定各地区经济发展情况，同时对各地区进行分类，确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。 (一)相关自变量的选择本文从分析各地区生产总值的主要内容出发，展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大，为了便于分析，我们将农林牧渔等第一产业部分合为一类，与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

北航数值分析大作业第二题

数值分析第二次大作业史立峰 SY1505327

一、方案（1）利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值，得到需要变换的矩阵A ；（2）然后，对矩阵A 利用Householder 矩阵进行相似变换，把A 化为上三角矩阵A (n-1)。对A 拟上三角化，得到拟上三角矩阵A (n-1)，具体算法如下：记A(1)=A ，并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零，则令A(r+1) =A(r),转5；否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。（3）使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值，也是A 的全部特征值，具体算法如下： 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(，令n m k ==,1。

北航数值分析报告大作业第八题

北京航空航天大学数值分析大作业八学院名称自动化专业方向控制工程学号学生姓名许阳教师孙玉泉日期2014 年11月26 日

一．题目关于x , y , t , u , v , w 的方程组(A.3) ???? ?? ?=-+++=-+++=-+++=-+++79 .0sin 5.074.3cos 5.007.1cos sin 5.067.2cos 5.0y w v u t x w v u t y w v u t x w v u t (A.3) 以及关于z , t , u 的二维数表（见表A-1）确定了一个二元函数z =f (x , y )。表A-1 二维数表 t z u 0 0.4 0.8 1.2 1.6 2 0 -0.5 -0.34 0.14 0.94 2.06 3.5 0.2 -0.42 -0.5 -0.26 0.3 1.18 2.38 0.4 -0.18 -0.5 -0.5 -0.18 0.46 1.42 0.6 0.22 -0.34 -0.58 -0.5 -0.1 0.62 0.8 0.78 -0.02 -0.5 -0.66 -0.5 -0.02 1.0 1.5 0.46 -0.26 -0.66 -0.74 -0.5 1. 试用数值方法求出f (x , y ) 在区域}5.15.0,8.00|), {≤≤≤≤=y x y x D （上的近似表达式 ∑∑===k i k j s r rs y x c y x p 00 ),( 要求p (x , y )以最小的k 值达到以下的精度 ∑∑==-≤-=10020 7210)],(),([i j i i i i y x p y x f σ 其中j y i x i i 05.05.0,08.0+==。 2. 计算),(),,(* ***j i j i y x p y x f (i =1,2,…,8 ; j =1,2,…,5) 的值，以观察p (x , y ) 逼近f (x , y )的效果，其中j y i x j i 2.05.0,1.0**+==。

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析学院：机械工程学院专业：材料加工工程日期：2014年12月7日

摘要：本文介绍多元线性回归分析方法以及逐步回归法，然后结合实际，以我国1995-2012年的财政收入为因变量，选取了8个可能的影响因素，选用逐步回归法对各影响因素进行了筛选分析，最终确定了其“最优”回归方程。关键字：多元线性回归逐步回归法财政收入 SPSS 1 引言自然界中任何事物都是普遍联系的，客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系，人们常用回归分析的方法，而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具，广泛应用于国民经济的各个方面，在解决实际问题中发挥了巨大的作用，是一种理论联系实践、指导实践的科学方法。财政收入，是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内（一般为一个财政年度）所取得的货币收入。财政收入是衡量一国政府财力的重要指标，政府在社会经济活动中提供公共物品和服务的范围和数量，在很大程度上决定于财政收入的充裕状况。本文将以回归分析为方法，运用数理统计工具探求财政收入与各种统计指标之间的关系，总结主要影响因素，并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介在实际问题中，某一因素的变化往往受到许多因素的影响，多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理，因此，一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下：如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关，且满足关系式： εββββ++++=m m x x x y 22110 2,0σεε==D E （2.1）其中，2210,,,σββββm 是与m x x x 21,无关的未知参数，ε是不可观测的随机变量，),0(~2N I N σε。

北航数值分析课程第一次大作业讲解

《数值分析A》计算实习题目第一题一．算法设计方案： 1.矩阵A的存储与检索将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的，所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是： A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1，λ501，λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs；如果λmax>0,则λ501=λmax；如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法（mifa（）函数），令平移量p=λmax，求出对应的按摸最大的特征值λ，max，如果λmax>0,则λ1=λ，max+p；如果λmax<0,则λ501=λ，max+p。 3.求解A的与数μk=λ1+k（λ501-λ1）/40的最接近的特征值λik （k=1,2，…，39）。使用带原点平移的反幂法，令平移量p=μk，即可求出与μk最接近的特征值λik。 4.求解A的（谱范数）条件数cond（A）2和行列式d etA。 ①cond（A）2=|λ1/λn|，其中λ1和λn分别是矩阵A的模最大和最小特征值。 ②矩阵A的行列式可先对矩阵A进行LU分解后，detA等于U所有

对角线上元素的乘积。二．源程序(VS2010环境下，C++语言) #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

北航数理统计聚类分析大作业

北航数值分析大作业一

《数理统计》上机四聚类分析

北航数理统计回归分析大作业

最新北航数理统计大作业-多元线性回归

北航2015级硕士研究生数理统计参考答案(B层)

北航数值分析大作业第一题幂法与反幂法

北航数理统计第二次大作业-数据分析模板

北航数值分析报告第三次大作业

北航数理统计聚类分析大作业

北航数理统计期末考试题

北航数值分析大作业第二题精解

北航应用数理统计考试题及参考解答

数理统计第二次大作业——聚类与判别分析

北航数值分析大作业第二题

北航数值分析报告大作业第八题

北航数理统计回归分析大作业

北航数值分析课程第一次大作业讲解