统计学整理讲解

统计学整理讲解
统计学整理讲解

第1章

什么是统计学?

统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据的科学”。

统计滥用

——不好的样本

——过小的样本

——误导性图表

——局部描述

——故意曲解

统计应用上的两个极端

——不用或几乎不用统计

——简单问题复杂化

随机性和规律性

当我们不能预测一件事情的结果时,这件事就和随机性联系起来了。

通过对看起来随机的现象进行统计分析,统计知识能够帮助我们把随机性归纳于可能的规律性中。统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律

性的重要性。因此,统计可以看做是一项对随机性中的规律性的研究。

规律也表现出某种随机性。

在这种意义下来说,统计就成了对数据中的偏差问题的研究。根据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差异是否大到了随机性本身所不能解释

的地步。

概率

概率是一个0到1之间的数,它告诉我们某一事件发生的机会有多大。

?概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。

?我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围,但是我们可以确定,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们

可以得出关于我们所处的这个世界的重要结论。

变量(variable)

是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别是取两个值的变量,因

为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命,体重,以及汽车每升汽油

所能行驶的距离,等等。

变量的值(value)

通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表 1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。

变量,值和个体

变量变量的值个体性别男,女人

学历小学,中学,本科,

硕士,博士

失业有工作,无工作人孩子数0, 1, 2, 3,…家庭

贫困程度严重,一般,边缘,

没有

地区

?上面介绍的是经验变量,级处理的对像是我们周围可观测到的物质世界中的事物。

?用数学方法推导的变量称为理论变量——z,t,和F变量。

?与变量相对的概念是常数。在统计中经常使用的一种被称做参数的常数。

1.定量变量或数值变量

–可以用阿拉伯数据来记录其观察结果

–如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”

–定量变量的观察结果称为定量数据或数值型数据

2.分类变量

–表现为不同的类别

–如“性别”、“企业所属的行业”、“学生所在的学院”等

–分类变量的观察结果就是分类数据

3.顺序变量或有序分类变量

–具有一定顺序的类别变量

–如考试成绩按等级,一个人对事物的态度

–顺序变量的观察结果就是顺序数据或有序分类数据

分类变量和顺序变量统称为定性变量

数据的收集

数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。

观测数据

数据收集有两种主要方法,其中一种是当我们观测现实世界时收集到的数据,如在不同城市中的流动人口数量。观测数据是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。

数据的来源——观测研究

1.抽样调查(sample survey)

2.普查(census)

3.抽样的精髓:从检查一部分来得知全体。

4.抽样调查是一种很重要的观测研究,选中这些人是因为他们具有代表性局限性:time

and cost

总体和样本

?收集数据是为了从收集的个体中得出结论。

?所有我们感兴趣的个体就组成了总体。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。

?有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查(census)。我国进行的第六次全国人口普查就是希望确定我国所有居民数。

?然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本上,样本是总体的中的一个被选中的部分。

样本的选择

?我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个"好"

的样本,否则这是不可能实现的。

?由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。

概率抽样

1.根据一个已知的概率来抽取样本单位,也称随机抽样

2.特点

–按一定的概率以随机原则抽取样本

抽取样本时使每个单位都有一定的机会被抽中

–每个单位被抽中的概率是已知的,或是可以计算出来的

–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率

随机样本

指一个合适的、能够被推广应用于更大的总体的统计样本。

当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本

简单随机抽样

1.从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相

同的机会(概率)被抽中——帽子抽签法

2.抽取元素的具体方法有重复抽样和不重复抽样

可以使用随机数表或电脑产生的随机数字来实现

1.特点

–简单、直观。

–用样本统计量对目标量进行估计比较方便

2.局限性

–抽出的单位很分散,给实施调查增加了困难

–没有利用其他辅助信息以提高估计的效率

简单随机样本

1.由简单随机抽样形成的样本

2.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的

机会(概率)被抽中

3.参数估计和假设检验所依据的主要是简单随机样本

分层抽样

1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽

取样本

2.优点

–保证样本的结构与总体的结构比较相近,从而提高估计的精度

–组织实施调查方便

–既可以对总体参数进行估计,也可以对各层的目标量进行估计

系统抽样

1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位

作为初始单位,然后按事先规定好的规则确定其他样本单位

-先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位

2.优点:操作简便,可提高估计的精度

3.缺点:对估计量方差的估计比较困难

整群抽样

1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全

部实施调查

2.特点

–抽样时只需群的抽样框,可简化工作量

–调查的地点相对集中,节省调查费用,方便调查的实施

–缺点是估计的精度较差

普查

?又称“清点”。企图把整个总体纳入样本的抽样调查。

?即使有政府的强大后盾,普查也不是一定做得到的。

?但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。

方便样本:如何产生一个"坏的"样本

能够很容易、很经济地得到的样本称为方便样本

?从方便样本中得出的结果有时候很难推广到整个总体。

收集观测数据时的错误和误差

?随机抽样误差是样本统计量和总体参数之间的差距,是在选取样本时因机遇造成的。

?非抽样误差是和“从总体取样本”这个动作无关的误差。非抽样误差即使在人口普杳中也可能出现。

调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽样误差。

抽样误差:并非错误的"误差"

未响应误差

未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。

?一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。

响应误差

响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。

实验数据:寻找造成结果的原因

?实验数据是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究者试图控制某一情形的所有相关方面,操纵少数感兴趣

的变量,然后观察实验结果。

实验的特点是:实验者(调查者)存心要改变被实验者的行为。

在做实验时,我们不只是观察个体或问他们问题,而是刻意加上某些处理,以期能观察其反应。观测研究VS实验

?实验比观测研究更有优势,因为实验可以为“因果关系”提供良好的证据。

?如果我们适当的设计实验,例如使得两组对象的其他变量——年龄、教育程度等基本接近,所以两组之间只有一项系统性的差别,就是一组参加了工作培训,另外一组没有。

第2章分类数据的描述方法

数据分析的三个原则

2.2 频数表

2.3 统计图

2.4 列联表

数据分析包括三种形式:为数据画一个图,制作一个表或者计算一些我们感兴趣的东西。

?这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。

?但是数据简化有一个不足之处,就是难以从简化的形式中恢复原始数据,因此,当我们分析数据时,几乎总会丢失某些信息。

数据分析的三个原则

1、绘制一个图。图像可以帮助你看到从数据表里看不到的信息,有助于你选择分析的方法,

帮你明确思考隐藏在数据背后的模式和关系。

2、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式,有时

候可以揭示出你意想不到的事情:值得注意的(可能是错误的)数据或意想不到的模式。

3、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。

频数表

1.频数:落在各类别中的数据个数

2.比例:某一类别数据个数占全部数据个数的比值

3.百分比:将对比的基数作为100而计算的比值

4.比率:不同类别数值个数的比值

频数表或频数分布表可以帮助了解变量取值的分布状况。

频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所有

单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数表包

括两个要素:总体按其标志所分的组和各组所分布的单位数量。

统计图

?如果想获得更生动的展示,我们可以使用统计图。

?统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。

?统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。

?按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。

(1)几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。(2)象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。

例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量

(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及

规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某

种产品的生产情况。

面积原则

?在得到频数表之后,我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能随便做图,因为一个糟糕的图像反而会歪曲我们对数据的认识。

?获得最佳数据展示的一个基础原则就是面积原则,即图像一部分所占的面积应该与数据的量级对应。

条形图和柱形图

?分类数据的一个常用统计图是条形图。

?条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据(数据有明确分组,不连续)。

?条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值,在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。

?条形图分为单式和复式两种,单式适用于只有一组观察数据,复式适用于有若干组观察数据。

?条形图有很多变种。比如,纵轴和横轴可以互换,这决定条形是垂直放置(柱形图)还是水平放置。条形图还可以描述离散定量变量数据的频数、频率或概率分布。

帕累托图

帕累托图是根据“关键的少数和次要的多数”的原理而制做的。

饼图

?饼图(pie chart)又叫圆形图,是一个圆面积为100%,由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(或类别)的频率或比例,即表示了不同组成部分的相对重要性。饼图对描述定类尺度的数据特别有用。

饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。但是,有时

候我们不容易看出不同类别之间的差异。

列联表

?列联表是由两个或两个以上变量进行交叉分类得到的频数分布表。

?列联表中间的各个变量不同水平的交汇处,就是这种水平组合出现的频数或计数?构成列联表的变量都是定性变量或定序变量。一个r 行c列的列联表称为r×c列联表,一般的把2×2的二维列联表又称为交叉表。

?列联表可以有很多维。维数多的叫做高维列联表

列联表中有三种百分数,用列联表中的数据除以最后一列的数据得到行百分数。

用列联表中的数据除以最后一行的数据得到列百分数。

而用列联表中的数据除以总数得到总的百分数。

?使用列联表更感兴趣的问题是了解变量之间有没有关联。

?在列联表里还有一种情况是,如果一个变量的分布对于另一个变量的所有取值保持不变,则我们可以说这个两个变量是独立的(independent),这表明这些变量之间没有关联

第3章定量数据的描述方法

3.1.1 统计数据的分组

数据分组是统计数据处理的第一步,它是按照统计研究的目的,将数据分别列入不同的组内。

在分组时,如果按照性别、质量等级等定性指标分组,称为按品质标志分组,比如第二章频数

表就是这种情况;如果按照数量或数值等定量指标分组,称为按数量标志分组。

本章主要是按数量标志分组。将数据按其分组标志进行分组的过程,就是次数分配形成的过程。次数分配就是观测值按其分组标志分配在各组内的次数。

第1步,确定组的个数。太多或太少的组都不能揭示数据集的基本形状,确定组数的一个有用法则是“2的k次方法则”,选择使2k 大于观测值个数(n)的最小值(k)作为组的个数。在本例中,合适组数是6。

第2步,确定组距。组距是每一组最大值与最小值之差。一般地,所有各组的组距或组宽都应

该是相同的。所有组加起来必须至少覆盖从最小值到最大值的距离。确定组距的公式是,其中i是组距,Max是最大观测值,Min是最小观测值,k是组数。在实际中,组距大小通常四舍五入到某个简便的数,比如10或100的倍数。在这个案例中,将更乐于使用10元作为组距。第3步,确定各组的组限。每个观测值只归入一个组,必须避免重叠的或者不清楚的组限。由

于我们把组距四舍五入以得到简便的组距大小,所以我们覆盖了比需要的范围要大的范围。当然,我们应该选择简便的10的倍数作为组限。

第4步,把股价变化值分配到相应的组内,数出每组中的项目个数。在-10元~0元这一组中有26个观测值,在10元~20元这一组中有1个观测值。于是得到下表 3.2。

直方图(histogram)主要用以表示分组数据的频数分布特征,是分析总体数据分布特征最有用的工具之一。

在直方图中,把横轴分成若干通常是等距的区间(区间可以不等距,但是只有等距分组的直方图才能直观反映数据的分布特征,因此通常采用等距分组方法绘制直方图),然后计算数据在各个区间上的频数,并在各区间上画出高度与数据在相应区间的频数成比例的矩形

条。这样,直方图利用一系列相邻的矩形描述频数分布。

频数折线图(frequency polygon)类似于直方图,它以各组标志值的中点位置作为该组标志的

代表,然后用折线将各组次数(即每组频数)连接起来,形成了折线图。

直方图和频数折线图都便于我们对数据的主要特征(高点,低点,集中点等等)得到直观的印象。

尽管两种图形在用途上是相似的,但是直方图的优点是用矩形条描述每一组,矩形条的高度表示每组的频数或频率。然而,频数折线图也有优于直方图的地方,它使我们能直接比较

两个或多个频数分布。

茎叶图(stem-and-leaf plot)是一种可以较简练的表现数据信息的图表,类似于直方图,但包含了更多的信息。

在茎叶图中,每一个数值被分成两部分,打头的数字作为茎,尾随的数字作为叶。茎沿竖直轴线放置,叶沿水平轴线堆放。它像一片带有长短不一的叶子的茎。

茎叶图在数据量不那么大时,既显示了完全的原始数据,又显示了数据分布的形状。因此,茎

叶图非常适合描述少量数据(十几个到一百多个数据)的分布,但是,当数据量很大时,茎叶

图就显然不方便了。

线图(line chart)经常用来描述时间序列数据,用以反映某些指标或变量随时间的变化趋势,有时候也称为时间序列图(time series plot)。

时间序列图事实上只不过是一个后面将要介绍的散点图,它以度量值为纵轴,以度量值发生的时间或者次序为横轴建立。时间序列图揭示了所监控的变化量(如销售额)的趋势和变

化。

3.2.2 箱线图

3.3.1 众数

众数有一些优点。

从图表(如条形图)中很容易获得一个变量的众数。

对于分类变量,它是描述平均值的一个最好办法。

对于一个有二众数分布且中间值只有很少观测值的变量,取两个众数比取一个仅有几个观测值的中间值包含更多的信息。

另外,众数具有不受极端大值或者极端小值影响的优点。在某些情况下,众数是一个较好的代表值。比如,当要了解大多数家庭的收入状况时,我们可以用到众数。再比如,在编制

物价指数时,农贸市场上某种商品的价格常以很多摊位报价的众数值为代表。

众数也存在着一些缺陷。

一个变量的众数值只能传递这个数据集中的信息的很少一部分。因此只用众数,数据集中的信息就不能被很好地使用。

另外众数可以告诉我们,这个值出现的次数比其它的值出现的次数多,但它并未告诉我们它较别的数值多的程度。一个由100人组成的群体,无论它有51个女人(和49个男人)或者99个女人(和1个男人),其性别变量的众数都是女人。这两种情况是非常不同的,但是众数并

不能区分它们。

3.3.2 中位数

中位数的一些优点。

首先中位数只需要很少量的计算。

其次,中位数很好地代表了一组观测值的中点,特别是当直方图显示出这是一个偏斜分布时。

另外,中位数对极端值不敏感,在某些情况下这将是一种优点。中位数不易受极端值影响的性质称为稳健性(robust)。

中位数具有唯一性,一组数据只有一个中位数。

中位数还有这样一个性质,就是数据值与中位数之差的绝对值之和最小,也就是说,如果用其他任何数值(比如均值、众数等)代替中位数,其绝对值之和都大于数据值与中位数之

差绝对值的和。这个性质表明中位数与数据值的距离最短。例如,在若干个连锁店间选

择仓库或商品配送中心就可以利用这一性质,因而在工程设计中有应用价值。

定性数据也可以计算中位数。

中位数也有一些缺点:

除了中间值,中位数并未利用其它观测值。这样它就没有利用数据中的所有信息。

中位数对极端值不敏感,这在某些情况下是一种缺点。

3.3.4 众数、中位数和均值间的关系

3.4 分布的离散程度

3.4.1极差和四分位差

极差是极大值和极小值之间的差。

前面两个高三男生身高数据的极差分别为50cm和32cm。

箱线图盒子的长度为两个四分位数之差,称为四分位数极差或四分位间距。它描述了中间半数观测值的散布情况。

极差和四分位极差实际上各自只依赖于两个值,信息量太少。

3.4.2标准差和方差

另一个常用的尺度统计量为(样本)标准差。度量样本中各数值到均值距离的一种平均。

标准差实际上是方差的平方根。

均值的标准误差比观测值的标准差小,这就是说,均值的变化比变量原始观测值的变化小。

3.4.4 变异系数

标准差与平均数的比值(相对值)。

如果数据具有以下特点之一,就可以使用变异系数。

数据具有不同的单位(比如工资和矿工的天数)

数据具有相同的单位,但是均值相差甚远(比如大象和老鼠的体重)

3.6数据的标准得分

虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score、

第四章、概率

4.1 什么是概率

概率与某事件发生的机会、可能性或确定程度有关。

概率就是一个数字。介于0和1之间,描述一个事件发生的经常性。

小概率(接近零)的事件很少发生,而大概率(接近1)的事件则经常发生。

试验是导致所有可能观测中有且仅有一个出现的过程。在统计学中一个试验有两个或两个以上的结果,发生哪一个都是不确定的。

结果(outcome)是指一个试验的特定结果。例如,抛硬币是一个试验,你可以观察抛硬币,但你不知道将会出现“正面”或是“反面”,因为一个结果是“正面”,另一个是“反面”。

一个试验的结果组成的集合称之为事件。

4.5.2 正态分布

正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)。正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别。

一个正态分布用N(,) 表示;其中为均值,而为方差(标准差的平方)。也常用N(,)来表示,这里为标准差。

标准差为1的正态分布N(0, 1)称为标准正态分布

标准正态分布的密度函数用(x)表示。

任何具有正态分布N(,)的随机变量X都可以用简单的变换(减去其均值,再除以标准差):Z=(X-,而成为标准正态随机变量。这种变换和标准得分的意义类似。

4.5.3 t-分布

用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了。它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些。这种分布称为t-分布(t-distribution,

不同的样本量通过标准化所产生的t分布也不同, 这样就形成一族分布。

t分布族中的成员是以自由度来区分的。这里的自由度等于样本量减去1(如果样本量为n,刚才定义的t分布的自由度为n-1)。

由于产生t分布的方式很多,简单说自由度就是样本量减1是不准确的。自由度甚至不一定是整数。

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学计算题整理

: 典型计算题一 1、某地区销售某种商品的价格和销售量资料如下: 根据资料计算三种规格商品的平均销售价格。 解: 36== ∑∑ f f x x (元) 点评: 第一,此题给出销售单价和销售量资料,即给出了计算平均指标的分母资料,所以需采用算术平均数计算平均价格。第二,所给资料是组距数列,因此需计算出组中值。采用加权算术平均数计算平均价格。第三,此题所给的是比重权数,因此需采用以比重形式

表示的加权算术平均数公式计算。 2、某企业1992年产值计划是1991年的105%,1992年实际产值是1991的的116%,问1992年产值计划完成程度是多少? 解: %110% 105% 116=== 计划相对数实际相对数计划完成程度。即1992年计划完成程度为 110%,超额完成计划10%。 点评:此题中的计划任务和实际完成都是“含基数”百分数,所以可以直接代入基本公式计算。 3、某企业1992年单位成本计划是1991年的95%,实际单位成本是1991年的90%,问1992年单位成本计划完成程度是多少? 解: 计划完成程度 %74.94% 95% 90==计划相对数实际相对数。即92年单位成本计划完成程度是 94.74%,超额完成计划5.26%。 点评:本题是“含基数”的相对数,直接套用公式计算计划完成程度。 4、某企业1992年产值计划比91年增长5%,实际增长16%,问1992年产值计划完成程度是多少? 解: 计划完成程度%110% 51% 161=++= 点评:这是“不含基数”的相对数计算计划完成程度,应先将“不含基数”的相对数还原成“含基数”的相对数,才能进行计算。 5、某企业1992年单位成本计划比1991年降低5%,实际降低10%,问1992年单位成

统计学简答题完整版

一、统计的含义和本质是什么P2 含义:“统计”一词可以有三种含义:统计活动、统计数据和统计学。统计活动是对各种统计数据进行搜集、整理并做出相应的推断、分析的活动,通常被划分为统计调查、统计整理和统计分析三个阶段;统计数据是通过统计活动获得的、用以表现研究现象特征的各种形式的数据;统计学则是指导统计活动的理论和方法,是关于如何搜集、整理和分析统计数据的科学。 本质:统计的本质就是关于为何统计,统计什么和如何统计的思想。 二、统计数据有哪些分类不同类型数据有什么不同特点P7 1.统计数据按照所采用的计量尺度不同,可以分为定性数据与定量数据。定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类数据与定序数据两种。定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。 2.统计数据按照其表现形式不同,可以分为绝对数、相对数和平均数。绝对数是用以反映现象或事物绝对数量特征的数据,有明确的计量单位。相对数是用以反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现联系关系。平均数是用以反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。 3.统计数据按照其来源不同,可以分为观测数据与实验数据两类。观测数据是通过统计调查或观测的方式而获取的反映研究现象客观存在的数量特征的数据。实验数据是在人为控制的条件下,通过实验的方式而获得的关于实验对象的数据。 4.统计数据按照其加工程度不同,可以分为原始数据与次级数据两类。原始数据是指直接向调查对象搜集的、尚待加工整理、只反映个体特征的数据。次级数据也称为加工数据或二手数据,是指已经经过加工整理、能反映总体数量特征的各种非原始数据。 5.统计数据按照其时间或空间状态不同,可以分为时序数据与截面数据。时序数据是对同一现象在不同时间上搜集到的数据(即空间状态相同,时间状态不同)。截面数据是对一些同类现象在相同或近似相同的时间上搜集到的数据(即空间状态不同,时间状态相同)。 三、总体和样本概念以及它们之间的关系如何P14 概念:总体,就是统计研究的客观对象的全体,是由所有具有某种共同性质的事物所组成的集合体。样本,就是从总体中抽取的一部分个体所组成的集合。 关系:1.总体是所要研究的对象,而样本则是所要观测的对象,样本是总体的代表和缩影。 2.样本是用来推断总体的。对样本进行观测的目的是要对总体数量特征做出估计或判断,即通常所说的以样本推断总体。 3.总体和样本的角色是可以改变。随着考察角度的改变,一定的研究总体也可成为另一意义上总体的一个样本,这说明总体与样本的角色是可以改变的。 四、标志和指标之间的关系如何P17 区别:1.指标和标志说明的对象不同,指标说明总体的特征,标志则说明个体的特征。 2.指标和标志的表现形式不同,指标是用数值来表现的,而标志则既有只能用文字来表现的品质标志,又有用数值来表现的数量标志。 联系:1.标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合而来的。 2.由于总体与个体的确定是相对的、可以换位的,因而指标与标志的确定也是相对的、可以换位的。 五、统计数据收集方案包括哪些内容P25 数据收集目的(why)、数据及其类型(what type)、数据收集对象与观测单位(whom)、观测标

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

统计学简答题答案资料讲解

1、什么是统计学,有哪些特点? 统计学是收集、整理、分析、解释数据并从数据中得到结论的学科。 特点:客观性~~相关性~~实用性~~科学性~~严谨性~~逻辑性~~~ 2、何谓标志,按能否用数量表示可以分为哪两种类型,分别举例说明 标志是指说明总体单位属性或特征的名称。可以分为数量标志和质量标志 品质标志:说明总体单位属性特征的名称,用文字描述。Ex:性别,名族,工种,籍贯数量标志:说明总体单位数量特征的名称,用数量表示。数量标志的具体表现称标志值。 Ex:工人的年龄,工资,工龄 3、什么是离散型变量,连续性变量?举例说明 变量:可变的数量标志和指标; 离散型变量:指变量的数值只能以计数的方法取得,(变量值只能取整数); 连续型变量:指变量的取值连续不断,(变量值能取小数)。 4、简述品质标志和数量标志的区别,并举例说明。 区别:数量标志说明的是总体的数量特征,而品质标志说明的是总体的属性特征。 5、什么是数量指标和质量指标?二者有何关系? 统计指标:反映总体数量特征的科学概念和具体数值。 注意:从理论上讲,一个完整的统计指标由两部分构成:指标名称+指标数值 例如:某地区2009年完成利税总额(指标名称)为1500(指标数值)亿元。 数量指标:用来反映现象的总规模、总水平、或工作总量的指标。其数值大小随总体的研究范围的大小而增减。 质量指标:反映客观现象的劳动效果或工作质量等事物内部数量关系的指标,其数值的大小与总体的研究范围大小无直接联系。 6、统计标志和统计指标有和联系与区别? 区别:1、标志是反映总体单位特征;指标反映总体特征。 2、指标都能用数量表示,标志只有数量标志能用数量表示; 3、标志是一个理论概念,实际应用中只有指标。 联系:1、标志与指标可以相互转化,随研究目的的转化而改变; 2、指标值一般是标志值汇总来的; 3、标志的名称常常就是指标名称。 7、制定一份完整的统计调查方案,应包括哪些内容? 1)明确调查的目的和任务 2)确定调查的对象和调查单位、 3)确定带调查项目、设计调查表或问卷 4)确定调查时间、调查地点和调查方式方法 5)制定调查的组织实施计划 8、举例说明重点调查的概念和特点 重点调查:是在调查对象范围内部选择部分重点调查单位进行的调查。 特点:调查单位少、适用于调查对象的标志值比较集中于某些单位的场合、重点调查的调查方式主要采取专门调查的组织形式(一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。);有点在于花费较少的人力物力和时间就可以获得总体的基本情况资料。 9、简述重点调查、典型调查、抽样调查的联系与区别P31 抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

统计学计算题汇总

第二章 六、计算题. 1.下面是某公司工人月收入水平分组情况和各组工人数情况: 月收入(元)工人数(人) 400-500 20 500-600 30 600-700 50 700-800 10 800-900 10 指出这是什么组距数列,并计算各组的组中值和频率分布状况。 答:闭口等距组距数列,属于连续变量数列,组限重叠。各组组中值及频率分布如下: 2.抽样调查某省20户城镇居民平均每人全年可支配收入(单位:百元)如下: 88 77 66 85 74 92 67 84 77 94 58 60 74 64 75 66 78 55 70 66 ⑴根据上述资料进行分组整理并编制频数分布数列 ⑵编制向上和向下累计频数、频率数列 答:⑴⑵ 某省20户城镇居民平均每人全年可支配收入分布表

第三章 六、计算题. ⒈某企业生产情况如下: 要求:⑴填满表内空格. ⑵对比全厂两年总产值计划完成程度的好坏。 解:⑴某企业生产情况如下:单位:(万元) ⑵该企业2005年的计划完成程度相对数为110.90%,而2006年只有102.22%,所以2005年完成任务程度比2006好。 ⒉某工厂2006年计划工业总产值为1080万吨,实际完成计划的110%,2006年计划总产值比2005年增长8%,试计算2006年实际总产值为2005年的百分比? 解:118.8% 3.某种工业产品单位成本,本期计划比上期下降5%,实际下降了9%,问该种产品成本

计划执行结果? 解:95.79% 4.我国“十五”计划中规定,到“十五”计划的最后一年,钢产量规定为7200万吨,假设“八五”期最后两年钢产量情况如下:(万吨) 根据上表资料计算: ⑴钢产量“十五”计划完成程度; ⑵钢产量“十五”计划提前完成的时间是多少? 解:⑴102.08%;⑵提前三个月 5.某城市2005年末和2006年末人口数和商业网点的有关资料如下: 计算:⑴平均每个商业网点服务人数; ⑵平均每个商业职工服务人数; ⑶指出是什么相对指标。 解: 某城市商业情况 ⑶上述两个指标是强度相对指标。 6.某市电子工业公司所属三个企业的有关资料如下:

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

统计学简答题整理

统计学简答题整理 第一章P11 1.获取直接统计数据的渠道主要有哪些?及区别在于? 普查、抽样调查 普查是为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。花费的时间、人力、财力和物力都较大,间隔的时间较长。而两次普查之间的年份以抽样调查方法获得连续的统计数据。 抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法。存在着由样本推断总体产生的抽样误差,但统计方法可以估计出误差的大小进一步控制误差;节省人力、财力、物力,又能保证实效性 2.简要说明抽样误差和非抽样误差。 非抽样误差是由于调查过程中各有关环节工作失误造成的。(它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差,还有一种人为干扰造成的误差即有意瞒报或低报数据等)。非抽样误差在普查、抽样调查中都有可能发生,但可以避免。 抽样误差是利用样本推断总体时产生的误差。(由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的。但可计量、可控制)。抽样误差与样本量的平方根成反比关系。 第二章P51

1.统计的计量尺度 ①列名尺度(定类尺度):是按照某一品质标志将总体分组之后,对属性相同的单位进行计量的方法。各组之间的关系是并列的,没有大小、高低、先后之别。 ②顺序尺度(定序尺度):是按照某一品质标志将总体分组,对等级相同的单位进行计量的方法。各组之间的关系是有顺序的,可以进行排序。 ③间隔尺度(也称定距尺度):是按某一数量标志将总体分组,对相同数量或相同数量范围的单位或其标志值进行计量的方法。其特点是不仅可以进行排序,还可以计算不同数值之间的绝对差距。 ④比例尺度(也称定比尺度):是类似于间隔尺度,又高于间隔尺度的计量方法。其特点是不仅可计算数值的绝对差异,还可以计算数值的相对差异。 2.简述统计分组的概念和作用。 概念:统计分组是根据统计研究目的,选择一定的分组标志,将总体划分为若干组的统计方法。其目的是使组与组有明显差别,同一组中具有相对的同质性。(例:人口按性别、年龄、民族、职业分组;企业按规模分为大型、中型和小型。) 作用:1.划分社会经济现象的类型 2.反映总体的内部结构 3.分析现象之间的依存关系 3.简述众数、中位数和均值的特点与应用场合。 众数是总体中出现次数最多的标志值。反映了标志值分布的集中趋势,是一种由位置决定的平均数。可以没有众数也可有两个。

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

统计学整理

总体:根据研究目的所确定的同质的观察单位的全体。具体到特征指标。 样本:从总体中随机抽取有代表性的一部分。抽样:从总体中抽取样本的过程(动 样本容量:指一个样本的必要抽样单位数目 同质:同一总体内,性质相同或相似。变异:同质观察单位之间的差异。 异质:不同总体间的差异。 定性变量:按某种属性,清点每一类的个数。分类变量:变量的取值无具体意义。 有序变量或等级变量:变量的取值表示各类别之间的等级(大小)关系; 定量变量:说明数量大小,记录指标值本身,一般有度量衡单位。 离散型变量:变量的取值只能为整数;连续型:变量取值可为实数轴上任何数值 参数:描述总体特征的统计指标; 统计量:描述样本特征的统计指标。 统计工作的步骤:①设计②收集③整理④统计分析 统计描述:统计表;统计图;统计指标。 统计推断:参数估计(点估计,区间估计)、假设检验。 1、描述定量资料的统计表与统计图(统计表同下) 直方图:①在频率表的基础上,绘制频率直方图。 ②图的标题位于图的下端居中;文字等要求同频率分布表。 ③纵轴为频率(%),横轴为组段值。要在横纵轴的端点处或轴的中 部写标目和单位。 ④矩形直条的起点无须从原点开始。 ⑤横纵轴长度适中,横七直五。 2、描述定量资料集中趋势的统计指标有哪些?各自的定义、计算及适用条件; a) 算术均数。样本均数记为 ,总体均数记为 。 直接法: 间接法(加权法)——针对频率表: 适用于正态资料。 b) 几何均数 直接法: 间接法(加权法)——针对频率表: 适用于呈倍数关系的资料。即成指数关系的数据资料。 c) 中位数。将原始观察值排序后(从小到大或从大到小均可),位次居中的 那个数。 直接法 间接法(百分位数percentile 法): 普适。偏峰分布资料有极值,或分布末端缺失。 X μn X n X X X X n i i n ∑==+++=1 21Λ∑∑∑=====K i i K i i i K i i i f f X n f X X 1 1 010n n X X X G Λ21=]log [log 1n X G ∑-=]*log [log ]*log [log 11n f X f f X G ∑∑∑ --==?????+=++.),(21.,*12*2*21为偶数为奇数n X X n X M n n n )%(L x f x n f i L P -?+=

统计学简答题

1常用的统计调查方式主要有哪些? 答:⑴统计报表。是按照国家有关法规的规定,自上而下地统一布置,自下而上地逐级提供基本统计数据的一种调查方式。⑵普查。是为特定目的而专门组织的一次性全面调查。⑶抽样调查。是从研究对象的总体中随机抽取一部分个体作为样本进行调查,并根据调查结果来推断总体数量特征的一种非全面调查方法。 2分类数据、顺序数据的整理及图示方法各有哪些? 答:对于分类数据:(1)数据的整理方法有列出所分的类别,计算每一类别的频数、频率、比例、比率等。(2)图示方法有条形图和圆形图。对于顺序数据:(1)数据的整理方法中包括所有的处理分类数据的方法,同时还可以计算累积频数和累积频率(2)图示方法包括累积分布图和环形图 3数值型数据的整理及图示方法有哪些?试述组距分组的步骤。 ⑴用频数分布表(变量数列)展示数值型数据①单变量值分组②组距分组 ⑵用图示展示数值型数据①直方图②箱线图③线图④茎叶图组距分组的步骤:①确定组数②确定各组的组距③整理成频数分布表 4误差主要包括哪两类?引起误差的原因分别是什么? 答:主要包括抽样误差和非抽样误差抽样误差:是指由样本数据对总体特征进行估计时所引起的代表性误差,原因是由于每次抽取一个样本,而样本中包含的哪些单元是随机的,不同的样本由于包含的单元不同,得到的估计值自然不同,各个估计值与总体特征之间不可避免的出现差距,由此产生了抽样误差。非抽样误差:其来源比较复杂,主要有抽样框未能不重不漏包含所有抽样单元导致的抽样框误差,调查测量不准确引致的测量误差,还有无回答误差和粗大误差。 5什么是抽样平均误差?抽样平均误差、方差和偏差的关系? 抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。 6影响样本容量的主要因素有哪些? 答:(1)总体各单位标志变异程度;(2)允许误差的大小;(3)概率度的大小;(4)抽样方法不同;(5)抽样方式不同。 7什么是多重共线:多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确 8方差分析的基本原理是什么? 答:方差分析总的思想是通过计算来比较因某一特定因素带来的样本值的差异与随机偶然因素对样本值的差异的大小,从而判断该因素对总体是否有统计意义。 9简述方差分析的基本步骤? (1建立检验假设; H0:多个样本总体均值相等; H1:多个样本总体均值不相等或不全等。 检验水准为0.05。 (2计算检验统计量F值;(3确定P值并作出推断结果。 10简述方差分析和回归分析的异同? 答:方差分析主要用来研究数据分布的离散与集中,稳定与波动的情况,回归分析是通过数据的分布情况拟合出其分布规律.两者不是一回事 11简述回归方程的显著性检验与回归系数的显著性检验的区别和联系。 答:t检验常能用作检验回归方程中各个参数的显著性,而f检验则能用作检验整个回归关系的显著性。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释

统计学整理笔记

例1:某企业计划规定劳动生产率比上年提高10%,实际提高15%。试计算劳动生产率计划完成百分数。 例2:某企业计划规定某产品单位成本降低5%,实际降低7%,试计算成本计划完成指标。 答案: 答案: 答案: 起重量(吨)X台数f起重总量(吨)xf 40140 25250 10330 5420 合计10140 起重量(吨)起重机台数构成(%)(吨) 40104 25205 10303 5402 合计10014 技术级别月工资(元)工资总额(元) 1146730 21522280 31601880 41701700 5185370 合计——7960

答案: 答案: 某地区国内生产总值的资料 单位:亿元 答案: 某企业2014年第三季度职工人数:6月30日435人,7月31日452人,8月31日462人,9月30日576人,要求计算第三季度平均职工人数. 答案如右图 计划完成程度(%) 组中值(%) 企业数 实际完成数(万元) 计划任务数(万元) 90—100 95 5 95 100 100—110 105 8 840 800 110—120 115 2 115 100 合计 — 15 1050 1000 日产量 (公斤) 工人数(人)f 组中值 (公斤)x xf 20—30 10 25 250 30—40 70 35 2450 40—50 90 45 4050 50—60 30 55 1650 合计 200 — 8400 2009年 2010年 2011年 2012年 2013年 2014年 . 57733

某工厂成品仓库中某产品在2009年库存量如下: 单位:台 答案 如右图: 某厂某年一月份的产品库存变动记录资料如下: 单位:台 答案 如右图: 某企业2014年计划产值和产值计划完成程度的资料如下表,试计算该企业年产值计划平均完成程度指标。 答案 如右图 我国1985—1990年社会劳动者(年底数)人数如下表,试计算“七五”时期第三产业人数在全部社会劳动者人数中的平均比重。 单位:万 年份 1985 1986 1987 1988 1989 1990 社会劳动者人数b 49873 51282 52783 54334 55329 56740 第三产业人数a 8350 8819 9407 9949 10147 10533 第三产业人数的比重(%)c 答案: 日期 库存量 38 42 24 11 60 0 日期 1日 4日 9日 15日 19日 26日 31日 库存量 38 42 39 23 2 16 0 季度 1 2 3 4 计划产值(万元)b 860 887 875 898 计划完成(%)c 130 135 138 125

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

统计学简答题整理精编版

统计学简答题整理 GE GROUP system office room 【GEIHUA16H-GEIHUA GEIHUA8Q8-

统计学简答题整理第一章P11 1.获取直接统计数据的渠道主要有哪些及区别在于 普查、抽样调查 普查是为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。花费的时间、人力、财力和物力都较大,间隔的时间较长。而两次普查之间的年份以抽样调查方法获得连续的统计数据。 抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法。存在着由样本推断总体产生的抽样误差,但统计方法可以估计出误差的大小进一步控制误差;节省人力、财力、物力,又能保证实效性 2.简要说明抽样误差和非抽样误差。 非抽样误差是由于调查过程中各有关环节工作失误造成的。(它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差,还有一种人为干扰造成的误差即有意瞒报或低报数据等)。非抽样误差在普查、抽样调查中都有可能发生,但可以避免。

抽样误差是利用样本推断总体时产生的误差。(由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的。但可计量、可控制)。抽样误差与样本量的平方根成反比关系。 第二章P51 1.统计的计量尺度 ①列名尺度(定类尺度):是按照某一品质标志将总体分组之后,对属性相同的单位进行计量的方法。各组之间的关系是并列的,没有大小、高低、先后之别。 ②顺序尺度(定序尺度):是按照某一品质标志将总体分组,对等级相同的单位进行计量的方法。各组之间的关系是有顺序的,可以进行排序。 ③间隔尺度(也称定距尺度):是按某一数量标志将总体分组,对相同数量或相同数量范围的单位或其标志值进行计量的方法。其特点是不仅可以进行排序,还可以计算不同数值之间的绝对差距。 ④比例尺度(也称定比尺度):是类似于间隔尺度,又高于间隔尺度的计量方法。其特点是不仅可计算数值的绝对差异,还可以计算数值的相对差异。 2.简述统计分组的概念和作用。 概念:统计分组是根据统计研究目的,选择一定的分组标志,将总体划分为若干组的统计方法。其目的是使组与组有明显差别,同一组中具有相对的同质性。(例:人口按性别、年龄、民族、职业分组;企业按规模分为大型、中型和小型。)

统计学_第三章_统计整理

第三章统计整理 (一)填空题 1、统计整理是统计工作的第三阶段。在这一阶段,通过对原始资料进行科学的加工,可以得出反映事物总体特征的资料。 2、统计整理在统计分析中起着承前启后的作用,它既是统计调查的必然继续,又是统计分析的基础和前提条件。 3、统计分组实质上是在统计总体内部进行的一种定性分类。 4、对原始资料审核的重点是真实性。 5、区分现象质的差别是统计分组的根本作用。 6、标志是统计分组的依据,是划分组别的标准。 7、根据分组标志的特征不同,统计总体可以按品质分组,也可以按数量分组。 8、对所研究的总体按两个或两个以上的标志结合进行的分组,称为复合分组。 9、次数分布数列根据分组标志特征的不同,可以分为品质分布数列和数量分布数列两种。 10、变量数列是单项变量分组、组距式分组所形成的次数分布数列。 11、按品质标志分组的结果,形成品质分布数列。 12、组限是组距变量数列中表示各组数量界限的变量值,其中下限是指最小值的变量值,上限是指最大值的变量值。 13、组距变量数列的组距大小与组数的多少成反比。与全距的大小成正比。 14、组距变量数列的分布可以用次数分布曲线图表示。 15、划分连续变量的组限时,相邻组的组限必须重叠;划分离散型变量的组限时,相邻组的组限可以重叠,也可以不重叠。 16、统计资料的整理方法主要有统计分组和统计汇总两种。 17、钟形分布、U形分布和J形分布是次数分布的三种主要类型。 18、统计分组体系有品质标志分组和数量标志分组两种。 19、统计表按主词是否分组和分组的程度可分为简单表、简单分组表和复合分组表三种。 20、统计表从内容结构上看,是由主词和宾词两部分构成。 (二)单项选择题(在每小题备选答案中,选出一个正确答案) 1、统计分组的结果表现为( A ) A. 组内同质性,组间差异性 B. 组内差异性,组间同质性 C. 组内同质性,组间同质性 D. 组内差异性,组间差异性 2、统计分组的依据是( A ) A、标志 B、指标 C、标志值 D、变量值 3、下面属于按品质标志分组的有( C ) A. 企业按职工人数分组 B. 企业按工业总产值分组 C. 企业按经济类型分组 D. 企业按资金占用额分组 4、统计分组的关键在于( A ) A、正确选择分组标志 B、正确划分各组界限 C、正确确定组数和组限 D、正确选择分布数列种类 5、下面属于按数量标志分组的有( B ) A. 工人按政治面貌分组 B. 工人按年龄分组 C. 工人按工种分组 D. 工人按民族分组

统计学简答题答案

1.“统计”一词有哪些含义?什么就是统计学? (1)统计工作或统计实践活动:对现象的数量进行搜集、整理与分析的活动过程 (2)统计资料:通过统计实践活动取得的说明对象某种数量特征的数据 (3)统计学:就是关于数据的一门科学 统计学就是一门收集、整理、显示与分析统计数据的科学,其目的就是探索数据内在的数量规律性。 2.一组数据的分布特征可以从哪几个方面进行测度? 一组数据的分布特征可以从以下三个方面进行测度: 集中趋势的测度(众数、中位数、分位数、均值、几何平均数、切尾均值) 离散程度测度(极差、内距、方差与标准差、离散系数) 偏态与峰度测度(偏态及其测度、峰度及其测度) 3.分布集中趋势的测度指标有哪些? 众数、中位数、分位数、均值、几何平均数、切尾均值 4.简述众数、中位数与均值的特点与应用场合。 众数最容易计算,但不就是永远存在,它不受极端值影响、具有不惟一性、作为集中趋势代表值应用的场合较少,数据分布偏斜程度较大时应用,在编制物价指数时,农贸市场上某种商品的价格常以很多摊位报价的中数值为代表。 中位数很容易理解、很直观,它不受极端值的影响,这既就是它有价值的方面,也就是它数据信息利用不够充分的地方; 均值就是对所有数据平均后计算的一般水平代表值,数据信息提取的最充分,数据对称分布或接近对称分布时应用,它在整个统计方法中应用最广,对经济管理与工程等实际工作也就是最重要的代表值与统计量。 5.分布离散程度的测度指标有哪些? 极差、内距、方差与标准差、离散系数 6、常用的概率抽样方法有哪些?各自的含义如何? (1)简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,使得每一个总体单位都有相同的机会(概率)被抽中,这样的抽样方式称为简单随机抽样。 (2)分层抽样:在抽样之前先将总体的单位按某种特征或某种规则划分为不同的层,然后从不同的层中抽取一定数量的单位组成一个样本,这样的抽样方式称为分层抽样。 (3)系统抽样:在抽样中先将总体各单位按某种顺序排列,并按某种规则确定一个随机起点,每隔一定的间隔抽取一个单位,直至抽取n个单位形成一个样本。 (4)整群抽样:调查时先将总体划分成若干群,然后再以群作为调查单位从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查或观察。 (5)多阶段抽样:先抽取群,但并不就是调查群内的所有单位,而就是再进行一步抽样,从选中的群中抽取出若干个单位进行调查。 群就是初级抽样单位,第二阶段抽取的就是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样。 7、什么就是抽样分布? 就就是由样本n个观察值计算的统计量的概率分布。 8、什么就是匹配样本? 一个样本中的数据与另一个样本中的数据相对应,这样的样本称为匹配样本。 9、假设检验的思想以及假设检验中的两类错误就是什么? 假设检验的基本思想就是小概率反证法思想。小概率思想就是指小概率事件(P<0、01或P<0、

相关文档
最新文档