第六章 从样本统计量估计整体参数

第六章 从样本统计量估计整体参数
第六章 从样本统计量估计整体参数

第六章从样本统计量估计整体参数

学习要点

第一节点估计

第二节区间估计

第三节总体均数的估计

第四节其他总体参数的估计

本章小结

学习要点

掌握推断统计的内容和前提条件

理解统计估计的原理,掌握统计估计的方法

能够运用总体均数估计的方法解决实际问题

第一节点估计

当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值” 。

科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。

一、什么是推断统计

一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。

具有这一特征的统计量就无偏估计值。

例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。

推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,

由已知推未知的过程。

推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数σ)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的(μ,2

情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parameter

test)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。

二、统计推断的基本问题

没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。

一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。

二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个n=)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强体(即N

样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。

三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。

第二节区间估计

一、参数估计的定义

所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数

σ),根据样本(X)去估计总体的均数(μ),根据样本方差(2S)去估计总体方差(2

的相关系数(r)去估计总体相关系数(ρ)等等。

二、参数估计的方法

参数估计有点估计和区间估计两种。譬如,某学区期末时抽取所管辖的小学四年级的数学测验成绩,求得平均分70分,标准差10分,于是一个管理者认为全区四年级的数学平均分可能是70分,而另一个管理者则认为全区四年级数学平均分可能性在65~75之间。因前者是用数轴上的一点做估计,称为点估计。后者是用数轴上的一段距离做估计,称区间估计。

(一)点估计

点估计(point estimation )是在参数估计中直接以样本的统计量(数轴上的一个点)作为总体参数的估计值。譬如用样本统计量:X ,S 、r 等作为总体参数μ、σ、ρ等的估计值。但是作为良好点估计的统计量必须具备一定的前提条件。

1.无偏性

用统计量估计总体参数必然会存在一定的误差,而恰好相等的情形是极少见的。当然,无偏性并不是说没有一点误差,而是要求用各个样本的统计量作为估计值时,其偏差为0,即

()0=-∑μX

这时的统计量被称为无偏估计量(unbiased estimator )。譬如,根据中心极限定理二有

μμ=X ,即样本均数的均数是总体均数的无偏估计量,亦即我们可以用样本均数的均数作

为总体均数的点估计值。假设我们从某市四个区的六岁男童中随机抽取四个样本,对每个样本测量其身高的平均数,再求得四个样本均数的均数为110.70公分,并此值作为该市所有六岁男孩的平均身高就是一个点估计。如果,

()∑-μX 大于0或小于0,那么这时的统计

量就为有偏估计量。作为总体参数的良好估计值是应当具备无偏性的。

当样本容量足够大的时候,用样本均数或样本标准差作为总体相应参数的估计量都可视为无偏估计量。正因为如此,在大样本统计分析中,常用样本标准差(

1-n S )去代替总体标

准差(σ)。当总体分布呈正态时,中数也是总体均数μ的无偏估计量。然而由于抽样误差的普遍存在,我们不能期待一次抽样就能对总体参数作出精确的估计。加之点估计不能给出估计误差及其可靠性有关信息,因此采用点估计时应特别注意样本统计量所具有的特性。

2.一致性

总体参数的估计量随样本容量的无限增大,应当能越来越接近它所估计的总体参数。例如正态总体的总体均数为μ,标准差为σ,如果X 是从总体中随机抽取样本获得的平均数,其容量为n ,则当N →∞时,X →μ;

1-n S →σ。

这时样本统计量的均数X 就是总体参数μ

的一个估计值,或者说X 与μ是一致的。

3.有效性

当总体参数的无偏估计量不止一个统计量时,则要分析无偏估计量的变异大小的情况。无偏估计量变异性小的,有效性较高;无偏估计量变异性大的,则有效性较低。例如作为总体均数μ的估计值来说,样本均数X 、中数Mdn 和众数Mo 等都是无偏估计量。这时选谁

作为估计值最恰当则要看谁的变异性最小。在X ,Mdn 和Mo 中只有X 的变异性最小,即X 的方差最小。所以用统计量——样本均数作为总体参数μ的估计值是最佳选择。这也同时说明为什么在统计推断中不常使用中数和众数。

4.充分性

充分性是指一个容量为n 的样本统计量是否充分地反映了全部n 个数所反映的总体信息。从X ,Mdn 和Mo 的比较中我们已知,只有在求均数X 时n 个数据全部参与计算,它充分地反映所有数据所要反映的总体信息,而在计算Mdn 和Mo 时只有部分数据参与计算,是用部分数据反映的总体信息。因此平均数的充分性最高,中数和众数的充分性较低。同理,在差异量数中方差2

S 和标准差S 要比平均差AD 、四分位差Q 更具有充分性。

一个好的点估计应当具备以上四个条件。但是无论如何,抽样误差总是存在,加上点估计不能提供正确估计的概率,所以应用时受到局限。例如,我们只能大体上知道样本容量比较大时,多数的X 靠近μ,但是样本容量究竟大到什么程度,“多数”、“靠近”到什么程度,“多数”到底是多少等等都是很模糊的。点估计的这些不足以及缺陷可以用区间估计的方法来弥补。

第三节 总体均数的估计

一、均数估计的标准误

均数估计就是用样本均数去估计总体均数。在用样本均数(X )对总体均数(μ)进行区间估计时,样本均数的标准误(X SE )是衡量抽样误差大小的重要指标,而样本均数的抽样分布则是进行这种估计的理论依据。

(一)标准误的定义式——2

σ已知 当总体σ2已知时,根据中心极限定理三有

()n

SE X X σ

σ=

()

n

n X ∑-=2

μ

因为标准误与总体标准差成正比,与样本容量的平方根成反比,所以总体标准差越小,标准误越小;样本容量越大,标准误也越小。

对于一个指定的总体来说,其总体标准差σ是一个确定的数。因此,在实际工作中,增大样本容量可以减小均数的标准误,这是提高估计精度的重要手段。对于总体均数μ进行估计时,如果σ已知,那么只需从总体中抽取一个容量为n 的随机样本,就可以求出X SE 而对其区间作出估计,其区间估计公式为

X X σμ96.1±= X X σμ58.2±=

(二)标准误的近似式——2

σ未知

在实际工作中,总体方差及总体标准差往往是未知的。这时我们只能根据样本的标准差

去估计总体的标准差。用样本标准差去估计总体标准差时必须考虑其无偏估计量的问题。 数理统计学已证明样本标准差n S 不是总体标准差σ的无偏估计量。因此,以n S 作为σ的点估计是不恰当的。但是样本的无偏标准差1-n S 却是总体标准差σ的无偏估计量,即统计量1-n S 抽样分布的平均数恰好等于σ。因此,这里的样本无偏标准差定义为

()

n

X X S n ∑-=

-2

1

()n

n X X

∑∑-=

2

2

由于1-n S 是σ的无偏估计量,且当n 一定时,1-n S 抽样分布的标准误小于X SE ,所以当n 足够大且一定时,σ≈-1n S 的近似程度高于μ≈X 。于是,有了样本平均数标准误的近似公式

n S SE n X 1-=

()

()

1

12

2

--=

--=

∑∑n n X X n

n X X

1-=

n S SE X

当总体σ未知时,即可采用这一公式计算均数的标准误。

二、总体均数的估计方法

总体均数的估计方法大致有三种,一种以正态分布理论为依据的估计法,称正态估计法。一种是以t 分布理论为依据的估计方法,称t 分布估计法。三是以渐近正态分布为依据的估计方法,称近似正态估计法。三种方法适用于不同的资料形式。

(一)正态估计法

正态估计法适用于总体方差σ2已知的数据资料。其具体应用情形有二,一是总体呈正态时,不论样本容量的大小,样本均数的分布都呈正态分布。因为,中心极限定理一指出,总体正态时,从总体抽取的容量为n 一切可能样本的均数呈正态分布。二是总体呈非正态时,只要样本容量大于30,样本均数的分布呈近似正态分布。因为,中心极限定理一指出,当n 足够大时,无论总体分布形态如何,样本均数的分布服从或接近正态分布。

第四节 其他总体参数的估计

参数估计除总体均数的估计外,还有总体方差和标准差的估计、总体相关系数的估计和总体比例的估计等等。这种参数估计过程大致相同,主要区别在于标准误的计算不同。

一、总体方差和总体标准差的估计 (一)总体方差的估计

由于样本方差与总体方差比值的分布呈2

χ分布,所以有

()()2

2

121

χ-'--n n S n ≤2

σ≤

()()2

2

21

χn n S n '--,或

()()2

2

121

χ-

'--n n S n ≤2

σ≤

()()2

2

21

χn n S n '--

例8-5:从某校初三学生中随机抽取10份物理成绩,计算得平均分为71.2,标准差(1-n S )

为14.46。试估计物理成绩的方差在什么范围之内。 1)选择显著性水平α。假设本例选05.0=α 2)计算自由度。本例,91101=-=-=n df

3)查2

χ显著性临界值表,确定

()2

2

χ-

'n 和

()2

2

α

χn ',本例有

()()7

.22975.092

219==-

χχα

()

()0

.192025.092

2

=='χχα

n

4)代入公式,作出估计

7.246.1492?≤2

σ≤0.1946.1492

?

97.696≤2σ≤04.99,或40.26≤2σ≤95.9

5)结果解释

该校初三学生物理成绩的方差有98%的可能会落在86.86~901.20之间或标准差会落在9.32~30.02之间,超出这一范围的可能只有2%。从这一结果看,物理成绩标准差的区间较大,若增加样本容量可缩小区间差距。 (二)总体标准差的估计

标准差的估计既可以采用上述总体方差估计区间的平方根,也可以直接利用样本标准差进行估计。样本标准差抽样分布的标准差称标准差的标准误,其公式为

S SE (或S σ)

n S n 21-=

因其近似正态分布,所以总体标准差的置信区间为

S n SE S 96.11±=-σ S n SE S 58.21±=-σ

用此法对例8-5进行总体标准的估计,则有

23.347.446

.1410246

.14==

?=

S SE

79.20~13.823.396.146.14=?±=σ

二、总体相关系数的估计

由样本相关系数r 形成的分布形式较多,因此计算样本相关系数标准误的及置信限的方法也较为复杂。这里只介绍常用方法——Fisher 的Z 函数分布法。Fisher 的Z 函数分布法是通过将样本相关系数转换为r Z 值(因r Z 的样本分布近似正态分布),并以r Z 值进行估计,然后再将r Z 值还原为r 值的做法。这种既无需考虑样本容量大小,也无需顾忌总体相关系数ρ。

例8-6:某教师经研究发现,其所教班级学生(55人)的数学成绩与物理成绩的相关系数为0.66。试以95%的置信度估计全年级数学和物理的相关系数。

1)将r 转换为r Z 函数。查Fisher 函数转换表,当66.0=r 时,793.0=r Z 2)求r Z 的标准误

31-=

n SE r Z

本例,

14.021.71

3

551==

-=

r Z SE

3)求ρZ 的置信区间,即

r r Z r Z r SE Z Z SE Z Z 58.296.1±=±=ρρ

本例,067.1~519.014.096.1793.0=?±=ρZ 4)将r Z 转换为r 。仍查Fisher 函数转换表,由有 79.0~48.0=ρ

本章小结

参数估计是根据样本统计量去估计相应总体的参数的统计方法,其中最常用的是总体平均数的估计,有点估计和区间估计之分。点估计是指用数轴上的一点做估计,良好点估计的条件是无偏性、一致性、有效性和充分性。区间估计是以数轴上的一段距离做估计,其方法有正态法、t 分布法和近似正态法。

高考必考题型复习 用样本估计总体

第38练用样本估计总体 [题型分析·高考展望]用样本估计总体在高考中也是热点部分,考查形式主要是选择题、填空题或是与概率结合的综合性解答题,重点是频率分布直方图以及数字特征,属于比较简单的题目. 体验高考 1.(2015·湖南)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示:1300345668889 1411122233445556678 15012233 3 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是() A.3 B.4 C.5 D.6 答案 B 解析由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151]的运动员共有4组,故由系统抽样法知,共抽取4名.选B. 2.(2015·课标全国Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是() A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 答案 D 解析从2006年起,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确; 2007年二氧化硫排放量较2006年降低了很多,B选项正确; 虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C 选项正确;

自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误.故选D. 3.(2016·课标全国丙)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是() A.各月的平均最低气温都在0 ℃以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20 ℃的月份有5个 答案 D 解析由题意知,平均最高气温高于20 ℃的有六月,七月,八月,故选D. 4.(2016·山东)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据频率分布直方图知,这200名学生中每周的自习时间不少于22.5小时的人数是() A.56 B.60 C.120 D.140 答案 D 解析由题图知,组距为2.5,故每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7, ∴这200名学生中每周的自习时间不少于22.5小时的人数是200×0.7=140,故选D. 5.(2015·湖北)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示. (1)直方图中的a=________; (2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.

用样本估计总体教案

2.2.1用样本的频率分布估计总体分布 一、教学目标分析 1.知识与技能目标 (1)通过实例体会分布的意义和作用。 (2)在表示样本数据的过程中,学会列频率分布表,画频率分布直方图。 (3)通过实例体会频率分布直方图的特征,能准确地做出总体估计。 2、过程与方法目标: 通过对现实生活的探究,感知应用数学知识解决问题的方法,理解数形结合的数学思想和逻辑推理的数学方法。 3、情感态度与价值观目标: 通过对样本分析和总体估计的过程,感受数学对实际生活的需要,认识到数学知识源于生活并指导生活的事实,体会数学知识与现实世界的联系。 二、教学的重点和难点 重点:会列频率分布表,画频率分布直方图。 难点:能通过样本的频率分布估计总体的分布。 三、教法与学法分析 1、教法:遵循观察、探究、发现、总结式的教学模式。重点以引导学生为主,让他们能积极、主动的进行探索,获取知识。由于内容较繁琐,所以要借助多媒体辅助教学。 2、学法:根据本节知识的特点,由于学生已具备一定的基础知识,可采取研究性学习的学习方法。 四、教学过程 (一)情境引入 1.随机抽样有哪几种基本的抽样方法? 简单随机抽样、系统抽样、分层抽样. 2.随机抽样是收集数据的方法,如何通过样本数据所包含的信息,估计总体的基本特征,即 用样本估计总体,是我们需要进一步学习的内容. 3.高二某班有50名学生,在数学必修②结业考试后随机抽取10名,其考试成绩如下: 82,75,61,93,62,55,70,68,85,78. 如果要求我们根据上述抽样数据,估计该班对数学模块②的总体学习水平,就需要有相应的数学方法作为理论指导,本节课我们将学习用样本的频率分布估计总体分布. (二)新课讲解 知识探究(一):频率分布表 【问题】我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准a,用水量不超过a的部分按平价收费,超出a的部分按议价收费. 通过抽样调查,获得100位居民2007年的月均用水量如下表(单位:t): 3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2

用样本估计整体

这就是说。各个小长方形的面积等于相应各组的频率。显然。所有张方形面积之和等于1. 为了了解全部产品中优等品所占比例。可以统计出内径尺寸在区间25.325到25.475内的个体数载样本容量中所占的比例、也就是他的频率。从表中容易看出,这个频率值等于0.12+0.18+0.25+0.16+0.13=0.84,于是可以估计出所有生产的钢管中有84%的优等品、工厂可以根据质量规范。看看是否达到优等品率的要求,如果没有达到。就需要进一步分析原因。解决问题。 当然。用样本的频率分布估计总体的分布时。要使样本能够很好的反应总体的特征。必须随机抽取样本。由于抽样的随机性,可以想到(参考本届练习A第三题),如果随机抽取另外一个容量为100的样本,所形成的样本频率分布一般会与请按一个样本频率分布有所不同。但是。他们都可以近似的看做总体的分布。 从频率分布直方图可以清楚的看出数据分布的总体态势,但是从直方图本身得不出原式的数据内容。所以,把数据表示成直方图后,原有的具体数据信息就被抹掉了。 把频率分布直方图各个张方形上边的中点用线段连接起来,就得到频率分布折线图,为了方便看图。一般习惯于吧频率分布折线图化成与横轴相连。所以横轴上的左右两端点没有实际的意义。 图中各个小长方形的面积,表明了所抽取的100件产品中内径尺寸落在各个小组内的产品个数与100的比值大小。如果样本容量越大,所分组数越多。图中表示的频率分布就越接近于总体在各个小组内取值的个数与总数比值的大小。设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,他可以用仪表光滑取消Y=f (x)来描绘。这条光滑曲线就叫做总体密度曲线。总体密度曲线精确地反映了一个总体在各个区域内取值的规律。产品尺寸落在(a,b)内的百分率就是图中带斜线部分的面积,对本例来说,总体密度曲线呈中间高两边低的“钟”形分布,总体的数据大致呈对称分布,并且大部分数据都集中在靠近中间的区间内。 抽样后的样本数据汇总。号可以借助计算机来准确、快速的作出,图就是运用前面所讲到的画直方图的步骤,在工作表中对样本数据汇总得出的结果。 茎叶图: 某赛季甲乙两名篮球运动员每场比赛的得分情况如下: 甲的得分:12,15,24,25,31,31,36,36,37,39,44,49,50. 乙的得分:8,13,14,16,23,26,28,33,38,39,51. 上面的发数据可以用图来表示。他的中间部分像一棵植物的茎,两边部分像这个植物茎上生长出来的叶子。用中间的数字表示两位运动员得分的十位数,两边的数字分别表示两个人各场比赛得分个位数。例如。用3|389就表示了33,38,39这三个数据,通常把这样的图焦作茎叶图,根据上图可以对两名运动员的成绩进行比较。

样本均值的抽样分布

抽样分布 根据样本统计量去估计总体参数,必须知道样本统计量分布。 定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n 的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。 由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。 (一)样本均值的抽样分布 从单位数为N 的总体中抽取样本容量为n 的随机样本,在重复抽样的条件下 共有n N 个可能的样本,在不重复抽样条件下,共有!!()! n N N C n N n =-个可能样本。对于每一个样本,我们都可以计算出样本的均值2()x s 或或p ,因此,样本均值是一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。 [例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为: 12341234x x x x ==== 总体分布为均匀分布,如图6.1所示。 图6.1 总体均值:10 2.54X μ== = 总体方差:22() 1.25x x n σ-==∑ x

若重复抽样,n=2 则共有2416=个可能样本。具体列示如表5.1.1。 表6.1 可能的样本及其均值 每个样本被抽中的概率相同,均值为116 样本均值的抽样分布如表5.1.2和图5.1.2所示。 样本均值x 抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。 如果总体分布是非正态分布,当x 为大样本(30n ≥)时,样本均值的分布趋于服从正态分布;当x 为小样本时,其分布不是正态分布。 下面再让我们来看看样本均值x 抽样分布的特征:数学期望和方差。 设总体共有N 个元素,其均值为μ,方差为2σ,从中抽取容量为n 的样本。 E()x x X μ=== (6.1) 22 x n σσ=(重复抽样) (6.2) 22 ()1x N n n N σσ-=-(不重复抽样) (6.3) 对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于有限总体,当N 很大,而/n N 又很小,修正系数 1 N n N --会趋于1,不重复抽样也可按重复抽样来处理。 样本均值x 抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。 样本均值的均值 1.0 1.5 3.5 4.040 2.51616x μ++++====

用样本估计总体测试题

《2.2用样本估计总体(2)》测试题 、选择题 1. (2012安徽理)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图,贝U (). A.甲的成绩的平均数小于乙的成绩的平均数 B.甲的成绩的中位数等于乙 的成绩的中位数 C.甲的成绩的方差小于乙的成绩的方差 D.甲的成绩的极差小于乙的成绩 的极差 考查目的:考查统计图的识读,以及对数字特征的分析与理解能力 答案:C. —J + 5 + 6 + 7^8 工—5x316+9 二+ y- —______________ —Q x —___________ — & j 解析:「匚' - ,甲成绩的方差为:, f >3 + 32xl.— -------------- = 乙成绩的方差为* . 2. (2012江西理)样本("V '二)的平均数为」,样本-'人)的平均数为,C~),若样本(b P =,心P '-)的平均数「」:",其中 Q -C 氓—

2,贝U n,m的大小关系为().

A.;!—; B. : - W C. !八; D.不能确定 考查目的:考查平均数意义的理解和灵活应用 答案:A. 解析:由题意知,样本(“ V 宀'■■-)的平均数为 M - ffl - 咖十M m 十闰P ,又?.? £ = m 丰(1 「即,?—「:,答案应选A. 3. (2012陕西理)从甲乙两个城市分别随机抽取16台自动售货机,对其销售 额进行统计,统计数据用茎叶图表示(如图),设甲乙两组数据的平均数分别为 r -,中位数分别为J ,冷匸,则(). 甲 乙 ?65 0 1 028 75 2 i 2 C2337 E0Q 1 3 12443 3 1 4 238 A.怎甲弋冥己,叨甲 > 叫 B.怎甲丈龙己,丹3甲c 烧乙 C.怎甩〉工邑,用甲〉临己 D.忙甲〉蛊巴,廉零c 烧乙 考查目的:考查茎叶图的结构特征和作用,以及从茎叶图中提取样本数字特征的能力 答案:B. 18+22 解析:根据平均数的概念易计算出",又???「」 上 27 4-31 = ??答案应选B. MJ+JJ27 jn+z! m m +xi

用样本估计总体知识讲解

用样本估计总体 【学习目标】 1.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图. 2.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计. 3.正确理解样本数据标准差的意义和作用,学会计算数据的标准差. 4.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释. 5.会用样本的基本数字特征估计总体的基本数字特征. 【要点梳理】 要点一、频率分布的概念 频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为: 1.计算一组数据中最大值与最小值的差,即求极差 2.决定组距与组数 3.将数据分组 4.列频率分布表 5.画频率分布直方图 要点诠释: 频率分布直方图的特征: 1.从频率分布直方图可以清楚的看出数据分布的总体趋势. 2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了. 要点二、频率分布折线图、总体密度曲线 1.频率分布折线图的定义: 连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图. 2.总体密度曲线的定义: 在样本频率分布直方图中,样本容量越大,所分组数越多,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线. 要点诠释: 总体密度曲线能够精确地反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息,能够精确的反映一个总体在各个区域内取值的规律. 要点三、茎叶图 当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图. 要点诠释: 茎叶图的特征: (1)用茎叶图表示数据有两个优点:一是在统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示. (2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰. 要点四、众数、中位数与平均数 1.众数 一组数据中出现次数最多的数据叫做众数.如果变量是分类的,用众数是很有必要的.例如班委会要作出

概率论与数理统计参数估计

第六章 参数估计 在实际问题中, 当所研究的总体分布类型已知, 但分布中含有一个或多个未知参数时, 如何根据样本来估计未知参数,这就是参数估计问题. 参数估计问题分为点估计问题与区间估计问题两类. 所谓点估计就是用某一个函数值作为总体未知参数的估计值;区间估计就是对于未知参数给出一个范围,并且在一定的可靠度下使这个范围包含未知参数. 例如, 灯泡的寿命X 是一个总体, 根据实际经验知道, X 服从),(2σμN , 但对每一批灯泡而言, 参数2,σμ是未知的,要写出具体的分布函数, 就必须确定出参数. 此类问题就属于参数估计问题. 参数估计问题的一般提法: 设有一个统计总体, 总体的分布函数为),(θx F , 其中θ为未知参数(θ可以是向量). 现从该总体中随机地抽样, 得一样本 n X X X ,,,21 , 再依据该样本对参数θ作出估计, 或估计参数θ的某已知函数).(θg 第一节 点估计问题概述 内容分布图示 ★ 引言 ★ 点估计的概念 ★ 例1 ★ 评价估计量的标准 ★ 无偏性 ★ 例2 ★ 例3 ★ 有效性 ★ 例4 ★ 例5 ★ 例6 ★ 相合性 ★ 例7 ★ 例8 ★ 内容小结 ★ 课堂练习 ★ 习题6-1 ★ 返回 内容要点: 一、点估计的概念 设n X X X ,,,21 是取自总体X 的一个样本, n x x x ,,,21 是相应的一个样本值. θ是总体分布中的未知参数, 为估计未知参数θ, 需构造一个适当的统计量 ),,,,(?2 1 n X X X θ 然后用其观察值 ),,,(?21n x x x θ 来估计θ的值. 称),,,(?21n X X X θ为θ的估计量. 称),,,(?21n x x x θ为θ的估计值. 在不致混淆的情况下, 估计量与估计值统称为点估计,简称为估计, 并简记为θ?. 注: 估计量),,,(?21n X X X θ是一个随机变量, 是样本的函数,即是一个统计量, 对不同的样本值, θ的估计值θ?一般是不同的. 二、评价估计量的标准 从例1可见,参数点估计的概念相当宽松, 对同一参数,可用不同的方法来估计, 因而得到不同的估计量, 故有必要建立一些评价估计量好坏的标准. 估计量的评价一般有三条标准:

常用的统计量抽样分布总结

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12)(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21 为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σ S n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21 独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T =~)(n t 。 2. 定理: 设n X X X ,,,21 独立同分布,且~),(2σμN ,则

n S X μ -σ σ μS n X )(-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σ S n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X 为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y 为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112 -+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σ S n -~)1(12 -n χ, 2 2 2 2)1(σ S n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σS n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 2 12111) ()(n n Y X +---σ μμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ 2 12111) ()(n n Y X +---= σμμ/ )2/()1()1(212 2 2 2211-+-+-n n S n S n σ ~)2(21-+n n t 。

用样本估计总体练习题

23.4 用样本估计总体习题课 1、随机抽样的三种方法是、、 2、在简单随机抽样中,常用的两种办法是、 3、画频率分布直方图的步骤是: 4、茎叶图的两个优点是: (1) (2) 课内探究一:用样本的平均数估计总体的平均数 【例1】从一种棉花中各抽测了25根棉花的纤维长度(单位:mm),结果如下:271 273 280 285 285 287 292 294 295 301 303 303 307 308 310 314 319 323 325 325 328 331 334 337 352 计算这25根棉花的纤维的平均长度,并估计这种棉花的纤维的平均长度? 问题一:计算数据的平均数有没有较为简便的方法? 跟踪训练:上图是CBA篮球联赛中,甲乙两名运动员某赛季一些场次得分的茎叶图,则平均得分高的运动员是________. 课内探究二:用样本的标准差估计总体的标准差 【例2】在一次跳远选拔比赛中,甲、乙两名运动员各进行了10次测试,成绩如下: 甲运动员﹕5.85 5.93 6.07 5.91 5.99 6.13 5.89 6.05 6.00 6.19; 乙运动员﹕6.11 6.08 5.83 5.92 5.84 5.81 6.18 6.17 5.85 6.21;

观察上述样本数据,如果你是教练,选哪位选手去参加正式比赛?为什么? 跟踪训练: 1、甲、乙两台机床同时加工直径为100mm的零件,为了检验产品的质量,从产品中各随机抽取6件进行测量,测得数据如下(单位:mm): 甲:99,100,98,100,100,103 乙:99,100,102,99,100,100 (1)分别计算上述两组数据的平均数和方差; (2)根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求. 2、某校开展“爱我海西、爱我家乡”摄 影比赛,9位评委为参赛作品A给出的 分数如茎叶图所示.记分员在去掉一个 最高分和一个最低分后,算得平均分为 91.复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算无误,则数字x应该是________.

概率统计样本估计

§6.1点估计的几种方法 ● 参数估计问题----如何根据抽取的样本观测值12,,,n x x x 估计总体分布中的未知参数θ ● 参数点估计问题----如何选取合适的统计量1 2 ?(,,,)n X X X θ 估计未知参数θ。 称1 2?(,,,) n X X X θ 为θ的估计量,12?(,,,)n x x x θ 为θ的估计值. 引例1 设总体],0[~θU X ,现从该总体中抽取容量为10的样本,样本值为 0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6 试问应该如何估计未知参数(0)θ>? 引例2 设总体),(~2 σμN X ,现从该总体中抽取容量为10的样本,样本值为 0.5, 1.3, 0.6, 1.7, 2.2, 1.2, 0.8, 1.5, 2.0, 1.6 试问应该如何估计未知参数2 ,μσ?

1. 矩法估计 用样本矩代替总体矩,从而得到未知参数估计的方法,称为矩估计法. 例1 设总体2 ~(,)X N μσ,求未知参数2 ,μσ 的矩估计. 解 因为()E X μ=,2 )(σ =X D , 所以 )(X E =μ,)(2X D =σ。 故2 ,μσ的矩估计分别为?X μ=,2 2?S =σ。 注: 1)总体均值()E X 的矩估计是样本均值X ; 总体方差()D X 的矩估计是样本方差2 S ; 2)矩估计法直观、简便;估计总体均值和总体方差时不必知道总体的分布. 3)矩估计法需要总体的原点矩存在. 例2 设总体)(~λP X ,未知参数0>λ。

求λ的矩估计. 解因为λ λ。 E = (X E,所以) ) = (X 故λ的矩估计为X λ?。 = 注:2S也可算是λ的矩估计。

用样本估计总体

《§6.2用样本估计总体》学案 一、学习要求: 1、掌握数据整理及其相关图表的制作方法 2、会求样本的平均值和标准差 3、能通过样本的分布和特征值来估计总体的分布和特征值 4、通过具体的实际问题,感受用样本估计总体分布规律的思想 二、学习重点、难点: 重点:数据整理及其相关图表的制作;样本特征值的计算;对总体分布和特征值的估计。 难点:频数频率分布图表和累计频率分布折线图的作用和分析;如何用样本的分布和特征值来估计总体。 三、学时安排:共4学时 第一学时:学习频率分布表,感受如何用样本频率分布表去估计总体分布,亲自体验制作频数频率分布表的过程。 第二学时:学习频率分布直方图,强化制作频率分布直方图的可操作性。 第三学时:学习平均数、方差和标准差的计算,熟悉并会用计算公式。 第四学时:建立用样本的分布估计总体的特征性质的思想,并小结本节内容四、学习过程: 第一学时 (一)课前尝试 1、学法指导: (1)回顾初中已经学过的频数分布表 (2)自学课本上P.8~10介绍的频数频率分布表。 2、尝试练习: 从某校高一年级的1002名新生中用系统抽样的方法抽取一个容量 为100的身高样本,数据如下(单位:cm),试作出该样本频率分布表。 168 165 171 167 170 165 170 152 175 174 165 170 168 169 171 166 164 155 164 158 170 155 166 158 155 160 160 164 156 162

160 170 168 164 174 171 165 179 163 172 180 174 173 159 163 172 167 160 164 169 151 168 158 168 176 155 165 165 169 162 177 158 175 165 169 151 163 166 163 167 178 165 158 170 169 159 155 163 153 155 167 163 164 158 168 167 161 162 167 168 161 165 174 156 167 166 162 161 164 166 (二)课堂探究: 1、探究问题:频数频率分布表能较好地反映总体分布情况,在实际中应用很广,因此,如何来制作频数频率分布表呢? 2、知识链接:对总体分布的估计 (1)频数频率分布表 (2)频数频率分布表的制作 3、拓展练习:课本上P.9例1 一般地,编制频率分布表的步骤如下: (1)求全距,决定组数和组距,组距组数 全距 ; (2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; (3)登记频数,计算频率,列出频率分布表。 4、当堂训练: 下面是某职业学校学生随机抽样的40名学生在一个月内的零花钱数据(单

概率统计导引课件7-5大样本两点参数估计

第五节大样本区间估计 一、两点分布大样本区间估计 二、例题选讲

一、两点分布大样本区间估计 置信区间是 的 的置信度为 则 为未知参数 其中 的分布律为 的总体 分布 它来自 的大样本 设有一容量 α -= - = - > - 1 , ,1,0 , ) 1( ) ; ( , )1 0( , 50 1 p p x p p p x f X X n x x , 2 4 , 2 42 2 ? ? ? ? ? ?- + - - - - a ac b b a ac b b , 2 2/ α z n a+ = 其中), 2(2 2/ α z X n b+ - =.2 X n c=

推导过程如下: 因为(0–1)分布的均值和方差分别为 ), 1(,2 p p p -==σμ , ,,, 21是一个样本设n X X X 因为容量n 较大, 由中心极限定理知 ) 1()1(1 p np np X n p np np X n i i --=--∑= , )1,0( 分布近似地服从N , 1)1(2/2/ααα-≈? ?????<--<-z p np np X n z P

2/ 2/) 1(α α z p np np X n z< - - < - 不等式 ,0 ) 2( ) (2 2 2/ 2 2 2/ < + + - +X n p z X n p z n α α 等价于 , 2 4 , 2 42 2 2 1a ac b b p a ac b b p - + - = - - - = 令 , 2 2/ α z n a+ = 其中), 2(2 2/ α z X n b+ - =.2 X n c= 的置信区间是的近似置信水平为 则α - 1 p ). , ( 2 1 p p

用样本估计总体 训练-答案

1.把样本容量为20的数据分组,分组区间与频数如下:[10,20),2;[20,30),3;[30,40),4;[40,50),5;[50,60),4;[60,70],2,则在区间[10,50)上的数据的频率是( ) A .0.05 B .0.25 C .0.5 D .0.7 解析:选D.由题知,在区间[10,50)上的数据的频数是2+3+4+5=14,故其频率为14 20 =0.7. 2.(2014·高考广东卷)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( ) A .200,20 B .100,20 C .200,10 D .100,10 解析:选A.该地区中小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A. 3. 某同学进入高三后,4次月考的数学成绩的茎叶图如图,则该同学数学成绩的方差是( ) A .125 B .5 5 C .45 D .3 5 解析:选C.由茎叶图知平均值为114+126+128+1324=125,∴s 2=1 4[(125-114)2+(125-126)2+(125-128)2+(125 -132)2]=45. 4.某厂10名工人在一小时内生产零件的个数分别是15,17,14,10,15,17,17,16,14,12,设该组数据的平均数为a ,中位数为b ,众数为c ,则有( ) A .a >b >c B .b >c >a C .c >a >b D .c >b >a 解析:选D.把该组数据按从小到大的顺序排列为10,12,14,14,15,15,16,17,17,17,其平均数a =110× (10+12+14+14+15+15+16+17+17+17)=14.7,中位数b =15+15 2 =15,众数c =17,则a

用样本估计总体测试题

《2.2 用样本估计总体(2)》测试题 一、选择题 1.(2012安徽理)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图,则( ). A.甲的成绩的平均数小于乙的成绩的平均数 B.甲的成绩的中位数等于乙的成绩的中位数 C.甲的成绩的方差小于乙的成绩的方差 D.甲的成绩的极差小于乙的成绩的极差 考查目的:考查统计图的识读,以及对数字特征的分析与理解能力. 答案:C. 解析:,甲成绩的方差为,乙成绩的方差为. 2.(2012江西理)样本()的平均数为,样本()的平均数为(),若样本(,)的平均数,其中,则n,m的大小关系为( ).

A. B. C. D.不能确定 考查目的:考查平均数意义的理解和灵活应用. 答案:A. 解析:由题意知,样本(,)的平均数为 ,又∵,∴.∵,∴,即,∴,答案应选A. 3.(2012陕西理)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲乙两组数据的平均数分别为 ,,中位数分别为,,则( ). A., B., C., D., 考查目的:考查茎叶图的结构特征和作用,以及从茎叶图中提取样本数字特征的能力. 答案:B.

解析:根据平均数的概念易计算出,又∵, ,∴答案应选B. 二、填空题 4.为了解东亚地区14岁男孩的平均体重,现从中国抽取了400个男孩,平均体重为45 kg;从日东抽取了200个男孩,平均体重为40 kg. 从韩国抽取了100个男孩,平均体重41 kg.由此可推断东亚地区14岁男孩的平均体重为 kg. 考查目的:考查平均数的求法,以及用样本估计总体的方法. 答案:43. 解析:. 5.(2010江苏)某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]中,其频率分布直方图如图所示,则其抽样的100根中,有_ ___根在棉花纤维的长度小于20mm. 考查目的:考查频率分布直方图的识读与理解能力. 答案:30.

高考数学一轮复习第九章概率与统计第10讲用样本估计总体课时作业理

第10讲用样本估计总体 1.(2015年安徽)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为( ) A.8 B.15 C.16 D.32 2.(2016年)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图X9-10-1所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20), [20,.5), [.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于.5小时的人数是( ) 图X9-10-1 A.56 B.60 C.120 D.140 3.(2017年新课标Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图X9-10-2. 图X9-10-2 根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳 4.(2017年湖南岳阳一中统测)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图X9-10-3,假设得分的中位数为m e,众数为m o,则( ) 图X9-10-3 A.m e=m o B.m o<m e C.m e<m o D.不能确定 5.(2015年)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图X9-10-4所示的茎叶图.考虑以下结论:

第六章 从样本统计量估计整体参数

第六章从样本统计量估计整体参数 学习要点 第一节点估计 第二节区间估计 第三节总体均数的估计 第四节其他总体参数的估计 本章小结 学习要点 掌握推断统计的内容和前提条件 理解统计估计的原理,掌握统计估计的方法 能够运用总体均数估计的方法解决实际问题 第一节点估计 当总休平均数或比例未知时,我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点,所以称为“点估计值” 。 科学研究不仅需要对事物特征作出一般性的描述,而且更要根据样本提供的信息去推测相应总体的情况,统计内容中的推断统计则是专门研究如何用样本去推断总体的方法。 一、什么是推断统计 一般情况下,样本统计量是不会和相应的总体参数完全相同的,两者多少都会有一定的差距,但是如果用无限多个样本的统计量来估计总体参数,平均估计误差将会等于0。 具有这一特征的统计量就无偏估计值。 例如,用样本平均数估计总体平均数时,总会有些误差,在有些样本中,它可能会大于总体平均数,而在另一些样本中它又可能会小于总体平均数,而且对于不同的样本估计误差的大小也是不同的,但是无限多个样本平均数的平均估计误差为0。换句话说,样本平均数的平均数将会等于总体平均数。 推断统计就是指由样本资料去推测相应总体情况的理论与方法。也就是由部分推全体,

由已知推未知的过程。 推断统计根据推测的性质不同而分为参数估计和假设检验两方面。参数估计(parameter estimation)就是用样本去估计相应总体的状况,其具体方法有点估计和区间估计。假设检验(hypothesis test)的主要用途是对出现差异的两个或多个现象或事物进行真实性情况的检验,又称统计检验(statistical test)。在检验中又根据是否需要依赖于对总体分布形态和总体参数检验的假设而分为参数检验和非参数检验。参数检验法在检验时对总体分布和总体参数σ)有所要求,而非参数检验法在检验时则不依赖于总体的分布形态和总体参数的(μ,2 情况。参数检验法主要有Z检验、t检验、F检验和q检验等,非参数检验(non-parameter test)主要有χ2检验、符号检验法、符号等级检验法、秩和检验、中位数检验等。 二、统计推断的基本问题 没有系统学过统计学的人往往有一种误解,以为只要搜集了数据资料,就可以用统计方法来处理数据。殊不知统计学是建立在概率论基础上的,而概率论是专门研究随机事件的。因此,在做统计推断之前必须考虑你所获得的资料是否能够用统计的方法来分析。通常,进行统计推断时应首先考虑以下三个方面的问题。 一是关于统计推断的基本前提。统计推断的前提是随机抽样。因此当我们利用样本统计量进行总体推断时,首先要了解抽样的方式,即了解样本是如何得来的,是随机抽取的,还是人为抽取的。随机抽样的均等性和独立性,避免了入样个体只来自总体的某一部分,从而也就避免了样本的偏倚性。可以说,样本的抽取直接关系着统计研究结果的科学性。 二是样本的规模与样本的代表性。抽样研究需要有一定的样本规模,而样本要具有代表性也需要有一定的样本规模来保证,以减少抽样误差。一般来说,在其它条件相同的情况下,样本越小,抽样的误差越大;样本越大,抽样的误差就越小。当样本增至包括总体的全部个n=)时,抽样的误差为0。因此,只要条件允许,尽可能地采用大样本,以增强体(即N 样本对总体的代表性和可靠性。值得注意的样本规模和样本代表性是建立在随机抽样基础之上的,否则即使样本再大也是无意义的。 三是统计推断的错误要有一定限度。统计推断是在特定的时间、空间和条件下得出的结论,加上抽样误差的影响,在用样本推测总体时总会犯一定的错误。这种错误在统计推断中是不可避免的,也是允许的。不过这种错误要有一定的限度,超过一定限度的错误是不允许的。统计推断中允许犯错误的限度是用小概率事件来表示。 第二节区间估计 一、参数估计的定义 所谓参数估计就是根据样本统计量去估计相应总体的参数。譬如我们可以根据样本均数 σ),根据样本(X)去估计总体的均数(μ),根据样本方差(2S)去估计总体方差(2 的相关系数(r)去估计总体相关系数(ρ)等等。

统计量与抽样分布

第6章统计量与抽样分布 【引例】1899年,戈塞特(1876-1937)进入都柏林A.吉尼斯父子酿酒公司担任酿酒化学技师,主要从事统计和实验工作。他在工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。这就决定了不同批次和温度的麦子样本是不相同的,不能进行样本合并。这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。他在工作中还发现,利用小样本得出的结果,和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。因此1907年戈塞特决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。做法是:在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。大量地记录这种随机抽样的小样本观察值,就可以获得小样本观察值的分布。1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。被统计学家誉为统计推断理论发展史上的里程碑。 那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布还有哪些?这些问题都将在本章中找到答案。 统计研究的目的是为了探索现象内在的数量规律性。为了解总体的数量特征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也可以对总体进行抽样,利用样本对总体进行推断,后一种方法称为统计推断。抽样分布是进行统计推断的理论基础。本章将主要介绍统计推断所涉及的总体、 分布,t分布样本、统计量及抽样分布等概念,以及在统计推断中最常用的2 和F分布和抽样分布定理。

5.1.4用样本估计总体-解析版

5.1.4用样本估计总体 学校:___________姓名:___________班级:___________考号:___________ 一、单选题 1.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分步直方图如图,则用电度数的中位数约为( ) A .150 B .177.8 C .183.3 D .200 【答案】C 【解析】 【分析】 确定出用电量从少到多频率和为0.5所在的区间,再求出占该区间的比例,即可求解. 【详解】 因有50%的个体小于或等于中位数, 小于150的个体频率为()0.00240.0036500.30+?=, 150-200之间的频率0.0060500.30?=, 所以中位数为150-200之间的2 3处,即215050183.33 +?=. 故选:C . 【点睛】 本题考查由频率直方图求中位数,属于基础题. 2.如图,这是某校高三年级甲、乙两班在上学期的5次数学测试的班级平均分的茎叶图,则下列说法不正确的是( ) A .甲班的数学成绩平均分的平均水平高于乙班 B .甲班的数学成绩的平均分比乙班稳定

C.甲班的数学成绩平均分的中位数高于乙班 D.甲、乙两班这5次数学测试的总平均分是103 【答案】D 【解析】 【分析】 计算两班的平均值,中位数,方差得到ABC正确,两班人数不知道,所以两班的总平均分无法计算,D错误,得到答案. 【详解】 由题意可得甲班的平均分是104,中位数是103,方差是26.4; 乙班的平均分是102,中位数是101,方差是37.6,则A,B,C正确. 因为甲、乙两班的人数不知道,所以两班的总平均分无法计算,故D错误. 故选:D. 【点睛】 本题考查了茎叶图,平均值,中位数,方差,意在考查学生的计算能力和应用能力. 3.有4万个不小于70的两位数,从中随机抽取了3000个数据,统计如下: 请根据表格中的信息,估计这4万个数据的平均数为() A.92.16 B.85.23 C.84.73 D.77.97 【答案】B 【解析】 【分析】 求出这3000个数据的平均数,即可估计这4万个数据的平均数. 【详解】 这3000个数据的平均数为78.180085130091.9900 85.23 3000 ?+?+? =。用样本平均数 估计总体平均数,可知这4万个数据的平均数约为85.23. 故选B. 【点睛】 本题主要考查了利用样本的平均数估计总体的平均数,属于基础题. 4.如图是某学校的教研处根据调查结果绘制的本校学生每天放学后的自学时间情况的

相关文档
最新文档