样本统计量抽样分布

样本统计量抽样分布

样本统计量抽样分布形式及区间估计公式、检验统计量的选择

样本统计量总体分

布形式

样本

容量

总体

方差

抽样

分布

形式

数学期望

方差

经过标准化处理后

服从的分布形式

总体均值或总体比例

区间估计公式

总体均值或总体比例

检验统计量选择

样本均值不要求大样本已知

正态

分布

()μ=x E

n

x

2

σ=

)1,0(

~2

/

N

z

n

x

σ

μ-

=n

z

α2/

±

n

x

z

/

σ

μ

-

=

不要求大样本未知

正态

分布

)1,0(

~2

/

N

z

n

s

xμ-

=n s

z

x

2/

α

±

n

s

x

z

/

μ

-

=

正态

分布

(P140

P161)

小样本已知

正态

分布

()μ=x E

n

x

2

σ=

)1,0(

~2

/

N

z

n

x

σ

μ-

=

n

z

α2/

±

n

x

z

/

σ

μ

-

=

正态

分布

(P140

P161)

小样本未知

正态

分布

)1

(

~

/

-

=-n t

t

n

s

n

s

t

x

2

α

±

n

s

x

t

/

μ

-

=

样本比例不要求

大样本

(P131)

不要

正态

分布

π

ρ=

)

(E

n

p

)

1(

π

σ-

=

)1,0(

~2

/)

1(

N

z

n

π

π

π

ρ

-

-

=

n

z)

1(

2

ρ

ρ

α

ρ-

±

n

z

(0

1

π

π

π

ρ

-

-

=

统计量及其抽样分布练习题

第六章 统计量及其抽样分布 练习题 一、填空题(共10题,每题2分,共计20分) 1.简单随机抽样样本均值X 的方差取决于_________和_________,要使X 的标准差降低到原来的50%,则样本容量需要扩大到原来的_________倍。 2. 设1217,,,X X X 是总体(,4)N μ的样本,2S 是样本方差,若2()0.01P S a >=,则a =____________。 3.若(5)X t ,则2X 服从_______分布。 4.已知0.95(10,5) 4.74F =,则0.05(5,10)F 等于___________。 5.中心极限定理是说:如果总体存在有限的方差,那么,随着_________的增加,不论这个总体变量的分布如何,抽样平均数的分布趋近于_____________。 6. 总体分布已知时,样本均值的分布为_________抽样分布;总体分布未知,大样本情况下,样本均值的分布为_________抽样分布。 7. 简单随机样本的性质满足_________和_________。 8.若(2,4)X N ,查分布表,计算概率(X 3)P ≥=_________。若(X )0.9115P a ≤=,计算a =_________。 9. 若12~(0,2),~(0,2),X N X N 1X 与2X 独立,则2212X X +()/2服从______分布。 10. 若~(16,4)X N ,则5X 服从___________分布。 二、选择题(共10题,每题1分,共计10分)

1.中心极限定理可保证在大量观察下 ( ) A . 样本平均数趋近于总体平均数的趋势 B . 样本方差趋近于总体方差的趋势 C . 样本平均数分布趋近于正态分布的趋势 D. 样本比例趋近于总体比例的趋势 2.设随机变量()(1)X t n n >,则21/Y X =服从 ( ) 。 A. 正态分布 B.卡方分布 C. t 分布 D. F 分布 3.某品牌袋装糖果重量的标准是(500±5)克。为了检验该产品的重量是否符合标准,现从某日生产的这种糖果中随机抽查10袋,测得平均每袋重量为498克。下列说法中错误的是( ) A. 样本容量为10 B .抽样误差为2 C. 样本平均每袋重量是统计量 D. 498是估计值 4.设总体均值为100,总体方差为25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都是服从或近似服从( ) A. (100/,25)N n B. N C. (100,25/)N n D. (100,N 5、设2(0,1),(5),X N Y χ且X 与Y 独立,则随机变量_________服从自由度为5的t 分布。 ( ) A. /X Y B. 5/Y X C. /X /

统计学第5-6章 正态分布、 统计量及其抽样分布知识分享

统计学第5-6章正态分布、统计量及其 抽样分布

第5-6章统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等某一条件下产品的质量 如果随机变量X的概率密度为 2 2 () 2 1 (), 2 x f x e x μ σ πσ -- =-∞<<∞ 则称X服从正态分布。 记做 2 (,) X Nμσ : ,读作:随机变量X服从均值为 μ ,方差为2 σ的正态分布 其中, μ -∞<<∞ ,是随机变量X的均值,0 σ>是是随机变量X 的标准差

5.1.2正态密度函数f(x)的一些特点: ()0 f x≥, 即整个概率密度曲线都在x轴的上方。 曲线 () f x相对于xμ =对称,并在xμ = 处达到最大值, 1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定: σ 越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以 x轴为其渐近线。 标准正态分布

当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。 标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值 ()1() x x Φ-=-Φ

如何确定抽样统计的最小样本量

如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格) 在电视节目中经常看到关于选举的报道中经常会后有支持率的数字,例如:调查结果为 ?a方支持率为%; ?b方支持率为%; ?c方支持率为%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况); 最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采 样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为 1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=,置信度为90%时,=,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样为y 相对抽样误差h = E / y C= σ / y 以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 置信度相对抽样误差(假设:C=

贾俊平《统计学》(第5版)课后习题-第6章 统计量及其抽样分布【圣才出品】

第6章 统计量及其抽样分布一、思考题 1.什么是统计量?为什么要引进统计量?统计量中为什么不含任何未知参数? 答:(1)设12n X X X ,, …,是从总体X 中抽取的容量为n 的一个样本,如果由此 样本构造一个函数12()n T X X X ,,…,,不依赖于任何未知参数,则称函数12()n T X X X ,,…,是一个统计量。 (2)在实际应用中,当从某总体中抽取一个样本后,并不能直接应用它去对总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,首先必须把分散在样本中关心的信息集中起来,针对不同的研究目的,构造不同的样本函数。 (3)统计量是样本的一个函数。由样本构造具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量,所以统计量不包含未知参数。 2.判断下列样本函数哪些是统计量?哪些不是统计量? 1121021210310410()/10 min() T X X X T X X X T X T X μ μσ =+++==-=-…,,…,()/答:统计量中不能含有未知参数,故1T 、2T 是统计量,3T 、4T 不是统计量。

3.什么是次序统计量? 答:设12n X X X ,, …,是从总体X 中抽取的一个样本,()i X 称为第i 个次序统计量,它是样本 12()n X X X ,,…,满足如下条件的函数:每当样本得到一组观测值12X X ,,…,n X 时,其由小到大的排序 (1)(2)()()i n X X X X ≤≤≤≤≤……中,第i 个值()i X 就作为次序统计量()i X 的观测值,而(1)(2)()n X X X ,,…,称为次序统计量,其中(1)X 和()n X 分别为最小和最大次序统计量。 4.什么是充分统计量? 答:在统计学中,假如一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,那对保证后边的统计推断质量具有重要意义。统计量加工过程中一点信息都不损失的统计量通常称为充分统计量。 5.什么是自由度? 答:统计学上的自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的变量的个数。 6.简述2 χ分布、t 分布、F 分布及正态分布之间的关系。答:(1)随机变量X 1,X 2,… X n 相互独立,且都服从标准正态分布,则它们的平方和21 n i i X =∑服从自由度为n 的2 χ分布。(2)随机变量X 服从标准正态分布,Y 服从自由度为n 的2 χ分布,且X 与Y 独立,

样本均值的抽样分布

抽样分布 根据样本统计量去估计总体参数,必须知道样本统计量分布。 定义6.2 某个样本统计量的抽样分布,从理论上说就是在重复选取容量为n 的样本时,由每一个样本算出的该统计量数值的相对数频数分布或概率分布。 由于现实中我们不可能将所有的样本都抽出来,因此,统计的抽样分布实际上是一种理论分布。 (一)样本均值的抽样分布 从单位数为N 的总体中抽取样本容量为n 的随机样本,在重复抽样的条件下 共有n N 个可能的样本,在不重复抽样条件下,共有!!()! n N N C n N n =-个可能样本。对于每一个样本,我们都可以计算出样本的均值2()x s 或或p ,因此,样本均值是一个随机变量。所有的样本均值形成的分布就是样本均值的抽样分布。 [例6.4]设一个总体含有4个个体(元素),即N=4,取值分别为: 12341234x x x x ==== 总体分布为均匀分布,如图6.1所示。 图6.1 总体均值:10 2.54X μ== = 总体方差:22() 1.25x x n σ-==∑ x

若重复抽样,n=2 则共有2416=个可能样本。具体列示如表5.1.1。 表6.1 可能的样本及其均值 每个样本被抽中的概率相同,均值为116 样本均值的抽样分布如表5.1.2和图5.1.2所示。 样本均值x 抽样分布的形状与原有总体的分布有关,如果原有总体是正态分布,样本均值也服从正态分布。 如果总体分布是非正态分布,当x 为大样本(30n ≥)时,样本均值的分布趋于服从正态分布;当x 为小样本时,其分布不是正态分布。 下面再让我们来看看样本均值x 抽样分布的特征:数学期望和方差。 设总体共有N 个元素,其均值为μ,方差为2σ,从中抽取容量为n 的样本。 E()x x X μ=== (6.1) 22 x n σσ=(重复抽样) (6.2) 22 ()1x N n n N σσ-=-(不重复抽样) (6.3) 对于无限总体,样本均值的方差,不重复抽样也可按重复抽样来处理;对于有限总体,当N 很大,而/n N 又很小,修正系数 1 N n N --会趋于1,不重复抽样也可按重复抽样来处理。 样本均值x 抽样分布的特征—数学期望和方差的计算公式,可以通过[例6.4]加以验证。 样本均值的均值 1.0 1.5 3.5 4.040 2.51616x μ++++====

常用的统计量抽样分布总结

常用的统计量抽样分布 一.正态分布 1. ∑==n i i X n X 1 1EX → 2. 2 12)(11∑=--=n i i X X n S ][112 1 2∑=--=n i i X n X n DX → 3. 定理: X ~),(2σμN ,n X X X ,,,21 为X 的样本,则 (1). X ~), (2 n N σμ, (2). 2 2 )1(σ S n -~)1(2-n χ, (3). X 与2S 相互独立。 二.2χ分布 1. 定义 设n X X X ,,,21 独立同分布,且~)1,0(N ,则)(~2122 n X n i i χχ∑== 2. 性质: (1). 若X ~)(12n χ,Y ~)(22n χ,且X ,Y 独立,则X +Y ~)(212n n +χ。 (2). 若X ~)(2n χ,则n EX =,2DX n =。 三.t 分布 1. 定义 设X ~)1,0(N ,Y ~)(2n χ,且X ,Y 独立,则n Y X T =~)(n t 。 2. 定理: 设n X X X ,,,21 独立同分布,且~),(2σμN ,则

n S X μ -σ σ μS n X )(-=1 )1() (2 2 ---= n S n n X σσ μ~)1(-n t (因为 n X σ μ-~)1,0(N , 2 2 )1(σ S n -~)1(2-n χ)。 3. 定理: 设1,,,21n X X X 为总体X ~),(21σμN 的样本, 1,,,21n Y Y Y 为总体Y ~),(22σμN 的样本,且Y X ,独立,则 2 12111)()(n n S Y X w +---μμ~)2(21-+n n t ,其中 2 )1()1(212 2 22112 -+-+-=n n S n S n S w 。 证:因为 2 2 11)1(σ S n -~)1(12 -n χ, 2 2 2 2)1(σ S n -~)1(22-n χ, 所以 2 2 2 2211)1()1(σS n S n -+-~)2(212-+n n χ; 又X ~), (1 2 1n N σμ,Y ~), (2 2 2n N σμ, 所以X Y -~), (2 2 1 2 21n n N σσμμ+ +, 所以 2 12111) ()(n n Y X +---σ μμ~)1,0(N ,所以 2 12111)()(n n S Y X w +---μμ 2 12111) ()(n n Y X +---= σμμ/ )2/()1()1(212 2 2 2211-+-+-n n S n S n σ ~)2(21-+n n t 。

抽样调查的样本容量的确定方法

抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的集合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1.确定样本容量的必要性 1.1样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2样本容量大小影响抽样调查的成本和效益 样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2.影响必要样本容量的主要因素 影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1单位标志变异程度 或成数方差P(1-P)的大小来表示。在其他单位标志变异程度一般用方差2

统计量与抽样分布

第6章统计量与抽样分布 【引例】1899年,戈塞特(1876-1937)进入都柏林A.吉尼斯父子酿酒公司担任酿酒化学技师,主要从事统计和实验工作。他在工作中发现,供酿酒的每批麦子质量相差很大,而同一批麦子中能抽样供试验的麦子又很少,每批样本在不同的温度下做实验,其结果相差很大。这就决定了不同批次和温度的麦子样本是不相同的,不能进行样本合并。这样一来,实际上取得的麦子样本,不可能是大样本,只能是小样本。他在工作中还发现,利用小样本得出的结果,和正态分布有较大的差异,特别是两端尾部的概率,比正态分布明显高。因此1907年戈塞特决心把小样本和大样本之间的差别搞清楚。为此,他试图把一个总体中的所有小样本的平均数的分布刻画出来。做法是:在一个大容器里放了一批纸牌,把它们弄乱,随机地抽若干张(小样本),对这一样本记录观察值,然后再把纸牌弄乱,抽出几张,对相应的样本再记录观察值。大量地记录这种随机抽样的小样本观察值,就可以获得小样本观察值的分布。1908年,戈塞特以“学生(Student)”为笔名在《生物计量学》杂志发表了论文《平均数的规律误差》。这篇论文开创了小样本统计理论的先河,为研究样本分布理论奠定了重要基础。被统计学家誉为统计推断理论发展史上的里程碑。 那么总体和样本是如何联系的?大样本和小样本下究竟有什么差异?什么是t分布?它和正态分布有什么不同?它有什么作用?统计推断中常用的分布还有哪些?这些问题都将在本章中找到答案。 统计研究的目的是为了探索现象内在的数量规律性。为了解总体的数量特征,可以直接对总体进行全面调查,得到总体数据,进而归纳出数量特征;也可以对总体进行抽样,利用样本对总体进行推断,后一种方法称为统计推断。抽样分布是进行统计推断的理论基础。本章将主要介绍统计推断所涉及的总体、 分布,t分布样本、统计量及抽样分布等概念,以及在统计推断中最常用的2 和F分布和抽样分布定理。

样本量的确定方法.

样本量的确定方法(2008-10-14 09:12:34) 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1)研究对象的变化程度,即变异程度; (2)要求和允许的误差大小,即精度要求; (3)要求推断的置信度,一般情况下,置信度取为95%; (4)总体的大小; (5)抽样的方法。 也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。

(抽样检验)统计量与抽样分布

第六章 统计量及抽样分布 概率论和数理统计都是研究随机现象规律性的数学分支。 (1) 概率论特点:先提出随机现象的数学模型,然后研究其特性和规律 (2) 数理统计: (3) I )以概率论为理论前提,从实际观测或试验出发; II) 研究如何有效的收集、整理和分析受到随机因素影响的数据,并为之建立适当的 数学模型; III)对其进行检验,在此基础上对所研究的问题作出推断和预测,为采取行动和决策 提供依据和建议。 §1总体、样本与统计量 一、总体与样本 在实际问题中,我们往往只能通过观察和试验来获取研究对象的信息,但是,如果要把 全体研究对象逐个一一检查,常常是不必要或不可能的. 如:(1)对自动生产线上高速生产的零件逐个检查,要耗费很多的人力、物力、财力及时间,且非必要; (2)为考察某些产品如灯泡的寿命,横梁的耐冲击强度等而进行的破坏性试验,逐个检查将使生产失去意义 所以,实际问题中,只能也只需通过测试部分对象的数据,由此来推断全体研究对象的性质,由部分推断总体。这是数理统计面对的基本问题。 1、 总体:研究对象的全体,如一批灯泡的寿命 具体:研究对象的某个或某几个特性的数量指标,所有的可能取值所构成的集合。 如,研究对象:一个城市的居民家庭;X :人均收入;Y :人均支出;Z :人均居住面积, 则三个总体:{} ()()(){} ()()(){} 121 1 2 2 1 1 1 2 2 2 ,,...,,,,,,,,,,,,,n X X X X X Y X Y X Y X Y Z X Y Z X Y Z == =L L L 通常我们学习研究对象的一个特性的数量指标,所有可能取值所构成的集合。如,X :灯泡寿命,总体{}12,,X x x =L ,其中灯泡是研究对象,寿命是数量指标。 2、 个体:组成总体的每一个基本单元(集合中的元素) 3、 样本:从总体中随机地抽取几个个体所组成地集合,称为总体地一个样本: ()12,,n X X X L ,通常看为n 维随机变量 (1) 样本容量:样本中所含个体地个数n ,()1,2,n =≤L 总体中个体元素个数 (2) 样本值:12,,n X X X L 的一个观测,记为:12,,n x x x L 4、 抽样:从总体中抽取样本的过程。这里指随机抽样。目的:通过样本得到总体的相应情 况。 (1)简单随机抽样:数理统计最常用的抽样方法。 满足特点:代表性:总体中每个个体被抽入样本的机会均等,即每个i X (个体)与总体X 具有相同分布;

如何确定抽样统计的最小样本量

?a方支持率为45.3%; ?b方支持率为30.2%; ?c方支持率为8.5%; ?... 最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。 抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。这里就需要了解置信度和抽样误差的概念; 抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);

最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式; n:为样本量; :方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多; E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍; : 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%; 为了体现相对差距:假设抽样均值为y 相对抽样误差h = E / y 变异系数C= σ / y

以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少; 相对抽样误差(假设:C=0.4) π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬 从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;

最新样本量的确定知识讲解

样本量的确定 1. 二值分布(估计比例时的样本容量) 这种情况下,表明可能的采样结果只有两种情况,即是与非的问题。比如调查某一批产品的合格率。样本量的确定主要受以下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N ;通过置信水平即可查表确定z 。 通常情况下置信水平选择95%。抽样偏差为±5%,不过也不完全一定,抽样偏差的确定还是要考虑实际情况,比如最小的调查估计值p=5%,此时抽样偏差就应该小于5%。 这时,就可以确定样本量: 22 2(1)(1)z p p n z p p e N -=-+ P 值的确定:用以前类似样本得到的结果来近似,如果完全不知道就设p=0.5,因为此时方差最大,可求得一个比较保守的样本容量。 样本容量和在p=0.5时运用简单随机抽样估计p 值得到的抽样偏差e

如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 (1)z p p n e -= 事实上当总体容量很小时,不会采用抽样调查,而是普查了。 2. 正态分布(估计均值时的样本容量) 在这种情况下,表明采样的结果是具有多样性的,并不局限在0、1上。比如对某一城市老年人的患病年龄进行统计。这个时候,样本量同样受如下几个因素影响:置信水平α、所能接受的抽样偏差e (估计值与真实值的最大偏差)、总体数量N 。 样本量为: 22 222 z S n z S e N = + S 表明的是总体标准差,这个可以用以前类似样本得到的S 或是实验调查样本的S 来近似。 同样,如果总体容量N 非常大,可近似为无穷,那么上面这个公式可简化成: 22 2 z S n e = 理论基础: 根据数理统计知识,样本均值对总体均值可构造如下统计量: x X u σ-,他满足标准正态分 布,查表即可得到某一显著性水平下这个统计量的值,这里面的x σ表示总体均值估计量的标准误差。 在无放回简单随机抽样情况下,总体均值估计量的标准误差表达式: x σ=

统计量与抽样分布习题

统计量与抽样分布习题 1.调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差σ=1.0盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。 2.第1题中,如果我们希望Y 与μ的偏差在0.3盎司之间的概率达到0.95,应当抽取多大的样本? 3.在第1题中,假定装瓶机对瓶子的灌装量服从方差2 σ=1的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得到10个观测值,用这10个观测值我们可以求出样本方差2S ()??? ??--=∑=n i i Y Y n S 12211,确定一个合适的范围使得有较大的概率保证2S 落入其中是有用的,试求1b 和2b ,使得() 90.0221=≤≤b S b P 。 4.621,,,Z Z Z 表示从标准正态总体中随机抽取的容量6=n 的一个样本,试确定常数b , 使得95.0612=?? ? ??≤∑=i i b Z P 选择题: 1. 设n X X X ,,,21 是从某总体X 中抽取的一个样本,下面哪一个不是统计量? ()∑∑==-==n i i n i i X X n S B X n X A 122 11.1. ()[] 21.∑=-n i i X E X C ()∑=--=n i i X X n S D 122 11. 2. 下面不是次序统计量的是? A .中位数 B .均值 C .四分位数 D .极差 3.抽样分布是指? A .一个样本各观测值的分布 B .总体中各观测值的分布 C .样本统计量的分布 D .样本数量的分布 4.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的均值为? A .μ B .X C .2 σ D .n 2 σ 5.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布,其分布的方差为?

抽样调查样本量确定.

抽样调查样本量的确定 在贸易统计中, 对于限额以下批零餐饮企业普遍采用抽样调查方法进行解决。然而,由于当前市场经济情况的多样性,经济发展的不均衡性,以及地域宽广性,导致情况多种多样;实际情况的复杂,决定了方案的复杂性,增加了具体抽样的难度。经过多年的探讨,区域二相抽样调查比较符合当前我国的实际情况,我们在这里根据试点所掌握的情况针对采用区域二相抽样调查的贸易抽样方案中如何确定样本量进行分析。 一、样本单位数量的确定原则 一般情况下,确定样本量需要考虑调查的目的、性质和精度要求。以及实际操作的可行性、经费承受能力等。根据调查经验,市场潜力和推断等涉及量比较严格的调查需要的样本量比较大,而一般广告效果等人们差异不是很大或对样本量要求不是很严格的调查,样本量相对可以少一些。实际上确定样本量大小是比较复杂的问题,即要有定性的考虑,也要有定量的考虑;从定性的方面考虑,决策的重要性、调研的性质、数据分析的性质、资源、抽样方法等都决定样本量的大小。但是这只能原则上确定样本量大小。具体确定样本量还需要从定量的角度考虑。 从定量的方面考虑,有具体的统计学公式,不同的抽样方法有不同的公式。归纳起来,样本量的大小主要取决于: (1研究对象的变化程度,即变异程度; (2要求和允许的误差大小,即精度要求; (3要求推断的置信度,一般情况下,置信度取为95%; (4总体的大小; (5抽样的方法。

也就是说,研究的问题越复杂,差异越大时,样本量要求越大;要求的精度越高,可推断性要求越高时,样本量也越大;同时,总体越大,样本量也相对要大,但是,增大呈现出一定对数特征,而不是线形关系;而抽样方法问题,决定设计效应的值,如果我们设定简单随机抽样设计效应的值是1;分层抽样由于抽样效率高于简单随机抽样,其设计效应的值小于1,合适恰当的分层,将使层内样本差异变小,层内差异越小,设计效应小于1的幅度越大;多阶抽样由于效率低于简单随机抽样,设计效应的值大于1,所以抽样调查方法的复杂程度决定其样本量大小。对于不同城市,如果总体不知道或很大,需要进行推断时,大城市多抽,小城市少抽,这种说法原则上是不对的。实际上,在大城市抽样太大是浪费,在小城市抽样太少没有推断价值。 二、样本量的确定方法 如何确定样本量,基本方法很多,但是公式检验表明,当误差和置信区间一定时,不同的样 本量计算公式计算出来的样本量是十分相近的,所以,我们完全可以使用简单随机抽样计算 样本量的公式去近似估计其他抽样方法的样本量,这样可以更加快捷方便,然后将样本量根 据一定方法分配到各个子域中去。所以,区域二相抽样不能计算样本量的说法是不科学的。 1.简单随机抽样确定样本量主要有两种类型: (1对于平均数类型的变量 对于已知数据为绝对数,我们一般根据下列步骤来计算所需要的样本量。已知期望调查 结果的精度(E, 期望调查结果的置信度(L,以及总体的标准差估计值σ的具体数据,总体

统计学第5-6章 正态分布、 统计量及其抽样分布

第5-6章 统计量及其抽样分布 正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的 标准差

5.1.2正态密度函数f(x)的一些特点: ()0 f x≥,即整个概率密度曲线都在x轴的上方。 曲线 () f x相对于xμ =对称,并在xμ = 处达到最大值, 1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时,

2 2 1 () 2x f x e π- = , x -∞<<∞ 称 (0,1) N 为标准正态分布。 标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ ,则 (0,1) X Z N μ σ - = 变量 2 11 (,) X Nμσ与变量2 22 (,) Y Nμσ相互独立,则有 22 1212 +(+,+) X Y Nμμσσ 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N,求以下概率

样本量计算

1.估计样本量的决定因素 1.1 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例。 1.2 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大。 1.3 研究因素的有效率 有效率越高,即实验组和对照组比较数值差异越大,样本量就可以越小,小样本就可以达到统计学的显著性,反之就要越大。 1.4 显著性水平 即假设检验第一类(α)错误出现的概率。为假阳性错误出现的概率。α越小,所需的样本量越大,反之就要越小。α水平由研究者具情决定,通常α取0.05或0.01。 1.5 检验效能 检验效能又称把握度,为1-β,即假设检验第二类错误出现的概率,为假阴性错误出现的概率。即在特定的α水准下,若总体参数之间确实存在着差别,此时该次实验能发现此差别的概率。检验效能即避免假阴性的能力,β越小,检验效能越高,所需的样本量越大,反之就要越小。β水平由研究者具情决定,通常取β为0.2,0.1或0.05。即1-β=0.8,0.1或0.95,也就是说把握度为80%,90%或95%。 1.6 容许的误差(δ) 如果调查均数时,则先确定样本的均数( )和总体均数(m)之间最大的误差为多少。容许误差越小,需要样本量越大。一般取总体均数(1-α)可信限的一半。 1.7 总体标准差(s) 一般因未知而用样本标准差s代替。 1.8 双侧检验与单侧检验 采用统计学检验时,当研究结果高于和低于效应指标的界限均有意义时,应该选择双侧检验,所需样本量就大; 当研究结果仅高于或低于效应指标的界限有意义时,应该选择单侧检验,所需样本量就小。当进行双侧检验或单侧检验时,其α或β的Ua 界值通过查标准正态分布的分位数表即可得到。

(完整版)统计学第5-6章正态分布、统计量及其抽样分布

第5-6章 统计量及其抽样分布 5.1正态分布 5.1.1定义:当一个变量受到大量微小的、独立的随机因素影响时,这个变量一般服从正态分布或近似服从正态分布。 概率密度曲线图 例如:某个地区同年龄组儿童的发育特征:身高、体重、肺活量等 某一条件下产品的质量 如果随机变量X 的概率密度为 22 ()21 (),2x f x e x μσπσ --=-∞<<∞ 则称X 服从正态分布。 记做 2 (,)X N μσ:,读作:随机变量X 服从均值为μ,方差为2 σ的正态分布 其中, μ-∞<<∞,是随机变量X 的均值,0σ>是是随机变量X 的标准差 5.1.2正态密度函数f(x)的一些特点: ()0f x ≥,即整个概率密度曲线都在x 轴的上方。 曲线 ()f x 相对于x μ=对称,并在 x μ=处达到最大值,

1 () 2 fμ πσ = 。 1 μ< 2 μ< 3 μ 曲线的陡缓程度由 σ 决定:σ越大,曲线越平缓;σ越小,曲线越陡峭当 x 趋于无穷时,曲线以x轴为其渐近线。 标准正态分布 当 0,1 μσ == 时, 2 2 1 () 2 x f x e π - = , x -∞<<∞ 称 (0,1) N 为标准正态分布。

标准正态分布的概率密度函数: ()x ? 标准正态分布的分布函数: ()x Φ 任何一个正态分布都可以通过线性变换转化为标准正态分布 设 2 (,) X Nμσ : ,则 (0,1) X Z N μ σ - =: 变量 2 11 (,) X Nμσ :与变量2 22 (,) Y Nμσ :相互独立,则有 22 1212 +(+,+) X Y Nμμσσ : 5.1.3 正态分布表:可以查的正态分布的概率值()1() x x Φ-=-Φ 例:设 (0,1) X N :,求以下概率 (1) ( 1.5) P X< (2) (2) P X> (3) (13) P X -<≤

统计量及其抽样分布

《统计学》课程教学大纲 课程编号:×××××××× 课程类别:学科基础课 授课对象:经济管理类各专业、社会学专业、档案学专业、新闻学专业等 开课学期:第3、4、5、6学期 学分:4学分 主讲教师:……等 指定教材:贾俊平、何晓群、金勇进编著,《统计学》(第六版),中国人民大学出版社,2015年教学目的: 《统计学》是为我校非统计专业本科生开设的一门基础必修课,总课时约54学时。设置本课程的目的在于培养学生有关统计知识方面的基本技能,培养学生应用统计方法分析和解决问题的实际能力。教学应达到的总体目标是: 使学生能系统地掌握各种统计方法,并理解各种统计方法中所包含的统计思想。 使学生掌握各种统计方法的不同特点、应用条件及适用场合。 培养学生运用统计方法分析和解决实际问题的能力。 第1章导论 课时:1周,共3课时 教学内容 第一节统计及其应用领域 一、什么是统计学 统计学的概念。描述统计。推断统计。 二、统计的应用领域 统计在共生管理中的应用。统计在其他领域的应用。统计的误用与正确使用。 三、历史上著名的统计学家 一些主要的统计学家。 第二节统计数据的类型 一、分类数据、顺序数据、数值型数据 分类数据。顺序数据。数值型数据。 二、观测数据和实验数据 观测数据。实验数据。 三、截面数据和时间序列数据 截面数据。时间序列数据。 第三节统计中的几个基本概念 一、总体和样本 总体。有限总体和无限总体。样本。样本容量。 二、参数和统计量 参数。统计量。 三、变量 变量。变量的类型。 第2章数据的收集 课时:1周,共3课时

第一节数据来源 一、数据的间接来源 二手数据。 二、数据的直接来源 统计调查方式。数据的收集方法。 第二节调查设计 一、调查方案的结构 调查目的。调查对象和调查单位。调查项目和调查表。 二、调查问卷设计 问卷的结构。提问项目设计。回答项目的设计。问题顺序的设计。第三节数据质量 一、数据的误差 抽样误差。非抽样误差。 二、数据的质量要求 第3章数据的图表展示 课时:1周,共3课时 教学内容 第一节数据的预处理 一、数据审核 原始数据的审核。二手数据的审核。 二、数据筛选 数据筛选的意义。用Excel进行数据筛选。 三、数据排序 数据排序的作用。用Excel进行数据排序。 第二节分类和顺序数据的整理与显示 一、分类数据的整理与显示 频数与频数分布。用Excel制作频数分布表。分类数据的图示方法。 二、顺序数据的整理与显示 累积频数与累积频率。顺序数据的图示方法。 第三节数值型数据的整理与显示 一、数据分组 分组方法。 二、数值型数据的图示 直方图。茎叶图和箱线图。线图。雷达图。 第四节统计表 一、统计表的构成 二、统计表的设计 第4章数据的概括性度量 课时:1周,共3课时 教学内容 第一节集中趋势的度量

抽样调查的样本数目要有

抽样调查的样本数目要有 篇一:抽样调查的样本容量的确定方法 抽样调查的样本容量的确定方法 摘要:确定样本容量是抽样调查中重要的环节,影响到抽样估计的精确度和调查的成本和效益。单位标志变异程度、抽样极限误差、抽样推断的可靠度、抽样类型和方法等影响到样本容量地确定。样本容量的确定可以根据由抽样误差、抽样极限误差和概率度推算出来的公式计算,也可以根据建立在过去抽取满足统计方法要求的样本量所累积下来的经验法则来确定。 关键词:样本容量;抽样调查;抽样误差;极限误差 抽样调查是根据随机原则,从总体中抽取部分实际数据构成样本,同时运用概率估计方法,依据样本信息推断总体数量特征的一种非全面统计调查。根据抽选样本的方法,抽样调查可以分为等概率抽样和非概率抽样两类。等概率抽样又称为随机抽样,是按照概率论和数理统计的原理,从调查研究的总体中,根据随机原则来抽选样本,并从数量上对总体的某些特征做出估计推断,对推断出可能出现的误差可以从概率意义上加以控制。样本是从总体中抽出的部分单位的 1 集合,样本中所包含的单位数被称为样本容量,一般用n表示。确定样本容量是制定抽样调查方案中的一个非常重要的环节。 1(确定样本容量的必要性 1.1样本容量大小影响抽样估计的精确度 抽样估计的精确度是指样本的统计量与其所代表的总体值的接近程度。调查结果相对于总体真实值的精确度与样本容量直接相关。样本容量越大,抽样误差相对

就会减少,估计精度就会提高;若样本容量太小,抽样误差就会增大,从而影响抽样估计的精确度。 1.2样本容量大小影响抽样调查的成本和效益 样本量的设计通常受到研究经费及调查时间的限制。根据数理统计规律,样本量增加呈直线递增的情况下(样本量增加一倍,成本也增加一倍),而抽样误差只是样本量相对增长速度的平方根递减。若样本容量过大,调查单位增多,不仅增加人力、财力和物力的耗费,增加调查费用,而且还影响到抽样调查的时效性,从而不能充分发挥抽样调查的优越性。 因此,为节省调查费用,体现出抽样调查的优越性,在确定样本容量时,应在满足抽样调查对估计数据的精确度的前提下,尽量减少调查单位数,确保必要的抽样数目。 2(影响必要样本容量的主要因素 2 影响样本容量的因素是多方面的,在抽样调查总体、调查费用和调查时间既定的情况下,为确定最佳的样本容量,应首先分析影响样本容量的因素。从理论上说,影响样本容量的因素有以下几个方面: 2.1单位标志变异程度 单位标志变异程度一般用方差?2或成数方差P(1,P)的大小来表示。在其他条件不变的情况下,为了达到同样的研究目的,总体单位标志的变异程度大,样本容量应越大;反之,总体单位标志的变异程度越小,则样本容量就应越少。二者成正比关系。 2.2抽样极限误差 抽样极限误差又叫允许误差,是指在一定的把握程度下保证样本指标与总体指标之间的抽样误差不超过某一给定的最大可能范围。在抽样推断中,需要把这个误

相关文档
最新文档