中国人民大学题库答案详解-抽样技术

中国人民大学题库答案详解-抽样技术
中国人民大学题库答案详解-抽样技术

中国人民大学

同等学力申请硕士学位课程考试试题

课程代码:123105 课程名称:抽样技术与方法

试题卷号: 1

名词解释

非概率抽样

非概率抽样又称为非随机抽样,是调查者根据自己的方便或主观判断抽取样本的方法,其最主要的特征是抽取样本时并不依据随机原则。包含有判断选样、方便抽样、自愿样本、配额抽样等。

最优分配

在分层随机抽样中,对于给定的费用,使估计量的方差V(y_st)达到最小,或者对于给定的估计量方差V,使总费用达到最小的各层样本量的分配,称为最优分配。

PPS抽样

是有放回的按规模大小成比例的概率抽样。其抽选样本的方法有代码法、拉希里方法等。

PPS 抽样是按概率比例抽样,属于概率抽样中的一种。是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。

自加权样本

指调查中每个样本单元的设计权数是相同的,也就是说每个单元最终入样的概率是相等的。在不考虑非抽样误差的情况下,可以认为自加权样本完全代表总体,因为每个样本单元都代表了总体中相同数目的单元。(此时可以使用标准统计方法来进行点估计。此外,自加权样本往往方差较小,样本统计量更稳健)

简述题

有人认为“抽样调查除了调查误差以外,还有抽样误差,因此抽样调查不如全面调查准确”,请对此加以评价。

一项调查的误差来自多个方面,抽样调查因为只调查总体中的一小部分,用部分的调查结果推断总体,所以存在着抽样误差,但这只是所有误差中的一部分。对于抽样调查,误差包括抽样误差和非抽样误差。有些情况下,全面调查由于参与的人员众多、涉及范围大,因此虽然没有抽样误差,但在数据采集和数据汇总整理的过程中却有产生其他误差的更大可能性,所以调查规模并不是越大越好。与全面调查相比,抽样调查的工作量小,这就为使用素质较高的工作人员并对他们进行深入的培训创造了条件。此外,如果能对调查过程实施更为细致的监督、检查和指导,可以使抽样调查所得到的数据质量比同样的全面调查数据质量更高,从而使调查的总误差更小。

试对分层抽样中的联合比率估计和分别比率估计方法进行比较。

如果每一层都满足比率估计量有效的条件,则除非R h=R,都有分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。

实际使用时,如果各层的样本量都较大,且有理由认为各层的比率R h差异较大,则分别比率估计优于联合比率估计。当各层的样本量不大,或各层比率R h差异很小,则联合比率估计更好些。此外,联合比估计不像分别比那样需要已知每层的辅助信息X h。

计算题

某住宅区调查居民的用水情况,该区共有N =1000户,调查了n =100户,得y _

=12.5吨,s 2 =1252,有40户用水超过了规定的标准。

要求计算:

(1)该住宅区总的用水量及95%的置信区间;

(2)若要求估计的相对误差不超过10%,应抽多少户作为样本? (3)以95%的可靠性估计超过用水标准的户数;

(4)若认为估计用水超标户的置信区间过宽,要求缩短一半应抽多少户作为样本? 【解】已知N=1000,n=100,f= =

=0.1, y _

=12.5, s 2 =1252 (1)估计该住宅区总的用水量Y 为:Y ^

=Ny _

=1000*12.5=12500吨 估计该住宅区总的用水量Y 的方差和标准差为: V(Y ^

)=N 2v(y _

)=N 2

s 2=10002*

*1252=11268000 s(Y ^

)=SQRT(v(Y ^

))= ≈ 3356.7842

因此,在95%的置信度下,该住宅总的用水量的置信区间估计为: Y ^

±z 0.025s(Y ^

)=12500±1.96*3356.7842≈12500±6579

即,我们可以以95%的把握认为该住宅总的用水量在 5921吨~19079吨之间。

(2)根据题意,要求估计的相对误差不超过10%,即r ≤0.1,假定置信度为95% 根据公式:n 0=

=

≈3078

由于

=3.078>0.05,所以需要对n 0进行修正:

n=

=

≈755

若要求估计的相对误差不超过10%,应抽不少于755户作为样本。

或:n 0=1/(1/N+d 2/(z α/22s 2)) ≈755 (d=ry _

=1.25)

(3)令超过用水标准的户数为A ,样本中超过用水标准的户数为a = 40,估计超过用水标准的比例p 为:p=a/n=40/100=40%

估计超过用水标准的比例p 的方差和标准差为: v(p)=

p(1-p)=

*40%*60%≈0.002182

s(p)= = ≈4.67%

在95%的可靠性下,超过用水标准的比例p 的估计区间为: p ±z 0.025 s(p)=40%±1.96*4.67%

因此,我们有95%的把握认为,超过用水标准的比例p 在30.85%-49.15%之间,超过用水标准的户数的点估计为:1000*40%=400户,超过用水标准的户数在1000*30.85%户~1000*49.15%户之间,即309户~492户之间。

或:p ±z 0.025

代入得(0.3089,0.4911)

(4)若要置信区间的宽度缩小为原来一半,即要求应抽取的户数n 满足方程 z 0.025

= 1/2 * z 0.025 ≈0.045766代入数据解得

n=306.25≈306户。

为估计市区人均居住面积,按与各区人数呈比例的概率从12个区中抽了4个区,经调查的数据如下:

【解】设居住面积为Y ,人口数为X ,N=12,n=4,f=n/N=1/3。人均居住面积点估计值为R ^

=r=

=

≈4.363米2/人.

s y 2=

=

=

[(2835326-4.363*604746)2+(1670996-4.363*456035)2+(1835226-4.363*470981)2+(2895058-4.363*585257)2)≈ 101742707182.336373 V(R ^

)=V(r)≈

=

≈ * ≈0.24215

s(R^)=≈0.492

因此置信度为95%的区间估计为:4.363±1.96*0.492,即(3.3987,5.3273) 试题卷号:2

名词解释

概率抽样

也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单

元的抽样方法。(概率抽样就是使总体中的每一个单位都有一个已知的、不为零的概率进

入样本的抽样方法。)

具体说来,概率抽样具有以下几个特点:(1)按一定的概率以随机原则抽取样本。(2)

每个单元被抽中的概率是已知的,或是可以计算出来的。(3)当用样本对总体目标量进行

估计时,要考虑到该样本(或每个样本单元)被抽中的概率。也就是说,估计量不仅与样

本单元的观测值有关,也与其入样概率有关。

概率抽样最主要的优点是,可以依据调查结果计算抽样误差,从而得到对总体目标量

进行推断的可靠程度。从另一方面讲,也可以按照要求的精确度,计算必要的样本单元数目。

因此,概率抽样可以排除调查者的主观影响,抽选出较其他方法更具代表性的样本。事后分层

又称抽样后分层,是对一个总体先进行简单随机抽样或系统抽样,抽取一个样本量为

n的样本,然后对样本中的单元按某些特征进行分层并进行分层抽样估计。

πPS抽样

是不放回的与单元大小成比例的概率抽样(该抽样方法是在总体抽取样本时,借助总

体单元大小或规模(M i)的辅助变量来确定单元入样概率(Z i)或包含概率(πi, πij)的

方法)

随机化回答

在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化的方式来获取回答信息并进行估计的技术,我们称之为随机化回答。

简述题

什么是抽样框?简述抽样框的类型和作用,以及良好抽样框的标志。

总体的具体表现是抽样框。通常,抽样框是一份包含所有抽样单元的名单,给每一个抽样单元编上一个号码,就可以按一定的随机化程序进行抽样。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。

抽样框有不同类型:名录框(总体中所有单元实际的名录清单,如在校学生名单、企业名册、电话号码簿等)、区域框(其单元由地理区域构成的集合,抽样总体由这些地理区域组成)、自然框(把相关的自然现象概念(如时间、距离等)作为抽样框使用)。抽样框对抽样调查具有十分重要的作用。1)首先,抽样框是代表总体进行抽样的,抽样框的缺陷会造成目标总体与调查总体不一致,在估计中出现偏差;2)其次,抽样框中的联系资料是用来确定总体单元所在的位置和联系地址的,如果出现错误,可能会产生无法联系而造成无回答;3)抽样框中的辅助资料可以用来进行分层等以改进抽样设计或改进估计方法,以提高抽样效率。因此完备的抽样框是做好抽样调查的前提条件。

良好抽样框的标志是具有充分的辅助信息、目标总体和抽样总体完全重合,也就是目标总体单元和抽样总体单元完全呈一一对应的关系。具体来讲:1)关联性,指抽样框与目标总体的对应程度,要求两者之间尽可能地关联;2)准确性,涵盖误差尽可能小,分类是否准确?联系资料是否完整?辅助资料是否齐全等;3)时效性,抽样框是否及时更新;4)最后还可以从建立抽样框的费用进行评估。

对多阶段抽样中自加权的有关问题进行论述。

由于不等概率抽样往往不满足自加权,因此在多阶段抽样中,最后一阶按等概率(如SRS等)抽取最终单元(USU),其它阶段采用PPS,且各阶段样本量对不同单元都等于常数,则所得样本是自加权的。

计算题

从某农村的200户中随机等概率(无放回)抽取50户,发现其中8户有自行车,这8户人数分别为3,5,3,4,7,4,4,5人。根据这一资料要求:

(1)估计该村具有自行车的户数及其估计精度;

(2)估计该村具有自行车的总人数及其估计精度。

【解】由已知得:N=200,n=50,f=n/N=0.25总体中具有自行车户数的比例为P

(1)这次简单随机抽样得到的P的估计值p=8/50=0.16,即具有自行车的户数估计值Y^ =Np=0.16*200=32. 所以总体比例P在95%情况下的置信区间可以写为:

p±z0.025其中v(p)=≈ 0.002057,v(Y^)=v(Np)=N2v(p)=82.28

故P的置信区间:

0.16±1.96*=0.16±0.0889。所以户数的置信区间为:

200*(0.16±0.0889)即[14,50]

(2)有自行车家庭人数M,则n0=8, m_==4.375, 从而具有自行车的总人数估计值为M^=Y^m_=32*4.375=140。

s2=≈1.696

则V(m_)=s2=*1.696=0.159,因此V(M^)=V(Y^m_)=Y^2V(m_)=322*0.159=162.816

s(M^)=≈13

某城市共有1000家餐馆,分为大中小三层,现预估计在餐馆就餐的人数,采用抽样调查,根据以往资料

(1)若欲估计就餐总人数的误差不超过4000人,可靠性为95%,采用最优分配应抽多少家餐馆作为样本(假设每层每户的调查费用相等);

(2)若不按比例抽样在数据上比较复杂,其费用相当于调查50家餐馆,因此从效益上看改为按比例抽样是否值得?

【解】根据如上表格按中、小、大依次分层:N1=300,N2=600,N3=100,N=1000,S12=2500,S22=400,S32=1000

(1)总人数绝对误差限d y=4000,所以y_st的绝对误差限为d=d y/N=4. W1=0.3,W2=0.6,W3=0.1考虑每层每户调查费用相等,所以使用内曼分配,从而抽取餐馆数:

n== ≈≈173

即应抽取173家餐馆作为样本。

(2)如果采用比例分配,则

n0==≈≈207

由于n0-n=207-173=34<50,所以从效益上看改为按比例抽样更值得。

试题卷号: 3

名词解释

配额抽样

是将总体中的各单元按一定标准划分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便抽样的方法抽取样本单元。

设计效应

为一个特定的抽样设计(包括抽样方法以及对总体目标量的估计方法)估计量的方差与相同样本量下不放回简单随机抽样(SRSWOR)的估计量的方差之比,即

Deff =所考虑的抽样设计估计量的方差/相同样本量下简单随机抽样估计量的方差如果deff < 1,则所考虑的抽样设计比简单随机抽样的效率高;反之,如果deff > 1,

则所考虑的抽样设计比比简单随机抽样的效率低。deff对复杂抽样时确定样本量有很大作用,在一定精度条件下,简单随机抽样所需的样本量n’比较容易得到,如果可以估计复杂抽样的deff,那么复杂抽样所需的样本量为:n = n’*deff

整群抽样

将总体中若干个基本单元合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中的所有基本单元全部实施调查,这样的抽样方法称为整群抽样。

沃纳模型

沃纳模型论及总体是简单的二元总体,即总体中的每个单元或者属于A类或者不属于A类(即基于敏感特征设立两个对立的问题),除此之外,别无他属。

我们向被调查人员提出两个问题,要求其回答“是”或者“不是”,调查人员并不知道被调查者回答了哪个问题,只知道两个问题被提出的概率为P和1-P,这样就可以使被调查者确信其回答不会泄露本人隐私。

简述题

试述概率抽样,非概率抽样各自的特点、作用和局限。

概率抽样也称随机抽样,是指依据随机原则,按照某种事先设计的程序,从总体中抽取部分单元的抽样方法。概率抽样包括等概率抽样(单元之间被抽中的概率相等)与不等概率抽样两种。概率抽样有几个特点:1)按一定的概率以随机原则抽取样本。2)每个单元被抽中的概率是已知的,或是可以计算出来的。3)当用样本对总体目标量进行估计时,要考虑到该样本(或每个样本单元)被抽中的概率。估计量不仅与样本单元的观测值有关,也与其入样概率有关。概率抽样的优点:能得到总体目标量的估计值,并能计算出每个估计值的抽样误差,从而得到对总体目标量进行推断的可靠程度。另外,也可以按照要求的精确度,计算必要的样本单元数目。这两大优点为调查方案的评估提供了有力的依据。与非概率抽样相比,概率抽样比较复杂,对调查人员的专业技术要求高,调查费用较高,但其优点是其他调查方法无可替代的,所以概率抽样成为抽样调查中最主要的方式。

非概率抽样:抽取样本时不依据随机原则。常见的非概率抽样方法有:判断选样(由调查人员人为确定样本单元)、方便抽样(例如“拦截式”调查,比较适合探索性研究)、自愿样本(比如网上调查)、配额抽样(将总体中的各单元按一定标准化分为若干类型,将样本数额分配到各类型中,从各类型中抽取样本的方法则没有严格限制,一般采用方便

抽样的方法抽取样本单元)。非概率抽样的优点是操作简单,不需要抽样框,经济、快速,调查数据的处理也容易,所以有广阔的应用空间。非概率抽样的局限是不能计算抽样误差,不能从概率的意义上控制误差,样本数据不能对总体情况进行推断。同时由于抽取样本时具有较大的随意性,从而导致被调查单元间存在系统性差异。 简述辅助信息在抽样调查中的作用。

在抽样调查中,辅助信息可以用于抽样的设计、目标量的估计,还可以用于调查数据的处理。

1) 抽样设计:在抽样设计阶段,许多抽样方法都需要利用辅助信息。如分层抽样需

要利用辅助信息进行分层,把总体各单元按相应规则分到各个层中。好的分层应该做到去定合理的层数、层界,单元应该分别归属于哪层,每层样本量多少等(如不等概抽样中单元规模这个辅助信息)。可以说,进行任何抽样设计都需要辅助信息,抽样框是辅助信息集中的体现,辅助信息内容越多、质量越高,就为进行良好的抽样设计提供更多更好的素材,具有充分的辅助信息也是良好抽样框的重要标志。(有些辅助信息在抽样前不知道,事后分层等…) 2) 估计:在抽样估计阶段(即估计量设计阶段),可以利用辅助信息改进估计方法,

提高估计的精度,这一点在比率估计和回归估计中表现明显(举例,如比率估计等引入辅助变量x ;事后分层等)

3) 关于数据调整:一个是对入样单元进行权数的计算和调整;另一个是利用辅助信

息减小调查中无回答的偏差,提高了估计的精度。(如调查中男女比率差异,按性别辅助信息引入分层等)

计算题

为了解某小区住户的平均月支出(单位:元),在7000户家庭中按不放回简单随机抽样抽

出200户进行调查,并得到样本均值y _

=1800,样本方差s 2=640000。 (1)试估计该小区住户的平均月支出,并给出95%置信度下的区间估计。 (2)若要求估计的相对误差不超过10%,则需抽出多少户家庭进行调查? 【解】由已知得:N=7000,n=200, y _

=1800,s 2=640000,s=800, f=n/N ≈0.02857

(1)该小区住户的平均月支出估计值为 _=1800

v(y _

)=

s 2=

* 640000 ≈ 3108.576

95%置信度下的区间估计为:

y _

±z 0.025 = 1800±1.96* = 1800±109.28 因此区间估计为:[1690.72, 1909.28] (2)n 0= z 0.0252 * s 2/(r 2y _

2) =

=

≈ 75.88

则需抽取76户家庭进行调查。 有下列数据

设n=1000

(1)采用按比例分层抽样的方法估计Y _

和P 并计算其标准误;

(2)采用奈曼分配的方法估计Y _

和P 并计算标准误;

(3)将按比例分配和奈曼分配与简单随机抽样相比能提高效率多少。 【解】

(1)根据题中已知条件,采用按比例分层抽样的方法估计Y _

为:

=y _prop = =0.35*3.1+0.55*3.9+0.1*7.8=4.01

估计Y _

的方差和标准误差为 : v prop (y _

st )=

(0.35*22+0.55*3.32+0.1*11.32

)≈0.0201585 s prop (y _st )= = ≈0.141981

估计P 及其方差和标准误差为:

p prop = =0.35*0.54+0.55*0.39+0.1*0.24=0.4275

v(p prop)≈≈(0.35*0.54*0.46+0.55*0.39*0.61+0.1*0.24*0.76)≈

0.000218

s(p prop)==≈0.014765

(2)采用Neyman分配的方法估计Y_和P的方法和与(1)是一样的,即

_

==0.35*3.1+0.55*3.9+0.1*7.8=4.01

st

p prop==0.35*0.54+0.55*0.39+0.1*0.24=0.4275

但是采用Neyman分配估计Y_和P的方差的方法不同,分别为:

v(y_st)=2 - ≈(0.35*2+0.55*3.3+0.1*11.3)2≈0.013286

s(y_st)==≈0.115265

v(p st)≈=(0.35* + 0.55* + 0.1*)≈0.000236

s(p st)===0.015362

(3)由于V srs(y_)=2≈()≈

0.0201585+0.0017329=0.0218914

比例分配的设计效应为deff prop= v(y_prop)/ V srs(y_)=≈0.9208,所以与简单随机抽样相比

比例分配能提高效率1-deff prop=7.92%;

内曼分配的设计效应为deff opt= v(y_st)/ V srs(y_)=≈0.6069,所以与简单随机抽样相比

内曼分配能提高效率1-deff opt=39.31%.

试题卷号: 4

名词解释

目标总体和抽样总体

目标总体也可简称为总体,是指所有研究对象的总体,或者是研究人员希望从中获取信息的总体,它是研究对象中所有性质相同的个体所组成。

抽样总体是指从中抽取样本的总体。通常情况下,抽样总体应该与目标总体完全一致,但实践中两者不一致的情况却时常发生。

分层抽样

也叫类型抽样法,是将抽样单元按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,将各层的样本结合起来,对总体的目标量进行估计。

交叉子样本

在抽样时,对同一个总体按照同样的抽样方法,独立或非独立地来进行两个或两个以上样本的抽取,并使得每个子样本对总体参数都提供一个有用的估计,则被抽取的子样本称为交叉子样本。交叉子样本方法最早是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis,1936年)所提出,最初用于总体参数的估计,以后扩大应用于抽样和非抽样误差的估计。

逆抽样方法

针对样本中含有稀少项目很少或没有(设比例为P)的情况(调查产生比较大的偏差),事先根据调查精度和成本的要求,制定出样本中出现稀少项目的单元个数为n,然后一个一个地随机抽取样本,直到样本中具有这种属性的单元个数为n为止,然后对样本容量X 的分布及P的估计的方法。

简述题

说明总体方差和估计量方差各自的作用,以及它们之间的相互关系。

总体方差是未知的,但是确定存在的。估计量方差可以由样本数据计算出来,但只是总体的近似反映,未必等于真实值。

试述随机化回答技术作用、特点,谈谈你对随机化回答技术的理解。

在调查中当一个问题是敏感性的或高度私人机密性的,则就会发生拒绝回答或回避回答的情况。为了获得对这类问题总体比例进行估计的资料,就需要采用随机化回答技术。

其基本特点是1)被调查者对所调查的问题采取随机回答的方式,调查人员无法从被调查者的回答中得知对方是否具有某种特征。这样,就可以在一定程度上消除被调查者的担心和顾虑,使他们参与调查,并提供真实情况。2)另一方面,调查人员通过对所有调查结果的汇总。利用概率原理进行推算,又可以得到总体中具有该特征人数比例的估计值,从而实现调查的目的。因而,随机化回答技术被认为是对敏感性问题进行调查,并对总体的特征比例进行数量推算的有效方法。

个人对随机化回答技术有如下理解:1)从理论上讲,随机化回答技术既可以用于访问调查,也可以用于邮寄问卷等其他方式的调查。但是,随机化回答问卷的设计比其他一般性调查问卷的设计要复杂。例如,在邮寄问卷调查中,被调查者很可能因为看不懂问卷而不知如何回答,在访问调查中,调查人员可以详细地向被调查者说明随机化回答技术的原理,并讲解如何回答这种类型的问卷,必要时还可以进行示范,帮助被调查者理解和掌握。所以,与其他调查方法相比,访问调查在使用随机化回答技术方面有更多的便利条件。

2) 传统的随机化回答技术(如Warner)都是针对单变量数据的,其主要目的是为了获得具有敏感特性回答的概率估计。然而,被调查者的辅助信息却在一些情况下格外有用,以至于可以将其与肯定回答相联系。Maddala( 1983)以及Scheers和Dayton (1988)便将这些带有辅助信息的解释变量纳入随机化回答模型中。其优点在于可以减少标准误差,并可以确立协变量信息与敏感特性的总体概率之间关系。传统的随机化回答模型的另一个主要缺点是只能获得与总体水平有关的结论——总体概率的估计和相关置信区间。这与当时仅对单变量数据进行相关与无关随机化回答方法的发展目的一致,但却不能满足于调查者对单位水平参数的研究,这也导致无法对一些产生敏感特性的原因进行剖析。

此外在具体设计与操作上应该注意:1)要使被调查者充分理解这种方法的特点,特别是一定要让被调查者明白,他究竟回答的是哪一个问题,别人是不知道的,因此在正式抽取并回答问题前,要让被调查者作几次试验;2)所提问题必须简单明了,防止有不同的理解。3)在应用西蒙斯模型时,无关问题的选择特别重要。一定要隐蔽性强的,即调查人无从猜测被调查人对该问题回答的答案。

计算题

有下列数据

现令n=40,要求

(1)样本在各层中进行的按比例分配;

(2)样本在各层中进行的最优分配;

(3)计算最优分配较按比例分配的得益;

(4)计算按比例分配较简单随机抽样的得益。

【解】由已知得:L=3,n=40,N==100, f=n/N=40/100=0.4

(1)由n h=nN h/N=N h f 得n1=0.4*60=24, n2=0.4*30=12, n3=0.4*10=4,

V prop(y_st)==*(0.6*4+0.3*16+0.1*225)=0.4455

(2)由内曼分配n h= * n,代入得=60*2+30*4+10*15=390

n1=*40 ≈12.30 ≈12

n2=*40≈ 12.30 ≈ 12

n3=*40≈ 15.38 ≈ 15

V opt(y_st)=-=

*(0.6*2+0.3*4+0.1*15)2-*(0.6*4+0.3*16+0.1*225)=0.38025-0.297=0.08325

(3)由1,2得最优分配较按比例分配的得益为1- V opt(y_st)/ V prop(y_st)=1-≈81.31% (4)由于S2≈+,y_==(0.6*3+0.3*5+0.1*12)=4.5从而简

单随机抽样方差

V srs(y_st)=S2=+= V prop(y_st)+

=0.4455+*(0.6*1.52+0.3*0.52+0.1*7.52)= 0.4455+0.10575=0.55125

按比例分配较简单随机抽样的得益为:1- V prop(y_st)/ V srs(y_st)=19.18%

要调查学生对某课程的兴趣问题,设我们将问题陈述为“我对该课程感兴趣”和“我对该课程不感兴趣”,对此问题我们采用沃纳模型处理,预先设定P=4/5,在接受调查并作出明确回答的320人中(假定被调查者如实回答问题),结果统计出回答“是”的人数为156人,请估计对该课程感兴趣学生比例的置信区间。

【解】按Warner模型,我们假定(p:卡片A的比例;1-p:卡片B的比例;n:样本量;n1:回答是的人数;n2:回答否的人数;πA:总体中具有卡片A特征的人数的比例;)由已知得P=4/5, n=320,则

点估计式:π^A= () – () = * - *=-=≈ 0.4792

πA的方差估计量:

V(π^A)= π^A (1-π^A)/n + ≈0.000780+0.001389 = 0.002169

从而95%的区间估计式为π^A±Z0.025 = π^A±1.96*=

0.4792±0.09128,因此该比例的置信区间为[0.3879,0.5705]

试题卷号: 5

名词解释

抽样框

抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。

比例分配

在分层抽样中,若每层的样本量n h都与层的大小N h成比例,即= 或记为f h=f,

h=1,2,…,L 则称样本量的这种分配方式为比例分配。(比例分配的分层抽样是一种等概率抽样)

系统抽样

将总体中的所有单元(抽样单元)按一定顺序排列,在规定的范围内随机抽取一个单元作为初始单元,然后按事先规定好的规则确定其他样本单元,这种抽样方法称为系统抽样。(典型的系统抽样是先从数字1~k中随机抽取一个数字r作为初始单元,以后依次取第r+k,r+2k,…单元。)

西蒙斯模型

是1967年由西蒙斯(Simmons)提出的。其设计思想仍是基于沃纳的相关问题随机化选答的思想,只是在设计中,改用无关的问题代替了沃纳模型中的敏感性问题的对立问题。通常选用与敏感性问题无关并且容易获得的样本特点作为无关问题进行提问(如生日、性别等)。比传统的‘去敏感化’技术更具有保密性,因此更容易获得调查者的配合,适宜于调查敏感性程度很高的问题。

简述题

什么是样本量?试对影响样本量的因素进行分析。

样本量又称“样本容量”,指一个样本的必要抽样单位数目。在组织抽样调查时,抽样误差的大小直接影响样本指标代表性的大小,而必要的样本单位数目是保证抽样误差不超过某一给定范围的重要因素之一。(样本量直接影响抽样误差、调查的费用、调查所需的时间、调查访员的数量以及其他一些重要的现场操作的限制条件。样本量过大,会造成人力、物力和财力的浪费;样本量过小,会造成抽样误差增大,影响抽样推断的可靠程度。)因此,在抽样设计时,必须决定样本单位数目,因为适当的样本单位数目是保证样本指标具有充分代表性的基本前提。

影响样本容量的因素:研究目的、个体变异、检验水准、对精确度的要求、(把握度/置信度)等。具体描述为:

1)抽样推断的可靠程度。要求推断的可靠程度越高,概率度的数值越大,抽样单位数也就要求多些;反之,则可少抽一些。

2)总体标志变异程度。方差大,需要多抽一些;方差小,可少抽一些。

3)极限误差的大小。极限误差大可以少抽些,极限误差小则应多抽些。

4)抽样方法与组织方式。在相同条件下,重复抽样需要多抽一些,不重复抽样可少抽一些。

5)实际调查运作的限制(人力、物力和财力的可能条件)。客户提供的经费能支持多大的样本?调查持续的时间有多长?需要多少访员?能招聘到的访员有多少?

在确定调查最终所需的样本量时,还必须考虑样本量计算统计科普公式没有涉及到的这些限制。

试述在什么情况下需要采用不等概率抽样,并举例说明。

不等概抽样适用于如下情况:

1)抽样单元在总体中所占的地位不一致。例如,对某市商业销售额进行调查时,以商场为抽样单元。虽然大型或特大型的商场数量不多,但占总销售额的份额较大;而小商店数量多,市场份额却不大。对于这种情况,将大型商场和小商店同等对待并不合理;

另外,由于规模和管理水平的原因,对大型商场的调查往往比较容易,可以做得细致一些,而对小商店的调查往往比较困难,也没有必要对占市场份额不大的这部分单元花太大的精力做过多的调查,因此在调查时,大型商场应该处于更重要的地位。

2)调查的总体单元与抽样总体的单元不一致。例如某大型单位准备对职工家庭情况进行调查,一种自然的办法是以人事部门的职工花名册作为抽样框进行抽样,该单位中的少数家庭有两名职工在该单位工作,如果对职工进行简单随机抽样,则双职工家庭被

抽中的概率大,而调查者希望对家庭进行等概率抽样。除了对抽样框进行整理,将双职工家庭中的一名成员从抽样框中剔除,还可以对职工采用不等概抽样,一种做法是对每名职工记录其家庭成员在该单元工作的人数,然后对每名职工按与人数成反比的概率进行抽样。

3) 改善估计量。不等概抽样可用于对估计量进行改善,例如简单随机抽样比率估计量是

渐进无偏的,要使其成为无偏估计,只要每个大小为n 的样本被抽中的概率与其辅助变量的和 成比例(例如水野法)

,这时的比率估计量就是无偏估计量,这个样本并不是简单随机样本,而是一个不等概抽样获得的样本。

不等概抽样除了应用于上述几种情况,还广泛应用于整群抽样、多阶段抽样中初级单元规模相差较大的情形。

不等概抽样的优点主要是大大提高了估计精度,但使用它有前提条件,即必须要有说明每个单元规模大小的辅助变量来确定每个单元入样的概率,这在抽样设计及估计时都是必须的。

计算题

某住宅区调查居民的用水

某镇在2000户家庭中随机抽选36户家庭调查生活费用支出,以y 表示食物支出费用,x

表示总支出费用,得恩格尔系数(食物支出在总支出中所占的比例),r=y _/x _

=41.7%,y 与

x 的样本变异系数分别是c y =0.09,c x =0.085,y 与x 的相关系数ρ^

=0.79,给定置信度95%,求恩格尔系数的区间估计。

【解】由已知得:r=0.417,c y =0.09,c x =0.085, ρ^

=0.79,N=2000,n=36,f=n/N=36/2000=0.018 V(R ^

)=V(r)≈

=

≈ 0.00001536

从而恩格尔系数95%置信度的区间估计为:r ±z 0.025 ±1.96* 即[0.4093, 0.5478]

试题卷号: 6

名词解释

总体参数

描述总体特性的指标称为总体参数,简称参数。总体的均值、方差等都是总体参数。(总体参数4种类型总体均值、总体总值、总体比例、总体比率等)

内曼分配

分层随机抽样中,各层中每个单位费用一样(即C h=C)时样本单位的最优分配方法。设n h为各层的样本含量,N h为h层单位总数,S h为h层标准差,n为样本总含量(固定),

内曼(Neyman)1934年证明,当n h=nN h S h/ 时,这种分配为最优分配即V(y_st) 达到最小值。

不等概抽样

不等概率抽样是指在抽取样本之前给总体的每一个单元赋予一定的被抽中概率(最常用的是按总体单元的规模大小来确定抽选的概率)。不等概率抽样分为放回与不放回两种情况。

直线等距抽样

假设总体单元数为N,样本容量为n,N=nk,且总体中的N个单元已按某种确定顺序编号为1,2,…,N。抽样程序是先从k个单元编号中随机抽出一个单元编号,然后每隔k 个单元编号抽出一个单元编号,直到抽出n个单元编号为止,则这种等距抽样称为直线等距抽样。

抽样技术课后习题参考答案金勇进

第二章习题 2.1判断下列抽样方法是否是等概的: (1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。 (2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64. (3)总体20000~21000,从1~1000中产生随机数r 。然后用r+19999作为被抽选的数。 解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以计算的。第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。 因此(1)中只有1~64是可能被抽中的,故不是等概的。(2)不是等概的【原因】(3)是等概的。 2.2抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同? 300户进行,现得到其日用电平均值=y 9.5(千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少? 解:由已知可得,N=50000,n=300,5.9y =,2062=s 该市居民用电量的95%置信区间为 [])(y [2 y V z N α±=[475000±1.96*41308.19] 即为(394035.95,555964.05) 由相对误差公式 y ) (v u 2y α≤10% 可得%10*5.9206*n 50000 n 1*96.1≤- 即n ≥862

欲使相对误差限不超过10%,则样本量至少应为862 2.4某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查,得到P=0.35,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。 解析:由已知得:10000=N 200=n 35.0=p 02.0==N n f 又有:35.0)()(===∧p p E p E 0012.0)1(11)(=---=∧p p n f p V 该大学所有本科学生中暑假参加培训班的比例95%的置信区间为:])()([2 ∧ ∧ ±P V Z P E α 代入数据计算得:该区间为[0.2843,0.4157] 2.5研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表: 编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180 9 110 19 170 10 240 20 120 估计该小区平均的文化支出Y ,并给出置信水平95%的置信区间。 解析:由已知得:200=N 20=n 根据表中数据计算得:5.14420120 1 ==∑=i i y y ∴ 该小区平均文化支出Y 的95%置信区间为:])(y [2 y V z α ±即是:[132.544 ,156.456] 故估计该小区平均的文化支出Y =144.5,置信水平95%的置信区间为[132.544 ,156.456]。 2.6某地区350个乡为了获得粮食总产量的估计,调查了50个乡当年的粮食产量,得到 y =1120(吨),225600S =,据此估计该地区今年的粮食总产量,并给出置信水平95%的 置信区间。 解析:由题意知:y =1120 1429.0350 50 n === N f 225600S =?160=s

抽样技术简答题及答案

抽样技术各类简答题参考答案 习题一 1.请列举一些你所了解的以及被接受的抽样调查。 略 2. 抽样调查基础理论及其意义; 答:大数定律,中心极限定理,误差分布理论,概率理论。 大数定律是统计抽样调查的数理基础,也给统计学中的大量观察法提供了理论和数学方面的依据;中心极限定理说明,用样本平均值产生的概率来代替从总体中直接抽出来的样本计算的抽取样本的概率,为抽样推断奠定了科学的理论基础;认识抽样误差及其分布的目的是希望所设计的抽样方案所取得的绝大部分的估计量能较好的集中在总体指标的附近,通过计算抽样误差的极限是抽样误差处于被控制的状态;概率论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件。 3.抽样调查的特点。 答:1)随机抽样;2)以部分推断总体;3)存在抽样误差,但可计算,控制;4)速度快、周期短、精度高、费用低;5)抽样技术灵活多样;6)应用广泛。 4.样本可能数目及其意义; 答:样本可能数目是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数,用A表示。 意义:正确理解样本可能数目的概念,对于准确理解和把握抽样调查误差的计算,样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。 5. 影响抽样误差的因素; 答:抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差,在抽样调查中抽样误差是不可避免的,但可以计算,并且可以被控制在任意小的范围内;影响 抽样误差的因素:1)有样本量大小,抽样误差通常会随着样本量的大小而增减,在某 些情形下,抽样误差与样本量大小的平方根成反比关系;2)所研究现象总体变异程度 的大小,一般而言,总体变异程度越大则抽样误差可能越大;3)抽样的方式方法, 如放回抽样的误差大于不放回抽样,各种不同的抽样组织方式也常会有不同的抽样误 差。 在实际工作中,样本量和抽样方式方法的影响是可以控制的,总体变异程度虽不可以 控制,但却可通过设计一些复杂的抽样技术而将其影响加以控制。 习题二 三简答题 1 概率抽样与非概率抽样的区别 答:概率抽样是指在抽取样本单元时,每个总体单元有一个非零的入样概率,并且样本单元的抽取应遵循一定的随机化程序。 2 普查与抽样调查的区别 答:普查是对总体的所有单元进行调查;抽样调查仅对总体中的部分单元进行调查。 3何谓抽样效率,如何评价设计效果? 答:两个抽样方案的抽样方差之比为抽样效率。当某个估计量的方差比另一估计量的方差小时,则称方差小的估计量效率比较高,因方差的大小与样本容量有直接的关系,因此比

应用抽样技术期末复习题

抽样调查 一、选择题 1.抽样调查的根本功能是( C ) A. 获取样本资料 B. 计算样本资料 C . 推断总体数量特征 D. 节约费用 2.概率抽样与非概率抽样的根本区别是( B ) A.是否能保证总体中每个单位都有完全相同的概率被抽中 B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中 C.是否能减少调查误差 D.是否能计算和控制抽样误差 3. 与简单随机抽样进行比较,样本设计效果系数Deff >1表明( A ) A.所考虑的抽样设计比简单随机抽样效率低 B.所考虑的抽样设计比简单随机抽样效率高 C.所考虑的抽样设计与简单随机抽样效率相同 D.以上皆对 4.优良估计量的标准是( B ) A.无偏性、充分性和一致性 B.无偏性、一致性和有效性 C. 无误差性、一致性和有效性 D. 无误差性、无偏性和有效性 5.某乡欲估计今年的小麦总产量进行调查,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到63.118=y 吨,这些村去年的产量平均为21.104=x 吨。试采用比率估计方法估计今年该地区小麦总产量( B ) A.12820.63 B.14593.96 C.12817.83 D.14591.49 6.抽样标准误差的大小与下列哪个因素无关( C ) A .样本容量 B .抽样方式、方法 C .概率保证程度 D .估计量 7.抽样标准误差与抽样极限误差之间的关系是( B ) A.θ θ )?(SE = ? B.)?(θtSE =? C.θθ)?(tSE =? D.t SE )?(θ=? 8.应用比率估计量能使估计精度有较大改进的前提条件是调查变量与辅助变量 之间大致成( A )关系 A.正比例 B.反比例 C.负相关 D.以上皆是 9.能使)2(1)(2 22YX X Y lr S S S n f y V ββ-+-=达到极小值的β值为( B ) A.YX X Y S S S ? B.2X YX S S C.2Y YX S S D.X YX S S 2 10.( B ) 是总体里最小的、不可再分的单元。 A.抽样单元 B.基本单元 C.初级单元 D.次级单元 11. 下面哪种抽样方法是最简单的概率抽样方法( A )。 A.简单随机抽样 B.分层随机抽样 C.系统抽样 D.整群抽样 12. 下面关于各种抽样方法的设计效应,表述错误的是( B )。 A.简单随机抽样的deff=1 B.分层随机抽样的deff ﹥1 C.整群随机抽样的deff ﹥1 D.机械随机抽样的deff ≈1

应用抽样技术答案

第二章 2.1判断题: (1)错;(2)错;(3)对;(4)错;(5)错;(6)错;(7)错;(8)错;(9)对;(10)对;(11)错;(12)错;(13)错。 2.3选择题: (1)b ;(2)b ;(3)d ;(4)c ;(5)c 。 2.7 (13 3.67 4.33 5 5.67 6.33 7 1/10 1/10 2/10 2/10 2/10 1/10 1/10 (2)期望为5,方差为4/3 (3)抽样标准误 = = 1.155 (4)抽样极限误差 = 1.96*1.155 = 2.263 (5)置信区间 = (5.67-2.263, 5.67+2.263) =(3.407, 7.933)。 若区间两端只考虑抽样分布的可能性取值,则可得该抽样分布作为离散分布的置信区间为[3, 7] 第三章 3.1 判断题是否为等概率抽样: (1)是;(2)否;(3)是;(4)否。 3.2 (1)5.51 == ∑i Y N Y 25.6)(1 22=-=∑Y Y N i σ 33.8)(1 1 22=--= ∑Y Y N S i (2)样本:(2, 5) (2, 6) (2, 9) (5, 6) (5, 9) (6, 9) ()()5.55.775.55.545.36 1 =+++++= ∑y E () ∑=+++++=33.8)5.485.05.2485.4(61 2s E 3.3

(1) 1682=∑i y 1182662 =∑i y 03276.030 1750 /3011=-=-n f 760.5630/1682==y 127.8261302^067.503011826611)(11212212 =-?-=?? ? ??--=--=∑∑==y n y n y y n s n i i n i i ()07.27271.82603276.012 =?=-= s n f y v ()203.5)(==y v y se 198.10203.596.1)(=?=?=?y se t 95%置信度下置信区间为(56.067-10.198, 56.067+10.198)=(45.869, 66.265). 因此,对该校学生某月的人均购书支出额的估计为56.07(元),由于置信度95%对应的96.1=t ,所以,可以以95%的把握说该学生该月的人均购书支出额大约在45.87~66.27元之间。 (2) 易知N =1750, n =30,=8,t =1.96 267.03081=== n n p 03389.01 301750 /30111=--=--n f 1957.0)267.01(267.0)1(=-?=-=p p pq 08144.0957.003389.01)1()(=?=--= n pq f p v 0167.030 21 21=?=n P 的95%的置信区间为: ())4433.0,0907.0(0167.008114.096.1267.0211)1(=+?±=???? ??+--±n n pq f t p 则1N 的估计值为46725.467?1 ≈==Np N ,其95%的置信区间为: )776,159()4433.0,0907.0(1750=? (3)64.1054267 .01.0) 267.01(96.122220=?-?= =p q t n γ

应用抽样技术期末试卷

一、选择题(每题2分,共20分) 1.抽样调查的根本功能是( ) A. 获取样本资料 B. 计算样本资料 C . 推断总体数量特征 D. 节约费用 2.概率抽样与非概率抽样的根本区别是( ) A.是否能保证总体中每个单位都有完全相同的概率被抽中 B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中 C.是否能减少调查误差 D.是否能计算和控制抽样误差 3. 与简单随机抽样进行比较,样本设计效果系数Deff >1表明( ) A.所考虑的抽样设计比简单随机抽样效率低 B.所考虑的抽样设计比简单随机抽样效率高 C.所考虑的抽样设计与简单随机抽样效率相同 D.以上皆对 4.优良估计量的标准是( ) A.无偏性、充分性和一致性 B.无偏性、一致性和有效性 C. 无误差性、一致性和有效性 D. 无误差性、无偏性和有效性 5.某乡欲估计今年的小麦总产量进行调查,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到63.118=y 吨,这些村去年的产量平均为21.104=x 吨。试采用比率估计方法估计今年该地区小麦总产量( ) A.12820.63 B.14593.96 C.12817.83 D.14591.49 6.抽样标准误差的大小与下列哪个因素无关( ) A .样本容量 B .抽样方式、方法 C .概率保证程度 D .估计量 7.当β为某一特定常数时,比率估计量可看成是比率估计量的特例,此时该常数值为( ) A.1 B.0 C. x y D.x 8.抽样标准误差与抽样极限误差之间的关系是( ) A.θ θ )?(SE = ? B.)?(θtSE =? C.θθ)?(tSE =? D.t SE )?(θ=?

《抽样技术》第四版习题答案

第2章 2.1 解:()1 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号 为1~64的这些单元中每一个单元被抽到的概率都是 1100 。 ()2这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中 的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2 100 ,而尚未被抽中的编号为36~63的每个单元的入样概率都是 1100 。 ()3这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 000~ 21 000中的每个单元的入样概率都是 1 1000 ,所以这种抽样是等概率的。 2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大 _ y E y y -= 近似服从标准正态分布, _ Y 的195%α-=的置信区 间为y z y z y y α α??-+=-+? ?。

而()2 1f V y S n -= 中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间 为,y y ?? -+???? 。 由题意知道,_ 2 9.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _ 21130050000 ()2060.6825300 f v y s n --= =?=。将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192????。 下一步计算样本量。绝对误差限d 和相对误差限r 的关系为_ d rY =。 根据置信区间的求解方法可知 _ ___ 11P y Y r Y P αα? ???-≤≥-?≤≥-???? 根据正态分布的分位数可以知道1P Z αα??? ≤≥-???? ,所以()2_2rY V y z α?? ?= ??? 。也就是2 _2 _2 22 /221111r Y r Y S n N z S n N z αα?? ?????? ????? ???-=?=+ ? ????? ?? ???? 。 把_ 2 9.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。所以样本量至少为862。 2.4 解:总体中参加培训班的比例为P ,那么这次简单随机抽样得到的P 的估计值p 的方差()()111f N V p P P n N -= --, 在大样本的条件下近 似服从标准正态分布。在本题中,样本量足够大,从而可得P 的195%α- =的置信区间为 2p z p z αα?-+?。 而这里的()V p 是未知的,我们使用它的估计值

《抽样技术》第四版习题答案

第2章 解:这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为1~64的这些单元中每一个单元被抽到的概率都是。 这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是,而尚未被抽中的编号为36~63的每个单元的入样概率都是。 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 000~21 000中的每个单元的入样概率都是,所以这种抽样是等概率的。 解: 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大样本的条件下,近似服从标准正态分布,的的置信区间为。 而中总体的方差是未知的,用样本方差来代替,置信区间为。 由题意知道,,而且样本量为,代入可以求得 。将它们代入上面的式子可得该市居民日用电量的95%置信区间为。 下一步计算样本量。绝对误差限和相对误差限的关系为。 根据置信区间的求解方法可知 根据正态分布的分位数可以知道,所以。也就是。 把代入上式可得,。所以样本量至少为862。 解:总体中参加培训班的比例为,那么这次简单随机抽样得到的的估计值的方差,利用中心极限定理可得在大样本的条件下近似服从标准正态分布。在本题中,样本量足够大,从而可得的的置信区间为。

而这里的是未知的,我们使用它的估计值。所以总体比例的的置信区间可以写为,将代入可得置信区间为。 解:利用得到的样本,计算得到样本均值为,从而估计小区的平均文化支出为144.5元。总体均值的的置信区间为,用来估计样本均值的方差。 计算得到,则,,代入数值后计算可得总体均值的95%的置信区间为。 解:根据样本信息估计可得每个乡的平均产量为1 120吨,该地区今年的粮食总产量的估计值为(吨)。 总体总值估计值的方差为,总体总值的的置信区间为,把 代入,可得粮食总产量的的置信区间为。 解:首先计算简单随机抽样条件下所需要的样本量,把带入公式,最后可得。 如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为。 解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为。利用去年的化肥总产量,今年的化肥总产量的估计值为吨。 解:本题中,简单估计量的方差的估计值为=37.17。 利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。 文化支出的比率估计量为,通过计算得到,而,则,文化支出的比率估计量的值为(元)。 现在考虑比率估计量的方差,在样本量较大的条件下,,通过计算可以得到两个变量的样本方差为,之间的相关系数的估计值为,代入上面的公式,可以得到比率估计量的方差的估计值为。这个数值比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的的置信区间为,把具体的数值代入可得置信区间为。 接下来比较比估计和简单估计的效率,,这是比估计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。 解:利用简单估计量可得,样本方差为,,样本均值的方差估计值为。 利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相关性,相关系数的估计值为,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。 回归估计量的精度最高的回归系数的估计值为。现在可以得到肉牛现重量的回归估计量为,代入数值可以得到。 回归估计量的方差为,方差的估计值为,代入相应的数值,,显然有。在本题中,因为存在肉牛原重量这个较好的辅助变量,所以回归估计量的精度要好于简单估计量。 第3章 3.1 解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对

抽样技术练习题及答案

1.请列举一些你所了解的以及被接受的抽样调查。 2.抽样调查基础理论及其意义; 3.抽样调查的特点。 4.样本可能数目及其意义; 5.影响抽样误差的因素; 6.某个总体抽取一个n=50的独立同分布样本,样本数据如下: 567 601 665 732 366 937 462 619 279 287 690 520 502 312 452 562 557 574 350 875 834 203 593 980 172 287 753 259 276 876 692 371 887 641 399 442 927 442 918 11 178 416 405 210 58 797 746 153 644 476 1)计算样本均值y与样本方差s2; 2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式; 3)根据上述样本数据,如何估计v(y)? 4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

一判断题 1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。 2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。 3 抽样单元与总体单元是一致的。 4 偏倚是由于系统性因素产生的。 5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。 6 偏倚与抽样误差一样都是由于抽样的随机性产生的。 7 偏倚与抽样误差一样都随样本量的增大而减小。 8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。 9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。 10 总体目标量与样本统计量有不同的意义,但样本统计量它是样本的函数,是随机变量。 11 一个抽样设计方案比另一个抽样设计方案好,是因为它的估计量方差小。 12 抽样误差在概率抽样中可以对其进行计量并加以控制,随着样本量的增大抽样误差会越来越小,随着n越来越接近N,抽样误差几乎可以消除。 13 抽样误差越小,说明用样本统计量对总体参数进行估计时的精度越低。 14 样本量与调查费用呈现线性关系,但样本量与精度却呈非线性关系。 15 精度和费用也是评价抽样设计方案优劣的两条准则。 16 简单随机抽样时每个总体单元都有非零的入样概率,但每个总体单元的入样概率是不同的。 17 当总体N很大时,构造一个包含所有总体单元名单的抽样框是有局限性的,这也是简单随机抽样的局限性。 18 设N=872,n=10。利用随机数字表抽取一个简单随机样本如下:128 157 506 455 127 789 867 954 938 622 19 设N=678 n=5 利用随机数字表抽取一个简单随机样本如下:556 485 098 260 485 20 在实际工作中,如果抽样比接近于1时,人们会采用全面调查 二填空题 1 抽样比是指( ),用( )表示。 2 偏倚为零的估计量,满足( ),称为( )。 3 简单随机抽样的抽样误差等于( )。 4 简单随机抽样时重复抽样的抽样误差等于( ) 5 抽样时某一总体单元在第m次被选入样本的概率是( ) 6 简单随机抽样时总体单元被选入样本的概率是( ) 7 某一样本被选中概率是( )。 8 大数定理是指( )的规律性总是在大量( )的观察中才能显现出来,随着观察次数( )的增大,( )影响将互相抵消而使规律性有稳定的性质。 9 中心极限定理证明了当( )增大时,观察值的均值将趋向于服从( ),即不论( )服从什么分布,在观察值足够多时其均值就趋向( )分布。 10 抽样调查的核心是估计问题,选择估计量的标准是( ) ( ) ( )。 三简答题

抽样技术_第三版_全部课后答案

第二章习题 判断下列抽样方法是否是等概的: (1)总体编号1~64,在0~99中产生随机数r ,若r=0或r>64则舍弃重抽。 (2)总体编号1~64,在0~99中产生随机数r ,r 处以64的余数作为抽中的数,若余数为0则抽中64. (3)总体20000~21000,从1~1000中产生随机数r 。然后用r+19999作为被抽选的数。 解析:等概抽样属于概率抽样,概率抽样具有一些几个特点:第一,按照一定的概率以随机原则抽取样本。第二,每个单元被抽中的概率是已知的,或者是可以计算的。第三,当用样本对总体目标进行估计时,要考虑到该样本被抽中的概率。 因此(1)中只有1~64是可能被抽中的,故不是等概的。(2)不是等概的【原因】(3)是等概的。 抽样理论和数理统计中关于样本均值y 的定义和性质有哪些不同 为了合理调配电力资源,某市欲了解50000户居民的日用电量,从中简单随机抽取了300户进行,现得到其日用电平均值=y (千瓦时),=2s 206.试估计该市居民用电量的95%置信区间。如果希望相对误差限不超过10%,则样本量至少应为多少 解:由已知可得,N=50000,n=300,5.9y =,2062=s

1706366666206*300 50000300 1500001)()?(222=- =-==s n f N y N v Y V 19.413081706366666(==)y v 该市居民用电量的95%置信区间为 [])(y [2 y V z N α±=[475000±*] 即为(,) 由相对误差公式 y ) (v u 2y α≤10% 可得%10*5.9206*n 50000 n 1* 96.1≤- 即n ≥862 欲使相对误差限不超过10%,则样本量至少应为862 某大学10000名本科生,现欲估计爱暑假期间参加了各类英语培训的学生所占的比例。随机抽取了两百名学生进行调查,得到P=,是估计该大学所有本科生中暑假参加培训班的比例的95%置信区间。 解析:由已知得:10000=N 200=n 35.0=p 02.0==N n f 又有:35.0)()(===∧p p E p E 0012.0)1(1 1)(=---=∧p p n f p V 该大学所有本科学生中暑假参加培训班的比例95%的置信区间为: ])()([2 ∧ ∧±P V Z P E α 代入数据计算得:该区间为[,] 研究某小区家庭用于文化方面(报刊、电视、网络、书籍等)的支出,N=200,现抽取一个容量为20的样本,调查结果列于下表: 编号 文化支出 编号 文化支出 1 200 11 150 2 150 12 160 3 170 13 180 4 150 14 130 5 160 15 100 6 130 16 180 7 140 17 100 8 100 18 180

抽样技术习题

习题一 1.请列举一些你所了解的以及被接受的抽样调查。 2.抽样调查基础理论及其意义; 3.抽样调查的特点。 4.样本可能数目及其意义; 5.影响抽样误差的因素;

6.某个总体抽取一个n=50的独立同分布样本,样本数据如下: 567 601 665 732 366 937 462 619 279 287 690 520 502 312 452 562 557 574 350 875 834 203 593 980 172 287 753 259 276 876 692 371 887 641 399 442 927 442 918 11 178 416 405 210 58 797 746 153 644 476 1)计算样本均值y与样本方差s2; 2)若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式; 3)根据上述样本数据,如何估计v(y)? 4)假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。

习题二 一判断题 1 普查是对总体的所有单元进行调查,而抽样调查仅对总体的部分单元进行调查。 2 概率抽样就是随机抽样,即要求按一定的概率以随机原则抽取样本,同时每个单元被抽中的概率是可以计算出来的。 3 抽样单元与总体单元是一致的。 4 偏倚是由于系统性因素产生的。 5 在没有偏倚的情况下,用样本统计量对目标量进行估计,要求估计量的方差越小越好。 6 偏倚与抽样误差一样都是由于抽样的随机性产生的。 7 偏倚与抽样误差一样都随样本量的增大而减小。 8 抽样单元是构成抽样框的基本要素,抽样单元只包含一个个体。 9 抽样单元可以分级,但在抽样调查中却没有与之相对应的不同级的抽样框。

《抽样技术》试题(一)

《抽样调查》试卷D 一、判断改错 1.在抽样调查的实践中,为降低抽样误差,可以考虑缩小总体方差或扩大样本量。() 2.欲对一批成品的合格率进行抽样调查,已知在前两次的全面调查中,其 合格率分别为p 1=90%、p 2 =80%,则本次调查应根据p 1 确定样本量。() 3.在总体容量充分大时,放回抽样和不放回抽样的估计误差相差无几。() 4.整群抽样可以被理解为是第一阶段抽样比为100%时的一种特殊的两阶段抽样。() 5.分层抽样可以被理解为是第一阶段抽样比为100%时的一种特殊的两阶段抽样。() 6.比估计与回归估计优于简单估计的条件是调查变量与辅助变量间的相关系数大于1/2。() 7.二重分层抽样在效果上优于普通分层抽样。()8.当总体方差未知时,可用样本方差代替以确定必要样本量。()9.抽样分布就是指样本的分布。()10.利用随机数表既可以实施等概率抽样,也可以实施不等概率抽样。() 二、简述题 1.试述抽样调查的误差及其种类; 2.试述怎样分层才能有效提高精度; 3.找一个完整的抽样框通常是不容易的。在下述调查中可以试用什么样的

抽样框? (1)调查一个大城市中卖皮箱的商店; (2)调查失落在公共汽车上的东西的种类; (3)调查去年被蛇咬过的人数; (4)调查估计每周家庭成员用于看电视的总时数。 三、应用题 请将下述按由小到大顺序排列的20个单位标志值调整为按顺逆交替方式排列,并以k=2为起点等距抽选出4个单位组成样本,然后与在原排序方式下按上述要求所抽选的等距样本进行比较,看其在抽样误差方面有什么变化。 21 21 28 29 30 32 32 32 34 35 35 36 37 38 40 45 46 46 48 50

抽样技术分层随机抽样(不带答案)

分层随机抽样 一、单选题 1、分层抽样设计效应满足(B ) A 、1deff = B 、1deff < C 、1deff ≈ D 、1deff > 2、分层抽样的特点是(A ) A 、层内差异小,层间差异大 B 、层间差异小,层内差异大 C 、层间差异小 D 、层内差异大 3、下面的表达式中错误的是(D ) A 、 ∑=1h f B 、∑=n n h C 、∑=1h W D 、∑=1h N 4、在给定费用下估计量的方差)(st y V 达到最小,或者对于给定的估计量方差V 使得总费用达到最小的样本量分配称为(C ) A 、常数分配 B 、比例分配 C 、最优分配 D 、奈曼分配 5、最优分配(opt V )、比例分配(prop V )的分层随机抽样与相同样本量的简单随机抽样(srs V )的精度之间的关系式为(A ) A 、srs prop opt V V V ≤≤ B 、srs opt prop V V V ≤≤ C 、srs opt prop V V V ≥≥ D 、opt prop srs V V V ≤≤ 6、下面哪种样本量分配方式属于比例分配?( A) A 、 N n N n h h = B 、h L h h h h h h h c S N c S N n n ∑== 1 C 、 ∑==L h h h h h h S N S N n n 1 D 、 ∑==L h h h h h h S W S W n n 1 7、下面哪种样本量分配属于一般最优分配?( B) A 、N n N n h h = B 、h L h h h h h h h c S N c S N n n ∑== 1

应用抽样技术期末试卷

一、选择题(每题2分,共20分) 1.抽样调查的根本功能是( ) A. 获取样本资料 B. 计算样本资料 C . 推断总体数量特征 D. 节约费用 2.概率抽样与非概率抽样的根本区别是( ) A.是否能保证总体中每个单位都有完全相同的概率被抽中 B.是否能保证总体中每个单位都有事先已知或可以计算的非零概率被抽中 C.是否能减少调查误差 D.是否能计算和控制抽样误差 3. 与简单随机抽样进行比较,样本设计效果系数Deff >1表明( ) A.所考虑的抽样设计比简单随机抽样效率低 B.所考虑的抽样设计比简单随机抽样效率高 C.所考虑的抽样设计与简单随机抽样效率相同 D.以上皆对 4.优良估计量的标准是( ) A.无偏性、充分性和一致性 B.无偏性、一致性和有效性 C. 无误差性、一致性和有效性 D. 无误差性、无偏性和有效性 4.某乡欲估计今年的小麦总产量进行调查,已知去年的总产量为12820吨,全县共123个村,抽取13个村调查今年的产量,得到63.118=y 吨,这些村去年的产量平均为21.104=x 吨。试采用比率估计方法估计今年该地区小麦总产量( ) A.12820.63 B.14593.96 C.12817.83 D.14591.49 6.抽样标准误差的大小与下列哪个因素无关( ) A .样本容量 B .抽样方式、方法 C .概率保证程度 D .估计量 7.当β为某一特定常数时,比率估计量可看成是比率估计量的特例,此时该常数值为( ) A.1 B.0 C. x y D.x 8.抽样标准误差与抽样极限误差之间的关系是( ) A.θ θ) ?(SE = ? B.)?(θtSE =? C.θθ)?(tSE =? D.t SE )?(θ=? 9.应用比率估计量能使估计精度有较大改进的前提条件是调查变量与辅助变量之间大致成( )关系

应用抽样技术答案

应用抽样技术答案

第二章 2.1判断题: (1)错;(2)错;(3)对;(4)错;(5)错;(6)错;(7)错;(8)错;(9)对;(10)对;(11)错;(12)错;(13)错。 2.3选择题: (1)b ;(2)b ;(3)d ;(4)c ;(5)c 。 2.7 (1)抽样分布: 3 3.67 4.33 5 5.67 6.33 7 1/10 1/10 2/10 2/10 2/10 1/10 1/10 (2)期望为5,方差为4/3 (3)抽样标准误 = = 1.155 (4)抽样极限误差 = 1.96*1.155 = 2.263 (5)置信区间 = (5.67-2.263, 5.67+2.263) =(3.407, 7.933)。 若区间两端只考虑抽样分布的可能性取值,则可得该抽样分布作为离散分布的置信区间为[3, 7] 第三章 3.1 判断题是否为等概率抽样: (1)是;(2)否;(3)是;(4)否。 3.2 (1)5.51 == ∑i Y N Y 25.6)(1 22=-=∑Y Y N i σ 33.8)(1 1 22=--= ∑Y Y N S i (2)样本:(2, 5) (2, 6) (2, 9) (5, 6) (5, 9) (6, 9) ()()5.55.775.55.545.36 1 =+++++= ∑y E

() ∑=+++++=33.8)5.485.05.2485.4(61 2s E 3.3 (1) 1682=∑i y 1182662 =∑i y 03276.030 1750 /3011=-=-n f 760.5630/1682==y 127.8261302^067.503011826611)(11212212 =-?-=?? ? ??--=--=∑∑==y n y n y y n s n i i n i i ()07.27271.82603276.012 =?=-= s n f y v ()203.5)(==y v y se 198.10203.596.1)(=?=?=?y se t 95%置信度下置信区间为(56.067-10.198, 56.067+10.198)=(45.869, 66.265). 因此,对该校学生某月的人均购书支出额的估计为56.07(元),由于置信度95%对应的96.1=t ,所以,可以以95%的把握说该学生该月的人均购书支出额大约在45.87~66.27元之间。 (2) 易知N =1750, n =30,=8,t =1.96 267.03081=== n n p 03389.01 301750 /30111=--=--n f 1957.0)267.01(267.0)1(=-?=-=p p pq 08144.0957.003389.01)1()(=?=--= n pq f p v 0167.030 21 21=?=n P 的95%的置信区间为: ())4433.0,0907.0(0167.008114.096.1267.0211)1(=+?±=???? ??+--±n n pq f t p 则1N 的估计值为46725.467?1 ≈==Np N ,其95%的置信区间为: )776,159()4433.0,0907.0(1750=?

《抽样技术》习题答案

第2章 2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大 _ y E y y -= 近似服从标准正态分布, _ Y 的195%α-=的置信区 间为y z y z y y α α??-+=-+??。 而()2 1f V y S n -=中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间为,y y ?? -+??? ? 由题意知道,_ 2 9.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _ 21130050000 ()2060.6825300 f v y s n --= =?=。将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192????。 下一步计算样本量。绝对误差限d 和相对误差限r 的关系为_ d r Y =。

根据置信区间的求解方法可知 _ ___ 11P y Y r Y P αα? ???-≤≥-?≤≥-???? 根据正态分布的分位数可以知道 1P Z αα??? ≤≥-???? ,所以()2_r Y V y z α?? ?= ??? 。 也就是2 _2 _222 /221111 rY rY S n N z S n N z αα???????? ??? ?? ???-=?=+ ? ????? ?? ???? 。 把_ 2 9.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。所以样 本量至少为862。 2.4 解:总体中参加培训班的比例为P ,那么这次简单随机抽样得到的P 的估计值p 的方差()()111f N V p P P n N -= --, 在大样本的条件下近 似服从标准正态分布。在本题中,样本量足够大,从而可得P 的195%α- =的置信区间为 p z p z αα?-+?。 而这里的() V p 是未知的,我们使用它的估计值 ()()()^ 5119.652101 f V p v p p p n --== -=?-。所以总体比例P 的195%α-=的置信区间 可以写为 p z p z α α?-+? ,将0.35,200,10000p n N ===代入可得置 信区间为0.2844,0.4156????。 2.5 解:利用得到的样本,计算得到样本均值为2890/20144.5y ==,从而估计小 区的平均文化支出为144.5元。总体均值_ Y 的195%α-=的置信区间 为 y z y z αα?-+?,用()21f v y s n -=来估计样本均值的方差()V y 。 计算得到2 826.0256s =, 则()2110.1826.025637.17220 f v y s n --==?=,

应用抽样技术答案

第二章 判断题: (1)错;(2)错;(3)对;(4)错;(5)错;(6)错;(7)错;(8)错;(9)对;(10)对;(11)错;(12)错;(13)错。 选择题: (1)b ;(2)b ;(3)d ;(4)c ;(5)c 。 (1)抽样分布: 3 5 7 1/10 1/10 2/10 2/10 2/10 1/10 1/10 (2)期望为5,方差为4/3 (3)抽样标准误 = = (4)抽样极限误差 = * = (5)置信区间 = + =(, )。 若区间两端只考虑抽样分布的可能性取值,则可得该抽样分布作为离散分布的置信区间为[3, 7] 第三章 判断题是否为等概率抽样: (1)是;(2)否;(3)是;(4)否。 (1)5.51 == ∑i Y N Y 25.6)(1 22=-=∑Y Y N i σ 33.8)(1 1 22=--= ∑Y Y N S i

(2)样本:(2, 5) (2, 6) (2, 9) (5, 6) (5, 9) (6, 9) ()()5.55.775.55.545.36 1 =+++++= ∑y E () ∑=+++++=33.8)5.485.05.2485.4(61 2s E (1) 1682=∑i y 1182662 =∑i y 03276.030 1750 /3011=-=-n f 760.5630/1682==y 127.8261302^067.503011826611)(11212212 =-?-=?? ? ??--=--=∑∑==y n y n y y n s n i i n i i ()07.27271.82603276.012 =?=-= s n f y v ()203.5)(==y v y se 198.10203.596.1)(=?=?=?y se t 95%置信度下置信区间为( +)=(, ). 因此,对该校学生某月的人均购书支出额的估计为(元),由于置信度95%对应的96.1=t ,所以,可以以95%的把握说该学生该月的人均购书支出额大约在~元之间。 (2) 易知N =1750, n =30,=8,t = 267.03081=== n n p 03389.01 301750/30111=--=--n f 1957.0)267.01(267.0)1(=-?=-=p p pq 08144.0957.003389.01)1()(=?=--= n pq f p v 0167.030 21 21=?=n

相关文档
最新文档