《抽样技术》第四版习题答案
第2章
2.1 解:()1 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号
为1~64的这些单元中每一个单元被抽到的概率都是
1100
。 ()2这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中
的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是2
100
,而尚未被抽中的编号为36~63的每个单元的入样概率都是
1100
。 ()3这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 000~
21 000中的每个单元的入样概率都是
1
1000
,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在
_
y E y y -=
近似服从标准正态分布, _
Y 的195%α-=的置信
区间为
y z y z y y α
α??-+=-+?
?。
而()2
1f V y S n
-=
中总体的方差2S 是未知的,用样本方差2s 来代替,置信区间
为,y y ??-+???
?
。 由题意知道,_
2
9.5,206y s ==,而且样本量为300,50000n N ==,代入可以求得 _
21130050000
()2060.6825300
f v y s n --=
=?=。将它们代入上面的式子可得该市居民日用电量的95%置信区间为7.8808,11.1192????。
下一步计算样本量。绝对误差限d 和相对误差限r 的关系为_
d rY =。 根据置信区间的求解方法可知
_
___
11P y Y r Y P αα?
???-≤≥-?≤≥-????
根据正态分布的分位数可以知道1P Z αα???
≤≥-????
,所以()2
_2r Y V y z α??
?= ???
。也就是2
_2
_2
22
/221111r Y r Y S n N z S n N z αα????????
?????
???-=?=+ ? ?????
??
????
。
把_
2
9.5,206,10%,50000y s r N ====代入上式可得,861.75862n =≈。所以样本量至少为862。
2.4 解:总体中参加培训班的比例为P ,那么这次简单随机抽样得到的P 的估计值p 的方差()()111f N
V p P P n N -=
--,
在大样本的条件下近
似服从标准正态分布。在本题中,样本量足够大,从而可得P 的195%α-=
的置信区间为
2p z p z αα?-+?。
而这里的()
V p 是未知的,我们使用它的估计值
()()()^
5119.652101
f
V p v p p p n --==
-=?-。
所以总体比例P 的195%α-=的置信区间可以写为
p z p z α
α?-+?
,将0.35,200,10000p n N ===代入可得置
信区间为0.2844,0.4156????。
2.5 解:利用得到的样本,计算得到样本均值为2890/20144.5y ==,从而估计小
区的平均文化支出为144.5元。总体均值_
Y 的195%α-=的置信区间
为
y z y z αα?-+?,用()21f v y s n
-=来估计样本均值的方差()V y 。 计算得到2
826.0256s =,则()2110.1826.025637.17220
f v y s n --==?=
,
2 1.9611.95z α==,
代入数值后计算可得总体均值的95%的置信区间为[]132.55,156.45。
2.6 解:根据样本信息估计可得每个乡的平均产量为1 120吨,该地区今年的粮食总
产量Y 的估计值为_
^
5
3503501120 3.9210Y y ==?=?(吨)。
总体总值估计值的方差为()2^21N f V Y S n -??= ???,总体总值的195%α-=的置信区间
为^
^Y z Y z αα?-+???,把^52
3.9210,25600,50,350,Y S n N =?===
, 1.96n
f z N
α=
=代入,可得粮食总产量的195%α-=的置信区间为377629,406371????。
2.7 解:首先计算简单随机抽样条件下所需要的样本量,把2
1000,2,195%,68N d S α==-==带入公式2022/211d n N z S α?
=+ ???
,最后可得
061.362n =≈。
如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为
070%88.5789n n ==≈。
2.8 解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关
系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估
计今年的化肥总产量。去年化肥总产量为2135X =。利用去年的化肥总产量,今年的化肥
总产量的估计值为_
^
^
_
2426.14R y Y R X X x
==
=吨。
2.9 解:本题中,简单估计量的方差的估计值为()2
1f v y s n
-=
=37.17。 利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为X 。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。
文化支出的比率估计量为_
__
__
^_
R y y R X X x
==
,通过计算得到2890/20144.5y ==,而
_
1580x =,则_
^
_144.5
0.09151580
y
R x ==
=,文化支出的比率估计量的值为_
146.3R y =(元)。 现在考虑比率估计量的方差,在样本量较大的条件下,
()()()2
2212R R x x f V y MSE y S R S S R S n
ρ-≈≈
-?+,通过计算可以得到两个变量的样本方差为2
24
826,9.95810x
s s ==?,Y X 和之间的相关系数的估计值为^
0.974ρ=,
代入上面的公式,可以得到比率估计量的方差的估计值为_ 1.94R v y ??
= ???
。这个数值
比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的195%α-=的置信区间为
R R R R y z y z y y α
α??-+=-+?
?,
把具体的数值代入可得置信区间为[]143.57,149.03。
接下来比较比估计和简单估计的效率,
()()__ 1.940.05237.17
R R V y v y V y v y ???? ? ?
????≈==,这是比估
计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。
2.10 解:
利用简单估计量可得1630/10163i y y n ===∑,样本方差为2
212.222s =,120N =,样本均值的方差估计值为()21110/120
212.22219.453710
f v y s n --=
=?=。 利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是
合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相关性,相关系数的估计值为^
0.971ρ=,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。
回归估计量的精度最高的回归系数β的估计值为^^
14.5680.971 1.36810.341
x s s βρ
==?=。现在可以得到肉牛现重量的回归估计量为_
__^
lr y y X x β??
=+- ???
,代入数值可以得到
_
159.44lr y =。
回归估计量_
lr y 的方差为()__2
211lr lr f V y MSE y S n ρ-????≈≈- ? ?????
,方差的估计值为2
_^211lr f v y s n ρ??-??=- ? ?????,代入相应的数值,
2
_^211 1.112lr f v y s n ρ??-??=-= ? ?????
,显然
有()_lr v y v y ??
< ???
。在本题中,因为存在肉牛原重量这个较好的辅助变量,所以回归估计量
的精度要好于简单估计量。
第3章
3.1 解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下:
(1)选择性别作为分层变量,是不合适的。首先,性别这个变量与研究最关心的变量(不同职务,职称的人对分配制度改革的态度)没有很大的相关性;其次,用性别作为分层变量后,层内之间的差异仍然很大,相反,层之间的差异不是很大,因为男性和女性各自内部的职务,职称也存在很大的差别;最后,选择性别作为分层变量后,需要首先得到男性和女性的抽样框,这样会更加麻烦,也会使抽样会变得更加复杂。
(2)按照教师、行政管理人员和职工进行分层,是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关,而且按照这种方法分层后,可以看出层内对于分配制度改革的态度差异比较小,因为他们属于相同的阶层,而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。
(3)按照职称(正高、副高、中级、初级和其他)分层,也是合理的。理由与(2)相同,这样进行分层的变量选择与调查最关心的变量是高度相关的,分层后的层满足分层的要求。所以,按照职称进行分层是合理的。
(4)按照部门进行分层,是合理的。因为学校有很多院、系或者所,直接进行简单随机抽样,有可能样本不能很好地代表各个院系,最关心的变量与部门也存在一定的相关性。这样分层后,每个层的总体数目和抽取的样本量都较小,最终的样本的分布比较均匀,比简单随机抽样更加方便实施。
3.2 解:设计的方案如下:
第一种方案:可以按照不同的专业进行分层,但是考虑到如果在每层都抽取,不能保证每个新生的入样概率相等,因为每个专业的人数比例未知,8个人的样本量无法在每个层之间进行分配。所以采取如下方法:对所有的新生按照专业的先后顺序进行编号,使得每个专业的人的编号在一起,然后随机选取出一个号码,然后选取出这个号码所在的专业,选取出这个专业,再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。
第二种方案:也可以按照性别进行分类,对他们进行编号,为1~800,使得男生的编号都在一起,女生的编号也都在一起,然后随机选取出一个号码,然后看这个号码所对应的性别,然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。
第三种方案:随机地把所有的人分成8组,而且使得每组的人都是100个人,这样分组完成后,每个组的新生进行编号为1~100,然后随机抽取出一个号码,再从所有的小组中抽取出号码所对应的新生,从而抽取出8个人。
3.3 解:(1) 首先计算出每层的简单估计量,分别为_
_
_
12311.2,25.5,20y y y ===,其中,123256,420,168,844N N N N ====,则每个层的层权分别为;
3121230.3033,0.4976,0.1991N N N
W W W N N N
=
===== 则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量_
_
h
h st y W
y =∑,代入数
值可以得到_
_
20.07h
h st y W
y =
=∑。
购买彩票的平均支出的的估计值的方差为3_22
11h h h st h h
f V y W S n =-??= ???∑,此方差的估计值为3_22
1
1h h
h st h h f v y W s n =-??= ???∑,根据数据计算可以得到每层的样本方差分别为: 22212194.4,302.5,355.556s s s ===
其中12310n n n ===,代入数值可以求得方差的估计值为_9.4731st v y ??
= ???
,则估计的标
准差为_ 3.08st s y ??=== ???。
(2)由区间估计可知相对误差限满足
___
11st P y Y rY P αα????-≤≥-?≤≥-????
_
2z α=,()2
_2st r Y V y z α??
?
= ???
。 样本均值的方差为()22
3
2
22
1111h h h st h
h h h
h h h
f W S V y W S W S n n N ω=-==-∑∑∑,从而可以得到在置信度为α,相对误差限为r
条件下的样本量为
()2222
2_2221h
h h h h h st h h h h W
S W S n V y W S r Y z W S N N
αωω==??++ ???∑∑∑∑。 ①对于比例分配而言,有h h W ω=成立,那么22
_
2
21h
h
h
h
W S
n r Y z W S
N α=
??
+ ???
∑∑,把相应
的估计值和数值195%,10%r α-==代入后可以计算得到样本量为186n =,相应的在各层的样本量分别为1231256.457,92.693,18636n n n n n =≈=≈=--=。
②按照内曼分配时,样本量在各层的分配满足h h h h h
W S W S
ω=∑,这时样本量的计
算公式变为()
2
2
_
2
21h h h h W S n rY Z W S N
α=
??+ ???∑∑,把相应的数值代入后可得175n =,在各层中
的分配情况如下:1231233,87,18666n n n n n ===--=。
3.4 解:(1) 首先计算得到每层中在家吃年夜饭的样本比例为
1234560.9,0.9333,0.9,0.8667,0.9333,0.9667p p p p p p ======,那么根据每一
层的层权,计算得到该市居民在家吃年夜饭的样本比例为6
1
92.4%st h
h
h p W p
==
=∑。
每
一
层
中
在
家
吃
年
夜
饭
的
样
本
比
例
的
方
差
为
()()()11111h h h h h h h h h h h h h
P P f N N n V p P P n N N n ---=
-=--,则该市居民在家吃年夜饭的比例的方差,在1h h N N -≈的条件下,()()()2
6
62
21111h h h st h
h h h h
N N n V p W V p N N ==-==-∑∑ ()()()
621
111h h h
h h h h h h P P P P W f n n =--≈-∑,而其中每层的吃年夜饭的样本比例的方差的估计
值为()()()11111
h h h h h h h h h h h h h p p f n N n v p p p n n N n ---=
-=--,则样本比例的方差的估计值为()()()
()
6
6
221
1
111
h h st h
h h h h h h p p v p W v p W f n ==-=
=--∑∑,把相应的数值代入计算可得方差的
估计值为()43.960110st v p -=?,从而可以得到该估计值的标准差为()0.0199st s p =。
(2)利用上题的结果,()()2
222222
211h
h h h h h st h h h h W
S W S n V p W S rP Z W S N N
αωω==++∑∑∑∑,这里的方
差是()2
11
h h h h h N S P P N =
--,在1h h N N -≈的条件下,近似有()2
1h h h S P P =-。 ①比例分配的条件下,有h h W ω=成立,那么()
22
21h
h
h
h
W S
n rP z W S
N
α=
+∑∑,把相应的
估计值和数值代入可以求得最终的样本量应该是2663n =,样本量在各层的分配是123479.34479,559.23559,372.83373n n n =≈=≈=≈,4239.67240n =≈,
56426.08426,585.86586n n =≈=≈。
②内曼分配条件下,h h h
h h W S W S ω=∑,则()
()22
2
21
h
h
h
h
W S n rP Z W S
N α=
+∑∑,代入相
应的估计值和数值可以计算得到样本量为2565n =,在各层中样本量的分配为123456536,520,417,304,396,392n n n n n n ======。
3.5 解:总体总共分为10个层,每个层中的样本均值已经知道,层权也得到,从而可以计算得到该开发区居民购买冷冻食品的平均支出的估计值为10
1
75.79st h
h
h y W y
==
=∑。
下一步计算平均支出的95%的置信区间,首先计算购买冷冻食品的平均支出的估计值的
方差,其中10_22
11h st h
h h h f V y W S n =-??= ???∑,但是每层的方差是未知,则样本平均支出的方差的估计值为10_22
11h st h
h h h
f v y W s n =-??= ???∑,每个层的样本标准差已知,题目中已经注明各层的抽
样比可以忽略,计算可以得到10_22
1
159.8254h h
h st h h f v y W s n =-??=≈ ???∑。则这个开发区的居民购买冷冻食品的平均支出195%α-=
置信区间为2y z y z αα?-+=???
y y ?-+???
代入数值后,可得最终的置信区间为[]60.63,90,95。
3.6 解:首先计算简单随机抽样的方差,根据各层的层权和各层的总体比例可以得到总体的比例为3
1
0.28h h
h P W P
==
=∑,则样本量为100的简单随机样本的样本比例的方差为
()21f V p S n -=
,不考虑有限总体校正系数,()21V p S n ≈,其中()211
N
S P P N =--,
在1N N -≈的条件下,通过简单随机抽样得到的样本比例的方差为
()()2311
1 2.01610f V p S P P n n --=≈-=?
通过分层抽样得到的样本比例的方差为()2
2
1h st h h h
f V p W S n -=
∑,但是因为不考虑有 限总体校正系数,而且抽样方式是比例抽样,所以有
h h h h N n
W N n
ω===成立,样本比例的方差近似为()2
21h h st h h W S V p W S n n
==∑∑。对于每一层,分别有()2
11h h h h h N S P P N =
--,在1h h N N -≈的条件下,近似的有()2
1h h h S P P =-成立,有
22
21230.09,0.16,0.24S S S ===
样本量应该满足()
2
h
h
st W S n V p =
∑,同时这里要求分层随机抽样得到的估计的方差和简单
抽
样的方差是相同的,()()st V p V p =,层权分别为1230.2,0.3,0.5W W W ===,代入数值,
可以计算得到最终的样本量为()
2
3
0.186
92.26932.01610h
h
st W S n V p -=
=
=≈?∑。
3.7解:事后分层得到的总体均值的估计量和估计量的方差分别为
()()()
_
,pst pst E y Y E Var y =≈
()22
2111h h h h f W S W S n n -+-∑∑,估计量的方差的估计值()21pst
h h
f v y W s
n -=+∑
()2
2
11h h W s n
-∑。 对于几种说法的判断如下:
(1)事后分层比简单随机抽样产生更加精确的结果,这个说法是错误的。从事后分层得到估计量的方差的估计值来看,它的方差不一定比简单随机抽样的要小,而且从事后分层得到的样本是利用简单随机抽样的方法得到的,只是在计算估计量和估计量的方差时是按照分层随机抽样来处理,而且事后分层要求层权是已知的,但是当层权未知从而利用样本来估计层权时,就会产生偏差,事后分层不见得比简单随机抽样产生更精确的结果。
(2)事后分层比按比例分配产生更精确的结果,这个说法是错误的。从事后分层得到的估计量的方差的估计值可以看出,它的第一项就是按照比例分层抽样得到的估计量方差的估计值,公式中的第二项表示的是按事后分层时各层样本量与按照比例分层时各层样本量发生偏差所引起的方差的增量。
(3)事后分层的最优分配产生更精确的结果,这种说法是错误的。事后分层在样本量足够大的条件下是与比例分层相当的,但是在一般条件下,事后分层的精度仍然低于比例分层的,那么事后分层的精度也会高于最优分配的精度。
(4)在抽样时不能得到分层变量,这个说法是正确的。事后分层在抽样时,是利用简单随机抽样的方法,在抽样时不涉及按照变量进行分层,至于按变量进行分层,是在抽样完成后,然后根据具体的变量来对样本进行分层。
(5)它的估计量的方差与真正按照比例分层随机抽样的方差差不多,只有在样本量足够大的条件下才成立。在样本量足够大的条件下,从事后分层的方差的计算公式可以看出,它的第二项会趋于0,这时事后分层的估计量的方差和分层随机抽样的方差差不多。
3.8 解:(1) 根据简单随机抽样的公式,登记原始凭证的差错率的估计值为3
100
p =
= 3%,在考虑到0,1f N N ≈≈-的条件下,登记的原始凭证的差错率的估计量的方差近似
为
()()()2111
111f f N V p S P P P P n n N n
--=
=-≈-- 则估计量的方差的估计值为()()11v p p p n =-,计算得()()4
11 2.9110v p p p n
-=-=?,
则原始凭证的差错率的估计的标准差为()
2
1.7110s p -==?。
(2)这里,每个层的层权是事先知道的,那么利用事后分层来计算登记原始凭证的差错率的估计值为2
1
2.68%pst h h h p W p ==
=∑,在这里121
2.33%,
3.51%43
p p =
==。 利用事后分层得到的原始凭证的差错率的估计量的方差的估计值为()1pst f
v p n -=
()22
211h h h h
W s W s n +-∑∑,在不考虑有限校正系数的条件下,又可以写为()1pst v p n
= ()()
()2
1
11111
h h
h
h h h h h h h n n W p p W p p n n
n -+----∑∑,其中120.7,0.3,W W ==
1243,57n n ==,可以得到()
42.689510pst v p -=?,则相应的标准差为()pst s p = 21.6410-?。
3.9 解:(1)所有可能的样本的数量为22
339C C ?=,所有的样本如下:
()()()(){}()()()(){}()()()(){}3,0,5,3,8,6,15,9,3,0,5,3,8,6,25,15,3,0,5,3,25,15,15,9,
()()()(){}()()()(){}()()()(){}3,0,10,6,8,6,15,9,3,0,10,6,8,6,25,15,3,0,10,6,25,15,15,9,
()()()(){}()()()(){}()()()(){}5,3,10,6,8,6,15,9,5,3,10,6,8,6,25,15,5,3,10,6,25,15,15,9
(2)我们用9个样本中的一个来计算,假定抽中的样本为
()()()(){}5,3,10,6,8,6,25,15。
首先按照分别比估计来估计_
Y ,首先可以得到分层后的辅助变量的总体均值分别为
__126,16X X ==。在这个样本中,经计算得到____
12127.5,16.5, 4.5,10.5x x y y ====,
^^120.6,0.64R R ==,而且120.5W W ==,则根据分别比估计可得_Y 的估计值为_
RS y =
__
6.891h h
h h Rh W
y W R X Λ==∑∑。
利用联合比估计时,首先计算得到辅助变量的总体均值_
11X =,然后利用样本得到的主要变量和辅助变量的样本均值为_
_
7.5,12,7.5120.625c st st y x R Λ
====,则利用联合比估计得到的_
Y 的估计值为_
_ 6.875c RC y R X Λ
==。
在计算分别比估计和联合比估计的偏差,这里的方法是利用所有可能的样本,然后计算出比估计和联合估计的估计值,按照与上面相同的计算方法,计算得到其他样本时比估计和联合估计值(按照上面的样本的排列顺序)为:
______
1122336.342, 6.387, 6.216, 6.439, 5.925, 6.188,RS RC RS RC RS RC y y y y y y ====== _
_
_
_
_
_
4455666.602, 6.243, 6.476 6.457, 6.185, 6.227,RS RC RS RC RS RC y y y y y y ====== _
_
_
_
_
_
7788997.017, 6.947, 6.6, 6.6, 6.891, 6.875RS RC RS RC RS RC y y y y y y ====== 分别计算可得99____
11
116.473, 6.48599RS RSh RC RCh h h E y y E y y ==????==== ? ?????∑∑,而且可以
计算得到_var 0.076RC y ??= ???,_var 0.121RS y ??
= ???
。总体的实际均值为_
39/6 6.5Y ==。则
分别比估计和联合比估计的偏差分别为___6.473 6.50.027,RS RC E y Y E y ????
-=-=-- ? ?????
_
6.485 6.50.015Y =-=-。
____
0.0150.027RC RS E y Y E y Y ????-=<-= ? ?????
,所以联合比估计的偏差比分别比估计的偏差要小。
接下来计算分别比估计和联合比估计的均方误差。在这里样本量很小,不可以利用教材中的近似公式。
2
_
_
__var 0.1210.0007290.122RS RS RS MSE y y E y Y ??
??????=+-=+= ? ? ? ?????????
2
____var 0.0760.000250.0763RC RC RC MSE y y E y Y ??
??????=+-=+= ? ? ? ?????????
__0.07630.122RC RS MSE y MSE y ????
=<= ? ?????
(3)从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的偏差和均方
误差都要小于分别比估计,也就是说在本题中,联合比估计要比分别估计好。在本题中,各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。
第4章
4.1解:由题意知,平均每户家庭的订报份数为:
21.875=20)/10/4+16+20+(19/11
≈==∑∑==nM y y n i M
j ij (份)
总的订报份数为:
?4000 1.8757500Y
N y =?=?=(份) ∑=--=n i i b
y y n M s 1
22)(1=0.358 333 所以估计方差为:
2110.01
()0.358333410
b f v y s nM --=
=??=0.008 869
222221)()?(b
s nM
f M N y v M N Y v -===141 900 4.2
(1) n
M
m n
i i
∑==
1
=60.733 33
所以该系统同意这一改革人数的比例为:
m
y
y ==70.91%
其估计的方差为:
1
)(11
)
()(11
)
(1)(1
2
2
1
2
2
2
1
2
20
2
---=
---=---=∑∑∑===n y y
m n f n y y
N m n f N n y y
nM f
N y v n
i i
n
i i
n
i i
=0.001 37
所以其估计的标准误为:
)()(y v y s ==3.7%
(2) )()(y v y s =
=8%
2
2
2
2
1
1
22
()
()
11()1
()1
n
n
i
i
i i y y y y f
f v y N N nM n n mN n ==----==--∑∑
2
1
2
()
11
n
i
i y y f nm n =--=
-∑=0.006 4
得n=6.2,所以应抽取7个单位作样本。 4.3解:该集团办公费用总支出额为:
∑==n
i i
y
n
N Y
1
?=48/10×(83+62+…+67+80)=3 532.8(百元)
1
)(1)?(1
2
2---=∑=n y y
n
f N Y
v n
i i
=72 765.44
)?()?(Y v Y
s ==269.750 7(百元) 所以其置信度为95%的置信区间为:[3 004.089 , 4 061.511]
4.4解:n
M
m n
i i
∑==
1
=52.3
所以整个林区树的平均高度为:
m
y
y ==5.9(米)
其估计的方差为:
2
2
2
2
1
1
22
()
()11()1
()1
n
n
i i i i y y y y f
f v y N N nM n n mN n ==----==--∑∑
2
1
2
()
11
n
i
i y y f
nm n =--=-∑=0.06
所以其估计的标准误为:
)()(y v y s ==0.246(米)
其95%的置信区间为:[5.42 ,6.38] 4.5解:拍摄过艺术照的女生比例为:
∑∑===n i m
j ij y nm y 11
1=9/30=30%
其估计的方差为:
2
221211)1(1)(s nm
f f s n f y v -+-=
=0.005 891
其估计的标准差为:
)()(y v y s ==7.68%
4.6 解
: 1.882opt m =
=≈≈ 其中,222
22
21
188326100385.336
u
s s s M =-=-= 所以最优的样本学生数为2。 代入
012c c c n c nm
=++得到
20
opt n =
所以最优的样本宿舍数为20。 4.7解:(1)简单估计: 居民总的锻炼时间为:
∑∑===n i m j ij
i
i u
i
y
m M n N Y 11
?=1 650
居民平均每天用于锻炼的时间为:
?M Y
y u ==3.3(即33分钟)
222212122110(1)(1)1??()()n n i i u i i i i M f f N f N v y Y Y s M n n m ==??
--=-+????
∑∑ =0.163 421 其估计的标准差为:
)()(y v y s ==0.404 254
(2)比率估计:
居民总的锻炼时间为:
∑∑∑====n i i
n
i m j ij
i
i
R M
y
m M M Y i
1
110
?
居民平均每天用于锻炼的时间为:
∑∑∑====
=n i i
n
i m j ij
i
i R M
y
m M M Y
y i
1
110
?=3.95(即39.5分钟)
222212122
110
(1)(1)1
??()()n n i i u i i i i M f f N f N v y Y Y s M n n m ==??
--=-+?
???
∑∑ =0.071 509 其估计的标准差为:
)()(y v y s ==0.267 411
(3)简单估计下的相对误差为:
r=0.404 254/3.3=12.25% 比估计下的相对误差为:
r=0.267 411/3.95=6.77% 所以比估计的估计效果好。
第5章
表中,Z i 不是整数,乘以1 000 000使其变为整数,这样就可以赋予每个单元与其相等的代码数。
先在[1,1 000 054]中产生第一个随机数为825 011,其对应的单元为20号,则得到第一个入样单元20;
把单元20去掉,剩余的24个单元,累计代码数为1 000 054-36 590=963 464,在[1,963464]中产生第二个随机数为456 731,得到第二个入样单元9;
再把单元9去掉,剩余的23个单元,累计代码数为963 464-40 772=922 692,在[1, 922 692]中产生第三个随机数为857 190,得到第三个入样单元24;
依此类推,直至抽出所需的样本。
最后抽得的10个入样单元为20,9,24,3,4,25,21,16,7,5。
(2)“拉希里法”。
令{}*
max 0.078216i Z Z ==,25N =,在[1,25]和[1, 0.078 216]中分别产生随机数
()6, 0.021313,60.0739830.021313Z =>,第6号单元入样;
把单元6去掉,剩余的24个单元,{}max i Z 仍旧等于0.078 216,在[1,24]和[1,
0.078 216]中分别产生随机数()
10, 0.031543,100.022876<0.031543Z =,第10号单元不入样,重新抽取随机数;
依此类推,直至抽出所需的样本。
最后抽得的10个入样单元为6,9,18,4,1,5,19,21,16,13。
5.2.解:首先计算出各PSU 单元的入样概率,025M =。
由14(1)(12)(12)(1)
12i j i j ij N
i
i j i i
Z Z Z Z Z Z Z Z π=--=
--+-∑ 可得所有可能样本的ij π:
霍维茨-汤普森估计量的方差为^
2
1()()3787.572n
n
i j ij j i i j i
ij i j y y V Y ππππππ=>-=-=∑∑。
5.3解:代码法列出下表:
表中,Z i 不是整数,乘以1 000使其变为整数,这样就可以赋予每个单元与其相等的代码数。
在[1,1 000]之间产生三个随机数659,722,498,则它们所对应的第6,7,5号单元被抽中,即得到的n =3的PPS 样本包括单元6、单元7和单元5。
5.4解:由题意知n =3, 总体总量的估计为:
3111320120290?()2217.0062330.1380.0620.121i HH i i y Y Z ===++=∑
总量估计的标准差为:
?()142.5441
HH s Y ====
5.5解:由题意知2n =,023M =,0
i
i M Z M =
,每个单元的入样概率i i nZ π=。
以实例验证式(5.5)、式(5.6):
设i y 分别为7,20,12,4,6,22,当入样单元为单元1和单元2时,由式(5.5)可
得HH 1720
?()65.8055620.086956520.39130435
Y =?+=。若由式(5.30)进行计算,有HT
720
?()65.805560.1739130.782609Y =+=。
二者的计算结果是一致的。当入样单元为其他情况时,计算过程同上,二者结果仍保持
一致,从而验证了式(5.5)。
由式(5.6)可得6
211?()()258.02782i HH i
i i
Y V Y Z Y Z ==-=∑。若直接进行计算,有21??()(())170.7528n
n
HTi ij
i j i
V Y Y Y π=>=-=∑∑。
二者计算结果不一致,可见式(5.6)不适用于πPS 抽样的情况。
5.6 解:(1) 简单随机抽样简单估计量为:10,9,5,2,4。
65
425910)?(=++++==Y
E 均方误差为:
?() 3.033 15MSE Y
==
(2) 简单随机抽样比估计为:
①联合比估计:
35)21357(5
1
)
425910(51
=++++?++++?=R
联合比估计估计量为:
3
10
,35,315,325,335,因此 6)3
52351353355357(51)?(=?+?+?+?+??=R
Y E