作业与参考答案-ch03第三单元 计数资料的统计描述和统计推断

作业与参考答案-ch03第三单元 计数资料的统计描述和统计推断
作业与参考答案-ch03第三单元 计数资料的统计描述和统计推断

《医学统计学》

【教材】倪宗瓒主编.医学统计学.北京;高等教育出版

社.2004.

【作业】教材附录二 【习题解答】

第三单元 计数资料的统计描述和统计推断

分析计算题

3.1 解: (1) 100%=

?同年该年龄组死亡人数

年龄组死亡人数构成比某年某年龄组死亡总数

%39.1%1001802

25

~0=?=

岁组死亡人数构成比 余类推;

10000010=

?同年该年龄组死亡人数

死亡率万某年某年龄组平均人口数

010000010 3.3610?=25

~岁组死亡率=

万万745000

余类推;

岁组死亡率

各年龄组死亡率

相对比~0=

04.1336

.380

.43~30==

岁组相对比 余类推。

各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。

表3.1.1 某地某年循环系统疾病死亡资料

年龄组 /岁

平均人口数

循环系统 死亡人数

死亡人数构成比

/%

死亡率 (1/10万)

相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~ 400105 520 28.86 129.97 38.68 50~ 186537 648 35.96 347.38 103.39 60~ 52750 373 20.70 707.11 210.45 合 计

1923152

1802

100.00

93.70

(2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重;

死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度;

相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。

3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。

表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/% 类型 标准病人数

N i

甲医院

乙医院

原治愈率/%

p i 预期治愈人数

N i p i

原治愈率/%

p i 预期治愈人数

N i p i

普通型 552 59.9 331 65.2 360 重 型 552 39.9 220 44.9 248 暴发型 252 19.8 50

25.4 64

合 计

1356

48.4

601(

i i

N p ∑)

45.4

672(

i i

N p ∑)

甲医院某传染病标准化治愈率:601

100%44.3%1356p '=?=甲

乙医院某传染病标准化治愈率:672100%49.6%1356p '=?=乙

可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

3.3解:本题推断样本所代表的总体率π与一个已知总体率0π是否相等。因样本量较小,故采用直接计算概率法。

(1) 建立检验假设,确定检验水准

0H 3.0=π,即该新药的治疗效果与传统疗法相同 :1H 3.0<π,即该新药的治疗效果优于传统疗法 单侧05.0=α

(2) 确定P 值,作出统计推断

在0H 成立的前提下,10名病人中死亡人数)3.0,10(~B X ,则有

1493.07.03.07.0)1()0()1(9111010=+==+==≤C X P X P X P

按单侧05.0=α水准不拒绝0H ,尚不能认为该新药的治疗效果优于传统疗法。

3.4解:(1) 本题是Poisson 分布两样本均数的比较。两样本观察单位相同,而且阳性数均大于20,可用大样本u 检验方法。

1) 建立检验假设,确定检验水准

0H 21μμ=,即甲乙两地妇女的卵巢癌患病率相同 :

1H 12μμ≠,即甲乙两地妇女的卵巢癌患病率不同 05.0=α

2) 计算检验统计量

以1万名妇女为一个Poisson 分布观察单位,1μ和2μ的点估计值分别为1X 和

2X ,得

1.4907u =

==

3) 确定P 值,作出统计推断

查u 界值表得0.10

(2) 该资料也可用二项分布的两个样本率比较。 1) 建立检验假设,确定检验水准

0H 21ππ=,即甲乙两地妇女的卵巢癌患病率相同 :

1H 12ππ≠,即甲乙两地妇女的卵巢癌患病率不同 05.0=α

2) 计算检验统计量

本题,1n =10000,1X =100,1p =0.01;2n =10000,2X =80,2p =0.008 合并率 009.010000

1000080

100=++=

c p

4975.1)

10000

1

100001(991.0009.0008

.001.0)11)(

1(2

12

1=+??-=

+--=

n n p p p p u c c

3) 确定P 值,作出统计推断

查u 界值表得0.10

该资料分析在统计软件中用2χ检验实现。

3.5解:本题是二项分布总体率的区间估计。50≤n , p 很接近0,故采用查表法。

n =40,X =2,查百分率的可信区间表得1-17,故该地此病的基因总体携带率的95%可信区间为(1%,17%)。

3.6解:本题目的是推断样本所代表的总体率π与一个已知总体率0π是否不同。因样本量足够大,且p 既不接近于0也不接近于1,故采用正态近似法。

(1) 建立检验假设,确定检验水准

0H 9.7%π=,即吸烟人群慢性气管炎患病率与一般人群相同

:1H 9.7%π>,即吸烟人群慢性气管炎患病率高于一般人群 单侧05.0=α (2) 计算检验统计量 n =300,X =63,21.0300

63

==

p ,0π=0.097,有 6132.6300

903

.0097.0097.021.0)

1(000

=?-=

--=

n

p u πππ

(3) 确定P 值,作出统计推断

查u 界值表得0005.0

3.7解:本题以 1 mL 饮料作为Poisson 分布观察单位,4=n ,样本均值为

X =60/4=15个/mL

,标准差为 3.87x S ==个/mL 。

本题6050X =>,按

式(X u X α

α

-+求得的95%可信区间

(60 1.90,6060-+,

即该饮料中每4mL 所含细菌数(个)的95%可信区间为(44.82, 75.18)。所以,该饮料中每1mL 所含细菌数(个)的95%可信区间为(11.2, 18.8)。

3.8解:本题为Poisson 分布两个样本均数的比较。两个样本观察单位相同,且阳性数均大于20,可根据Poisson 分布的近似正态性,利用两大样本u 检验的方法得到检验统计量。

(1) 建立检验假设,确定检验水准

0H 21μμ=,即两种饮料中平均每10mL 细菌数无差别 :

1H 12μμ≠,即两种饮料中平均每10mL 细菌数有差别 05.0=α

(2) 计算检验统计量

以10mL 饮料样品为一个Poisson 分布观察单位,1μ和2μ的点估计值分别为

1X 和2X ,得

15.5300

4403004402

121=+-=

+-=

X X X X u

(3) 确定P 值,作出统计推断

查u 界值表得001.0

3.9解:本题是Poisson 分布的样本所代表的总体均数μ与已知总体均数0μ的比较。因μ<20,故采用直接计算概率法。

(1) 建立检验假设,确定检验水准

0H 0μμ=,即此地区1999年腭裂发生率与1998年相等 :1H 0μμ<,即此地区1999年腭裂发生率低于1998年 单侧05.0=α

(2) 确定P 值,作出统计推断

1000=n ,15.20=π‰,15.200==πμn ,在H 0成立的前提下,所调查的

1000名新生儿中发现的腭裂数X ~)15.2(P ,则有

3669.02504.01165.015.2)1()0()1(15.215.2=+=?+==+==≤--e e X P X P X P 按05.0=α的水准不拒绝0H ,差别无统计学意义,尚不能认为此地区1999年腭裂发生率比1998年低。

3.10解:本题是Poisson 分布总体均数的估计。因502<=X ,故采用查表法估计总体均数的95%可信区间。查Poisson 分布μ的可信区间表,样本计数X 为2的

一行,μ的95%可信区间的下限为0.2,上限为7.2,故该地区平均每毫升水所含大肠杆菌菌落的95%可信区间为(0.2,7.2)个。

3.11解:本题为二项分布两样本率的比较,可以采用u 检验也可采用2χ检验。 方法一:

(1) 建立检验假设,确定检验水准

0H 21ππ=,即两种治疗方案的有效率无差别 :

1H 21ππ≠,即两种治疗方案的有效率有差别 05.0=α

(2) 计算检验统计量

本题, 1n =40,1X =31,1p =0.775;2n =40,2X =14,2p =0.35 合并率 5625.040

4014

31=++=

c p

3.8314u =

=

=

(3) 确定P 值,作出统计推断

查u 界值表得P <0.001,按05.0=α水准拒绝0H ,接受1H ,差别有统计学意义,可以认为两种治疗方案的有效率有差别,甲方案的疗效优于乙方案。 方法二:

表3.11.1 两种治疗方案治疗乳腺癌有效率的比较

处理 有效 无效 合计 有效率/% 甲方案 31 9 40 77.50 乙方案 14 26 40 35.00 合计

45

35

80

56.25

(1) 建立检验假设,确定检验水准

0H 21ππ=,即两种治疗方案的有效率无差别 :

1H 21ππ≠,即两种治疗方案的有效率有差别 05.0=α

(2) 计算检验统计量

m i n 3540

17.580

T ?=

= 222

()(3126914)80

14.68()()()()40404535

ad bc n a b c d a c b d χ-?-??=++++???==

ν=(2-1)(2-1)=1

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按05.0=α水准拒绝0H ,接受1H ,差别有统计学意义,可以认为两种治疗方案的有效率有差别,甲方案的疗效优于乙方案。

由计算结果可以验证:四格表的双侧u 检验与2χ检验是完全等价的,有

22u =χ。

3.12 解:本题为完全随机设计两样本率的比较。整理表格见表3.12.1。

表3.12.1 两种疗法治疗原发性高血压的疗效

分 组 有效 无效 合计 有效率/% 实验组 21 2 23 91.30 对照组 5 16 21 23.81 合计

26

18

44

59.09

(1) 建立检验假设,确定检验水准

0H 21ππ=,即该药治疗原发性高血压无效 :

1H 21ππ≠,即该药治疗原发性高血压有效 05.0=α

(2) 计算检验统计量

559.844

18

21min >=?=

T 222

()(211625)44

20.69()()()()23212618

ad bc n a b c d a c b d χ-?-??===++++???

ν=(2-1)(2-1)=1

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按05.0=α水准拒绝0H ,接受1H ,差别有统计学意义,可以认为该药治疗原发性高血压有效。

3.13 解:本题为配对设计四格表的2χ检验。整理表格见表3.13.1:

表3.13.1 两种试纸检测尿葡萄糖结果

A 试纸

B 试纸

合计

+

- + 70 20 90 - 4 6 10 合计

74

26

100

(1) 建立检验假设,确定检验水准

H 0:B=C ,即两种试纸检测结果的总体阳性率相同 H 1:B≠C ,即两种试纸检测结果的总体阳性率不同

0.05α= (2) 计算检验统计量

已知b =20,c =4,b +c =24<40,有

2

2

2(1)(2041)9.375204

b c b c

χ----=

++=

=

ν=(2-1)(2-1)=1

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按0.05α=水准拒绝H 0,接受H 1,差别有统计学意义,故可以认为两种试纸的检测结果总体阳性率不同,A 试纸检测结果的阳性

率较高。

3.14 解:本题为多个样本率的比较。

(1) 建立检验假设,确定检验水准

H 0:π1=π2=π3=π4,即不同类型原发性肺癌的nm23-H 1基因表达率无差

H 1:π1、π2、π3、π4,即不同类型原发性肺癌的nm23-H 1基因表达率不同

或不全相同

0.05α= (2) 计算检验统计量

543.6280

90

20min >=?=

T 2222

2

95401012801135190135902090R C A n n n χ????=-=++- ? ????????

∑ =3.35

ν=(4-1)(2-1)=3

(3) 确定P 值,作出统计推断

查2χ界值表得0.25

3.15 解:本题为两组构成比的比较。

(1) 建立检验假设,确定检验水准

H 0:腺样癌和粘液表皮样癌的好发部位构成比相同 H 1:腺样癌和粘液表皮样癌的好发部位构成比不同

0.05α= (2) 计算检验统计量

539.42149410min <=?=

T ,530.12214

94

28>=?=次小T ,1/5以下格子理论频数小于5。

2222

2

311781214112078120299428R C A n n n χ????=-=+++- ? ????????

∑……=15.41

ν=(5-1)(2-1)=4

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按0.05α=水准拒绝H 0,接受H 1,差别有统计学意义,故可认为腺样癌和粘液表皮样癌的好发部位构成比不同。

3.16 解:本题是行×列表资料的关联性分析。

(1) 建立检验假设,确定检验水准

H 0:血型与幽门螺杆菌(Hp )感染无关系 H 1:血型与幽门螺杆菌(Hp )感染有关系

0.05α= (2) 计算检验统计量

min 6820

5.695239

T ?=

=> 2222

2819123914717147682068R C A n n n χ????=-=?+++- ? ????????

∑2

10……=31.21

ν=(4-1)(2-1)=3

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005,按0.05α=水准拒绝H 0,接受H 1,故可认为血型与幽门螺杆菌(Hp )感染有关系。

3.17 解:本题采用趋势2χ检验。

表3.17.1 某地1993~1999年损伤与中毒的病死率

年度 发病人数n 病死人数t 病死率/% 分数Z tZ nZ nZ 2 1993 580 8 1.38 1 8 580 580 1994 571 12 2.10 2 24 1142 2284 1995 680 16 2.35 3 48 2040 6120 1996 760 30 3.95 4 120 3040 12160 1997 942 30 3.18 5 150 4710 23550 1998 1100 52 4.73 6 312 6600 39600 1999

1084

51

4.70

7

357

7588

53116

合计 5717 199 — — 1019 25700 137410

(1) 建立检验假设,确定检验水准

0H :该地的损伤与中毒的病死率无随时间变化而增加的趋势

1H :该地的损伤与中毒的病死率有随时间变化而增加的趋势

05.0=α (2) 计算检验统计量

由于本题是按性质分组的资料,评分为1,2,3,4,5,6,7。趋势检验所需中间结果见表3.17.1的右边4列,计算的2χ值为:

()

()2

22

22

2()()(())

5717571710191992570021.06

1995717199(571713741025700)

N N tZ T nZ T N T N nZ nZ χ-=

--?-?=

=-?-∑∑∑∑

1=ν

(3) 确定P 值,作出统计推断

查2χ界值表得P <0.005。按05.0=α水准,拒绝0H ,接受1H 。故可以认为该地的损伤与中毒的病死率随时间变化而呈增加的趋势。

3.18 解:本题采用两样本率的等效检验。

(1) 建立检验假设,确定检验水准

H 0:21ππ-≥?,即新药与标准药物不等效 H 1:21ππ-

05.0=α

(2) 计算检验统计量

试验新药组 211601481900.1

?0.8385390

a c n n π

++?++?=== 70.1678385.0200?11=?==π

n T a 30.3270.1672001=-=-=a b T n T

标准药物组 7385.0390

1

.020*******?12=?-+=?-+=n n c a π

22?1900.7385140.32c T n π

==?= 2190140.3249.68d c T n T =-=-=

()2

2222

2(160167.70)(148140.32)(4032.30)(4249.68)

167.70140.3232.3049.683.80

R C R C

RC

A T T χ-=----=+++=∑

1=ν

(3) 确定P 值,作出推断结论

查2χ界值表,得0.05

本题如作u 检验(单侧),计算统计量: 91.1190

)

7789.01(7789.0200)8000.01(8000.0)

7789.08000.0(1.0)

1()1()(2

2211121=-+

---=

-+---?=

n p p n p p p p u

查t 界值表(ν=∞),得0.025

3.19 最佳选择题 (1) b

(2) c

(3) b

(4) c

(5) c

(6) c

【复习思考题参考答案】

3.20 答:二项分布、Poisson 分布、正态分布间的关系可以如下表示:

二项分布是概率为k n k

k n C k X P --==)1()(ππ的离散型分布。凡具有贝努利

试验序列三个特点的变量,一般可认为服从二项分布。二项分布图形形状完全取决于n 和π的大小。当π=0.5时图形对称,随着n 的增大,图形渐近于正态分布图形。当π≠0.5时,图形呈偏态,但随着n 的增大,图形也逐渐对称,趋向于正态分布图形。当n 趋近于无穷大时,二项分布就成为正态分布。在实际应用中,只要n 足够大且π既不接近于0也不接近于1时,就可以用正态近似原理处理二项分布的问题。

Poisson 分布也是一种离散型分布,常用于研究单位时间或单位空间内某罕见事件发生次数的分布,具有n 很大时事件发生率很小的性质。其概率为

!

)(k e k X P k μ

μ-?=

=。Poisson 分布图形形状完全取决于μ的大小。当10=μ时图

形基本对称,随着μ的增大,图形渐近于正态分布。Poisson 分布可视为二项分布的特例。若某现象的发生率π甚小,而样本例数n 甚多时,则二项分布逼近Poisson 分布。一般在实际应用中,当20≥μ时,Poisson 分布近似正态分布,资料可根据正态分布原理处理,从而简化计算。

正态分布曲线的密度函数为2

2)(21

)(σμπ

σ--=

X e

X f 。二项分布和Poisson 分

布的极限分布为正态分布。因此,在应用二项分布和Poisson 分布时,常常利用正态近似原理,估计总体参数的可信区间和进行u 检验。

3.21 答:2χ检验用于:推断两个及两个以上总体率或构成比是否有差别,两个分类变量间有无相关关系,多个率的趋势检验,以及两个率的等效检验等。此外,也用于频数分布的拟合优度检验。

对不同的设计类型的资料,2χ检验的应用条件不同: (1) 完全随机设计两样本率的比较

1) 当n >40,且T ≥5时,用非连续性校正2χ值;

∑-=T T A 22

)(χ 或 )

)()()(()(22

d b c a d c b a n bc ad ++++-=χ

若所得P ≈α,则改用四格表的确切概率法。 2) 当n ≥40,且有1≤T<5时,用连续性校正2χ值。

--=T

T A c 2

2)5.0(χ 或 ()()()()()

d b c a d c b a n

n bc ad ++++--=

2

22/χ

3) n <40,或有T<1时,不能用2χ检验,应当用四格表的确切概率法。 (2) 配对设计四格表

1) 当b +c ≥40,c

b c b +-=2

2

(χ

2) 当b +c <40,需作连续性校正,c

b c b +--=2

2

)1(χ

(3) 行列表资料

专用公式:???

? ??-=∑12

2

C R n n A n χ 1) 不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1; 2) 单向有序行列表,在比较各处理组的效应有无差别时,应该用秩和检验或Ridit 检验;

3) 多个样本率(或构成比)比较的2χ检验时,结论为拒绝无效假设时,只能认为各总体率(或总体构成比)之间总的说来有差别,但不能说明它们彼此之间都有差别,或某两者间有差别。若想进一步了解哪两者的差别有统计学意义,

可用2χ分割法。

3.22答:四格表的u 检验和2χ检验的联系,体现在: (1) 相同点:

四格表的u 检验是根据正态近似原理(n 足够大,π和1-π均不太小),能用四格表的u 检验进行两个率比较检验的资料,都可以用2χ检验。四格表的双

侧u 检验与2χ检验是完全等价的,两个统计量的关系为u 2=2χ, 2

c u =2c χ,而相对应的界值的关系为2105.022/05.0,χ=u ;

(2) 不同点:

1) 正态分布可以确定单、双侧检验界值,满足正态近似条件时,可以使用四格表的单侧u 检验;

2) 满足四格表u 检验的资料,可以估计两率之差的95%可信区间,还可分析两率之差有无统计学意义;

3) 2χ检验还可以用于配对设计四格表,但这时推断1π,2π是否有差别的2

χ公式不同。

3.23 (略)

习题-计量资料统计描述

计量资料统计描述----习题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用() A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、原始数据同减去一个不等于零的常数后,()。 A. x 不变,S 变 B. x 变,S 不变 C. x 和S 都不变 D. x 和S 都变 E.以上均不对 5、变异系数CV()。 A.表示X 的绝对离散度 B.表示X 的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 6、描述一组偏态分布资料的变异度,以()指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 7、用均数和标准差可以全面描述()资料的特征。 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 8、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 9、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 10、各观察值同乘以一个不等于0 的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 11、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 12、随机抽查某地成年女子身高,算得均数x =160cm,标准差S=5cm,则可计算变异系数CV=------- 5 160 C.(160/5)cm D.(5/160)cm ×160 13、变异系数CV 的数值()。 A.一定大于1 B.一定小于1 C.可大于1,也可小于1 D.一定比标准差小 E.不能判定 14、列数8、-3、5、0、4、-1 的中位数是()。 、关于标准差,哪项是错误的()。 A.反映全部观察值的离散程度 B.度量了一组数据偏离平均数的大小 C.反映了均数代表性的好坏 D.不会小于算术均数 E.适用于对称分布资料 16、5 人的血清滴度为<1:20、1:40、1:80、1:160、1:320 描述平均滴度,用哪种指标较好()。 A.平均数 B.几何均数 C.算术均数 D.中位数 E.众数

@2017.3.16-统计学-计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A 、描述平均水平(中心位置): 均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度: 标准差、四分位数间距、 变异系数、方差、全距 (一)均数mean 和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median )M 和百分位数(percentile ) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 12n X X X X X n n +++== ∑L

用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n 为奇数时-- n 为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数 是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) =第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 ) (天1552 19===+X X M 88451 22221415214.5() M X X X X ?? ==== ???+如果只调查了前八位中学生,则: +(+)(+)天

百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数f x :所在组段频数 注:有的教材X= r ; L f ∑=C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 2565~ 15 34 P 25在此 68~ 25 59 71~ 26 85∑f 75 L 7574~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5落在65~组段内;

作业与参考标准答案ch第三部分计数资料统计描述和统计推断

作业与参考标准答案ch第三部分计数资料统计描述和统计推断

————————————————————————————————作者:————————————————————————————————日期:

《医学统计学》 【教材】倪宗瓒主编.医学统计学.北京;高等教育出版 社.2004. 【作业】教材附录二 【习题解答】 第三单元 计数资料的统计描述和统计推断 分析计算题 3.1 解: (1) 100%= ?同年该年龄组死亡人数 年龄组死亡人数构成比某年某年龄组死亡总数 %39.1%1001802 25 ~0=?= 岁组死亡人数构成比 余类推; 10000010= ?同年该年龄组死亡人数 死亡率万某年某年龄组平均人口数 010000010 3.3610?=25 ~岁组死亡率= 万万745000 余类推; 岁组死亡率 各年龄组死亡率 相对比~0= 04.1336 .380 .43~30== 岁组相对比 余类推。 各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。 表3.1.1 某地某年循环系统疾病死亡资料 年龄组 /岁 平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~ 400105 520 28.86 129.97 38.68 50~ 186537 648 35.96 347.38 103.39 60~ 52750 373 20.70 707.11 210.45 合 计 1923152 1802 100.00 93.70 — (2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重; 死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度; 相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。 3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。 表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/% 类型 标准病人数 N i 甲医院 乙医院 原治愈率/% p i 预期治愈人数 N i p i 原治愈率/% p i 预期治愈人数 N i p i 普通型 552 59.9 331 65.2 360 重 型 552 39.9 220 44.9 248 暴发型 252 19.8 50 25.4 64 合 计 1356 48.4 601( i i N p ∑) 45.4 672( i i N p ∑) 甲医院某传染病标准化治愈率:601 100%44.3%1356p '=?=甲 乙医院某传染病标准化治愈率:672100%49.6%1356p '=?=乙 可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

看医统学习题(计数资料)

《医学统计学习题》计数资料 5、有资料如下表: 甲、乙两个医院某传染病各型治愈率 病型 患者数治愈率(%)甲乙甲乙 普通型300 100 60.0 65.0 重型100 300 40.0 45.0 暴发型100 100 20.0 25.0 合计500 500 48.0 45.0 由于各型疾病的人数在两个医院的内部构成不同,从内部看,乙医院各型治愈率都高于甲医院,但根据栏的结果恰好相反,纠正这种矛盾现象的统计方法是: A、重新计算,多保留几位小数 B、对率进行标准化 C、对各医院分别求平均治愈率 D、增大样本含量,重新计算 6、5个样本率作比较,χ2>χ20.01,4,则在α=0.05检验水准下,可认为: A、各总体率不全等 B、各总体率均不等 C、各样本率均不等 D、各样本率不全等 7、两个独立小样本计量资料比较的假设检验,首先应考虑: A、用t检验 B、用Wilcoxon秩和检验 C、t检验或Wilcoxon秩和检验均可 D、资料符合t检验还是Wilcoxon秩和检验条件 13.对三行四列表资料作 2检验,自由度等于 A. 1 B. 2 C. 3 D. 6 E. 12 14. 根据下述资料,则 病情 病人数治愈数治愈率(%)病人数治愈数治愈率(%)轻型40 36 90 60 54 90 重型60 42 70 40 28 70 合计100 78 78 100 82 82 A. 乙疗法优于甲疗法 B. 甲疗法优于乙疗法 C. 甲疗法与乙疗法疗效相等 D. 此资料甲、乙疗法不能比较 E. 以上都不对15.在实际工作中,同质是指()。 A.被研究指标的非实验影响因素均相同。B.研究对象的测量指标无误差。 C.被研究指标的主要影响因素相同。D.研究对象之间无个体差异。E.以上都对。答案 5、有资料如下表: 甲、乙两个医院某传染病各型治愈率 病型 患者数治愈率(%)甲乙甲乙

医学统计学定性统计描述思考与练习带答案

第五章定性资料的统计描述 【思考与练习】 一、思考题 1.应用相对数时需要注意哪些问题 2. 为什么不能以构成比代替率 3. 标准化率计算的直接法和间接法的应用有何区别 4. 常用动态数列分析指标有哪几种各有何用途 5. 率的标准化需要注意哪些问题 二、案例辨析题 某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为%(30/98)、%(51/98)和%(17/98)。该结论是否正确为什么 三、最佳选择题 1. 某地2006年肝炎发病人数占当年传染病发病人数的%,该指标为B A. 率 B. 构成比 C. 发病率 D. 相对比 E. 时点患病率 2. 标准化死亡比SMR是指A

A. 实际死亡数/预期死亡数 B. 预期死亡数/实际死亡数 C. 实际发病数/预期发病数 D. 预期发病数/实际发病数 E. 预期发病数/预期死亡数 3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。可计算出这样一些相对数: 11395283.18%16774 p = =, 21395219369 83.08%1677423334p +==+, 313952 101.86/1013697600 p ==万, 416774122.46/1013697600p = =万,523334 176.85/1013194142 p = =万, 645p p p =+ 71395219369 123.91/101369760013194142 p += =+万 81677423334 149.15/101369760013194142 p += =+万 该地男性居民五种心血管疾病的死亡率为D A. 1p B. 2p C. 3p D. 4p E. 5p 4. 根据第3题资料,该地居民五种心血管病的总死亡率为E A. 1p

计量资料汇总统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

计数资料的统计学分析 (1)

[模拟] 计数资料的统计学分析 A型题题干在前,选项在后。有A、B、C、D、E五个备选答案其中只有一个为最佳答案。 第1题: 计数资料又称如下哪一种资料 A.数量资料 B.抽样资料 C.普查资料 D.调查资料 E.定性资料 参考答案:E 答案解析: 第2题: 计数资料是指将观察单位按下列哪一种分组计数所得的资料 A.数量 B.体重 C.含量 D.属性或类型或品质 E.放射性计数 参考答案:D 答案解析: 第3题: 计数资料的初步分析常常要用下列哪些相对数 A.频数 B.频数和频率指标 C.率、构成比和相对比 D.构成指标和相对比 E.比和构成比 参考答案:C 答案解析: 第4题: 频率指标,它说明某现象发生的如下哪一种

B.强度 C.比重大小 D.例数 E.各组的单位数 参考答案:B 答案解析: 第5题: 构成指标,它说明一事内部各组成部分所占的如下哪一种大小 A.比重 B.强度 C.频数 D.频率 E.例数 参考答案:A 答案解析: 第6题: 对480人进行老年性白内障普查,分60岁一、70岁一和80岁一三个年龄组受检人数分别为300、150和30人,白内障例数分别为150、90和24人。回答70岁一年龄组的患病率(%)是多少 A.5 B.50 C.60 D.80 E.20 参考答案:C 答案解析: 第7题: 对1000人进行老年性白内障普查,分50岁一和60岁一两个年龄组,受检人数分别为480人和520人,白内障例数分别为120人和280人。回答患者50岁一年龄构成比(%)是多少 A.53.9 B.12 C.30 D.28

参考答案:C 答案解析: 第8题: 在计数资料计算相对数时,应注意如下哪些问题 A.分母不宜过大 B.可比性 C.随机性 D.分母不宜过小 E.分母宜中 参考答案:D 答案解析: 第9题: 在计数资料进行相对数间比较时,应注意如下哪些问题 A.分母不宜太小 B.可比性 C.可用频率指标代替构成指标 D.随机性和正态分布 E.其可比性和遵循随机抽样 参考答案:E 答案解析: 第10题: X2检验是要计算检验统计量X2值、X2值是反应如下哪种情况 A.实际频数大于理论频数 B.理论频数大于实际频数 C.实际频率和理论频率的吻合程度 D.实际频数和理论频数的吻合程度 E.实际频率大于理论频率 参考答案:D 答案解析: 第11题: X2值愈大,则X2值的概率P值如下哪种情况

第三单元 计数资料的统计描述和统计推断(第一部分)

第三单元计数资料的统计描述和统计推断 【习题】 分析计算题 3.1 某地某年循环系统疾病死亡资料如表18。 表18 某地某年循环系统疾病死亡资料 年龄组/岁平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率 /0~组死亡率) 0~745000 25 30~538760 236 40~400105 520 50~186537 648 60~52750 373 合计1923152 1802 (1) 请根据以上数据计算各年龄组死亡人数构成比、死亡率和相对比。 (2) 分析讨论各指标的含义。 3.2 请就表19资料比较甲、乙两个医院某传染病的治愈率/%。 表19 甲、乙两院某传染病治愈率(%)的比较 类型 甲医院乙医院 病人数治愈数治愈率/% 病人数治愈数治愈率/% 普通型414 248 59.9 138 90 65.2 重型138 55 39.9 414 186 44.9 暴发型126 25 19.8 126 32 25.4 合计678 328 48.4 678 308 45.4 3.3 传统疗法治疗某病,其病死率为30%,治愈率为70%。今用某种新药治疗该病10人,结果有1人死亡。问该新药的治疗效果是否优于传统疗法(单侧)。

3.4 甲、乙两地各抽样调查1万名妇女,结果甲地卵巢癌患病人数100人,乙地卵巢癌患病人数80人,请问甲乙两地妇女的卵巢癌患病率是否不同。 3.5 对甲地一个由40名新生儿组成的随机样本进行某病的基因检测,结果阳性2例。据此资料,估计该地此病的基因总体携带率的95%可信区间。 3.6 已知一般人群中慢性气管炎患病率为9.7%,现调查了300名吸烟者,发现其中有63人患有慢性气管炎,试推断吸烟人群慢性气管炎患病率是否高于一般人群。 3.7 研究者取4mL某饮料进行细菌培养,得细菌数60个,试估计平均每1mL 饮料中细菌数的均值和标准差,并估计平均每1mL饮料中细菌数的95%可信区间。 3.8 分别从两种饮料中各取10mL样品进行细菌培养,甲饮料培养细菌440个,乙饮料培养细菌300个,问两种饮料中细菌数有无差别。 3.9 若某地区1998年新生儿腭裂发生率为2.15‰ ,1999年在此地区抽样调查1000名新生儿,发现腭裂1例,问此地区1999年腭裂发生率是否比1998年低。 3.10 对某地区居民饮用水进行卫生学检测中,随机抽查1mL水样,经培养获大肠杆菌菌落2个,试估计该地区水中平均每毫升所含大肠杆菌菌落的95%可信区间。 3.11 将80例均为初治的乳腺癌患者随机分配到甲乙两种治疗方案中,每组各40例,甲方案31例有效,乙方案14例有效,问两种治疗方案的有效率有无差别? 3.12 为了解某中药治疗原发性高血压的疗效,将44名高血压患者随机分为两组。实验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如表20,问该药治疗原发性高血压是否有效? 表20 两种疗法治疗原发性高血压的疗效 分组例数有效有效率/% 实验组23 21 91.30 对照组21 5 23.81

计量资料的统计描述

第二章 计量资料的统计描述 一、教学大纲要求 (一)掌握内容 1. 频数分布表与频数分布图 (1)频数表的编制。 (2)频数分布的类型。 (3)频数分布表的用途。 2. 描述数据分布集中趋势的指标 掌握其意义、用途及计算方法。算术均数、几何均数、中位数。 3. 描述数据分布离散程度的指标 掌握其意义、用途及计算方法。极差、四分位数间距、方差、标准差、变异系数。 (二)熟悉内容 连续型变量的频数分布图:等距分组、不等距分组。 二、 教学内容精要 计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。 (一)频数分布表的编制 频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。制作连续型数据频数表一般步骤如下: 1.求数据的极差(range )。 min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。 确定组段和组距。每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ

作业与参考答案-ch03第三单元 计数资料的统计描述和统计推断

《医学统计学》 【教材】倪宗瓒主编.医学统计学.北京;高等教育出版 社.2004. 【作业】教材附录二 【习题解答】 第三单元 计数资料的统计描述和统计推断 分析计算题 3.1 解: (1) 100%= ?同年该年龄组死亡人数 年龄组死亡人数构成比某年某年龄组死亡总数 %39.1%1001802 25 ~0=?= 岁组死亡人数构成比 余类推; 10000010= ?同年该年龄组死亡人数 死亡率万某年某年龄组平均人口数 010000010 3.3610?=25 ~岁组死亡率= 万万745000 余类推; 岁组死亡率 各年龄组死亡率 相对比~0= 04.1336 .380 .43~30== 岁组相对比 余类推。 各年龄组死亡人数构成比、死亡率和相对比计算结果见表3.1.1。 表3.1.1 某地某年循环系统疾病死亡资料 年龄组 /岁 平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率/0~组死亡率)

0~ 745000 25 1.39 3.36 — 30~ 538760 236 13.10 43.80 13.04 40~ 400105 520 28.86 129.97 38.68 50~ 186537 648 35.96 347.38 103.39 60~ 52750 373 20.70 707.11 210.45 合 计 1923152 1802 100.00 93.70 — (2) 死亡人数构成比是指某年龄组死亡人数与各年龄组死亡人口总数之比,说明总死亡人数中各年龄组死亡人数所占的比重; 死亡率是指某年实际死亡数与该年可能发生死亡人数(本题即为该年平均人口数)之比,用以说明死亡发生的频率或强度; 相对比用以说明各年龄组死亡率是0~岁组死亡率的几倍或几分之几。 3.2解:因为甲、乙两医院某传染病的类型构成明显不同,且疾病类型对该病的治疗效果有影响,故应进行标准化,再比较两医院的治愈率。根据本题资料,以两医院合计病人数为标准人口,采用直接标准化法。 表3.2.1 直接法计算甲、乙两医院某传染病标准化治愈率/% 类型 标准病人数 N i 甲医院 乙医院 原治愈率/% p i 预期治愈人数 N i p i 原治愈率/% p i 预期治愈人数 N i p i 普通型 552 59.9 331 65.2 360 重 型 552 39.9 220 44.9 248 暴发型 252 19.8 50 25.4 64 合 计 1356 48.4 601( i i N p ∑) 45.4 672( i i N p ∑) 甲医院某传染病标准化治愈率:601 100%44.3%1356p '=?=甲 乙医院某传染病标准化治愈率:672100%49.6%1356p '=?=乙 可以看出,经标准化后乙医院的该传染病的治愈率高于甲医院。

统计学计量资料的统计描述方法

计量资料的统计描述方法 怎样表达一组数据? 描述计量资料的常用指标— A、描述平均水平(中心位置): 均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度: 标准差、四分位数间距、变异系数、方差、全距 (一)均数mean和标准差standard deviation 1. (算术)均数X 均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式: 应用条件:适用于对称分布,特别是正态分布资料。 2. 中位数(median)M和百分位数(percentile) A.中位数M 是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件: 用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算: n为奇数时-- n为偶数时-- 9人数据:12,13,14, 14, 15, 15, 15, 17, 19天 B.百分位数

是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。中位数是第百分50位数。 四分位数间距(quartile range ) = 第25百分位数(P25)~第75百分位数(P75)。 四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。 百分位数计算(频数表法): X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数 注:有的教材X= r ; L f =C 例:求频数表的第25、第75百分位数(四分位数间距) 组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~ 15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~ 19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130 合 计 130 ① 确定Px 所在组段: P 25所在的组段:n X %=130×25%=, 65~组最终的累积频数=34,落在65~组段内; P 75所在的组段:n X %=130×75%=, 此值落在74~组段

最新第一单元 计量资料的统计描述

第一单元计量资料的统计描述 【习题】 分析计算题 1.1 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素锌(Zn)的含量(μg/g),资料如下: 40 87 105 113 121 127 133 142 152 168 215 54 88 105 113 121 127 134 143 153 173 220 61 92 106 113 122 127 135 143 153 176 74 94 107 114 124 128 136 143 155 177 77 94 107 116 124 128 137 145 156 180 80 95 109 117 124 128 138 147 156 182 81 96 109 119 125 130 138 147 163 183 82 97 111 119 125 130 138 149 163 186 83 102 112 120 126 131 140 151 166 188 85 105 112 120 126 132 141 151 168 195 (1) 编制频数表并绘制直方图,简述频数分布类型和频数分布特征。 (2) 计算适当的集中趋势指标和离散程度指标。 1.2 某医院神经科用火焰原子吸收光谱法测定了102名男性脑卒中患者头发中微量元素铜(Cu)的含量(μg/g),资料如表1,求男性脑卒中患者头发中微量元素铜的平均含量。 表1 102名男性脑卒中患者头发中微量元素铜(Cu)的含量/(μg·g-1)频数表 头发中铜的对数值频数f 0.350 0~ 1 0.450 0~ 2 0.550 0~ 4 0.650 0~ 3 0.750 0~18 0.850 0~36