医学统计学考试(详细)

医学统计学基本概念

1.医学统计学是以医学理论为指导，应用概率论与数理统计的有关原理和方法，研究医学资料的搜集、整理、分析和推断的一门应用科学。

2.统计工作的步骤：（1）设计（2）收集资料（3）整理资料（4）分析资料；或者分三步：（1）研究设计（2）资料分析（3）结论。

3.定量资料：又称为数值变量资料，特点：（1）各观察值之间有量的差别；（2）数据间有连续性。它是指变量的取值不止是可列个，而是可取某区间[a,b]，（-oo,oo）

上的一切值。

4.定性资料：又称为分类资料、分类变量资料（包括二项分类、多项分类资料），特点：（1）各观察值之间有质的差别；（2）数据间有离散性。它是指变量的取值有

限的，至多是可列多个。附：无序分类：二项分类、多项分类

5.等级资料：又称为半定量资料，有序分类，指各类之间有程度的差别。特点：（）各观察单位间或者相同，或者存在质的差别；（2）各等级间只有顺序，而无数值

大小，故等级之间不可度量。

6.个体individual：即每个观察单位。

7.总体population：根据研究目的确定的同质观察单位的全体。

8.样本：是从总体中随机抽取部分观察单位，其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。

9.参数parameters：描述某总体特征的统计指标称为总体参数，简称参数。如总体均数、总体标准差等。特点：参数是未知的，固有的，不变的！

10.统计量：描述某样本特征的的统计指标称为样本统计量，简称统计量。特点：统计量是已知的，变化的，有误差的！

11.概率probability：是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。

12.随机事件：（1）可重复性：相同条件下可重复进行；（2）随机性：出现两种机两种以上结果；（3）偶然性：实验前不能肯定将出现哪种结果。

13.频率的稳定性：在重复试验中，事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p，频率的这一特性称为频率的稳定性。

14.概率的统计定义：频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性，因而是可以被认识和度量的。这个常数p就称为事件A出现的概

率(probability)，记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出，频率为一变量，是样本统计量，而概率为常数，是一总体参数。实践中，当试验次数足够多时，可以近似地将频率作为概率的一个估计。

15.小概率原理：当某事件发生的概率小于或等于0.05时，统计学通常称该事件为小概率事件，其涵义为该事件发生的可能性很小，进而认为其在一次抽样中不可能

发生，此即为小概率原理。

16.同质（homogeneity）：性质相同的事物称为同质的。

17.变异(variation)：同质的事物内个体之间或同一个体重复测量间的差别称为变异。

18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异，而且同一个人的某些指标还会随着时间、

机体内外环境的改变而变化，因此需要确定其波动范围，即正常值范围，简称正常值(normal value)。

19.正常值范围(normal ranges)，是指绝大多数正常人的某指标范围。

20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。

21.标准误(standard error)：样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。

22.参数估计：由样本信息估计总体参数称为参数估计，包括点估计和区间估计。

23.点估计(point estimation) ：直接用样本统计量作为总体参数的估计值。这种估计方法简单，但未考虑抽样误差的大小。

24.区间估计(interval estimation) ：按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围，这个范围称作可信度为1-α的可信区间(confidence interval, CI)，又

称置信区间。这种估计方法称为区间估计。

25.可信度为1-α的可信区间的确切涵义是：每100个样本所算得的100(1-α)％可信区间，平均有100(1-α)个包含了总体参数。如取α=0.05，则每100个样本所算得

的100个95％可信区间，平均有95个包含总体参数在内，有5个不包含总体参数。

26.可信区间的两个要素：第一个要素是可靠性，常用可信度1-α的大小表示；第二个要素是精确性，常用可信区间的长度CU-CL衡量。

27.均数95%可信区间，其涵义是：如果重复100次抽样，每次样本含量均为n，每个样本均按（见课本P42）构建可信区间，则在此100个可信区间内，

理论上有95个包含总体均数，而有5个不包含总体均数。

28.可信度为95%的CI的涵义：每100个样本，按同样方法计算95%的CI，平均有95%的CI包含了总体参数。这里的95%，指的是方法本身！而不是某个区间！

29.第一类错误（I型错误）：拒绝了实际上成立的H0假设，称为“假阳性”, 用α来表示。

30.第二类错误（II型错误）：不拒绝实际上不成立的H0，称为“假阴性”,用β来表示。

31.检验效能(power of a test)或检验功效：1-β称检验效能(power of a test)，过去称把握度。为当两总体确有差异，按检验水准α所能发现该差异的能力。1-β只取单

尾。

32.完全随机设计：根据某一试验因素，将试验对象完全按随机设计分为若干个组，每个组的样本例数可以相等，也可以不等，分别求出各组试验结果的均数，即为

单因素多个样本均数，单个因素可以有多个水平，R>2

33.随机区组设计又称配伍组设计(Random Block Design)：即两因素多个样本均数的比较(或称两因素方差分析，two way analysis of variance）。

34.绝对数：在计数资料中，各组的观察数称绝对数。

35.相对数：是两个有联系的指标的比，计数资料的统计描述主要是相对数（relative number）。

36.率（rate）：说明某现象发生的频率或强度，常用%、‰、1/万、1/10万等作单位，表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常

以保留1-2位整数为宜。

37.构成比（constituent ratio）：说明一事物内部各组成部分所占的比例，常以%来表示。

38.比：也称相对比（relative ratio），两个有关指标之比。通常以某种现象的数量为1或100作基数,看另一种现象的数量是多少,说明一事物是另一事物的若干倍或百

分之几。两个相比的指标可以性质相同，如时间比、性别比；也可性质不同。比=A/B

39.秩次是指全部观察值按某种顺序排列的位序；秩和：是同组秩次之和。

40.秩变换：将等级变成秩次的方法称为秩变换。

41.秩和检验：就是通过秩次的排列求出秩和，从而对总体的分布进行假设检验的方法。

42.确定性关系：是指两变量间的关系是函数关系。

非确定性关系：是指两变量在宏观上存在关系，但并未精确到可以用函数关系来表达。

相关关系：指既是必然的又是不确定的关系称为相关关系。当两个变量之间出现如下关系，一个增大，另一个也同时增大，或缩小，我们称这种现象为共变，也就是说两个变量之间有相关关系。相关关系不一定是因果关系。相关关系可以是因果关系，也可以是伴随关系。

43.直线相关系数：简称为相关系数,用符号r表示，是用于说明具有直线关系两个变量之间，相关关系的密切程度和相关方向的指标。

44.等级相关的含义：等级相关反映的是两变量等级间的相关，并不反映两变量间的数值关系。

45.直线相关：这种直线关系，或分析这种直线关系的理论和方法，统称为直线相关。

46.直线回归: 直线回归是用于研究两个变量x与y之间的线性依存关系的一种统计分析方法。

47.试验研究设计：是指研究者根据研究目的、通过对受试对象施加干预，严格控制各种影响因素，获得干预研究结果。

48.双盲临床试验：是指观察者方和被观察者方在整个试验过程中不知道受试者接受的是何种处理；单盲临床试验是指仅被观察者方处于盲态。观察者方指的是研究

者、参与试验效应评价的研究人员、数据管理人员、统计分析人员；被观察者方指的是受试对象及其亲属或监护人。双盲双模拟：试验组：试验药+阳性对照药的安慰剂；对照组：阳性对照药+试验药的安慰剂。医学统计学相关知识

1.频数分布表的用途：（1）看出频数分布的两个重要特征：集中趋势、离散趋势（2）揭示资料的分布类型

2. 描述定量资料集中趋势的三个指标及其应用条件：（1）均数（也称算术均数）：适用于单峰对称分布的资料；（2）几何均数：适用于等比资料、对数正态分布资料；（3）中位数：适用于偏态分布资料、分布不规则或未知分布资料、一端或两端有不确定数据（开口资料）的资料。

3. 描述定量资料离散程度的指标（极差、四分位数间距、标准差、变异系数）及其适用范围：这四个指标均反映定量资料的离散程度。极差和四分位数间距可用于任何分布（极差常用于描述单峰对称分布小样本分布资料的变异程度，或用于初步了解资料的变异程度；四分位数间距常用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度），后者比前者稳定，但均不能综合反映各观察值的变异程度；标准差最常用，要求资料近似服从正态分布；变异系数可用于比较度量单位不同的两组或多组资料的变异度或均数相差悬殊的两组或多组资料的变异度。

4. 正态分布的特征：（1）正态分布是一单峰分布，高峰位置在均数处；（2）正态分布以均数为中心，左右完全对称；（3）正态分布取决于两个参数，即均数μ和标准差σ。μ是位置参数，μ越大，则曲线沿横轴向右移动；μ越小，曲线沿横轴向左移动。σ为形态参数，表示数据的离散程度，若σ小，则曲线形态“瘦高”；σ大，则曲线形态“矮胖”。（4）有些指标不服从正态分布，但通过适当的变换后服从正态分布；（5）正态分布曲线下的面积分布是有规律的。

5.正态曲线下的面积规律

?正态曲线下面积总和为1；正态曲线关于均数对称；对称的区域内面积相等；

?对任意正态曲线，按标准差为单位，对应的面积相等；μ-1.64σ～μ+1.64σ内面积为90%；

?μ-1.96σ～μ+1.96σ内面积为95%；μ-2.58σ～μ+2.58σ内面积为99%。

?小于μ-3σ的面积为0.13%; 小于μ-2σ的面积为 2.28%; 小于μ-σ的面积为15.87%。

6. 标准误与标准差的关系

区别标准差s标准误s x

意义个体变异统计量的抽样误差

用途正常值范围（x±1.96s）总体均数的可信区间（x±t α, νs x）

与n关系n↑s趋于稳定n↑s x趋于0

联系 1.两者都是变异指标，说明个体之间的变异用标准差，说明统计量之间的变异用标准误。

2.当样本含量不变时，标准差大，标准误亦大，均数的标准差与标准误成正比。

7.下列说法正确吗？算得某95%的可信区间，则：

总体参数有95%的可能落在该区间。（错）有95%的总体参数在该区间内。（错）

该区间包含95%的总体参数。（错）该区间有95%的可能包含总体参数。（错）该区间包含总体参数，可信度为95%。（对）

8.影响可信区间大小的因素：（1）可信度：可信度越大，区间越宽；（2）个体变异：变异越大，区间越宽；（3）样本含量：样本含量越大，区间越窄。

9. 均数的可信区间和参考值范围的区别

区别可信区间参考值范围

意义未知参数的可能范围正常值的波动范围

公式 σ已知或σ未知，但n 足够大（x ±u α /2,sx ）或（x ±u α /2 σ,x ）（x ±u α /2,sx ）

σ未知（ x ±t α, ν s x ）

用途估计总体均数判断正异常

小结：均数的可信区间：均数±界值×标准误个体的容许区间(参考值范围):均数±界值×标准差

10. 可信区间与容许区间的区别：见P44

11. 假设检验的基本思想：

? 提出一个假设(H 0)；验证这个假设。如果假设成立，会得到现在的结果吗？

两种可能的情况：（1）得到现在的结果可能性很小(小概率) →拒绝H 0 （2）有可能得到现在的结果(不是小概率) →没有理由拒绝H 0

假设检验的步骤：（1）建立检验假设；（2）确定检验水准α；（3）计算检验统计量并求P 值；（5）界定P 值并作结论。

12. I 型错误和 II 型错误实际情况

假设检验的结果

拒绝 H 0

不拒绝 H 0 H 0 成立

I 型错误(α) H 0 不成立

把握度(1-β) II 型错误(β)

13. 差异检验和优度检验：差异检验之意义在于是否能够确认H 1成立，故希望所得P 值很小，因为P 值越小，表示手头样本从H 0总体随机获得之概率越小，即否定H 0而确认H 1成立的把握越大。

优度检验之意义在于是否能够确认H 0成立，故希望所得P 值较大，因为P 值越大，表示手头样本从H 0总体随机获得之概率越大。

14. 可信区间与假设检验区别和联系：可信区间说明量的大小即推断总体均数范围，假设检验推断质的不同即判断两总体均数是否不等；可信区间可回答假设检验问题，可信区间若包含了H0 ，按α水准，不拒绝H0；若不包含H0 ，按α水准，拒绝H0 ，接受H1；

可信区间不但能回答差别有无统计学意义，还能提示差别有无实际专业意义；可信区间不能够完全代替假设检验。可信区间只能在预先规定概率α的前提下进行计算，假设检验能获得一较为确切的P 值。

15. 下列说法正确吗？

P 是H 0成立的概率。（错） P 是 I 型误差的概率。（错）P 是 H 0 成立时，获得现有差别的概率。（错） ? P 是 H 0 成立时，获得现有差别以及更大的差别的概率。（对）统计推断时的风险。（错）拒绝H 0时所冒的风险。（对） 16.t 检验的应用条件:(1)独立性：各观察个体间是相互独立的，不能互相影响，亦不能一方影响另一方；（2）正态性：两组均数比较时，要求两组数据服从正态分布；配对设计时，要求差值服从正态分布。（3）方差齐性：两样本所对应的正态总体之方差相等。

17. 总体方差不相等的t 检验：(1)数据变换后进行t 检验；（2）秩转换的非参数检验；（3）近似t 检验 ? t '检验。

18. 两样本均数比较方法的选择

方差齐方差不齐

小样本 t 检验 t‘ 检验

大样本 u 检验 u 检验

19.方差分析的基本思想：方差分析（analysis of variance)又称为变异数分析，采用F 检验统计量，也称F 检验。这种方法的基本思想是对变异进行分解和分析，把全部观察值之间的变异—总变异，按照设计和需要分为两个或多个组成部分，再作分析，从而达到统计推断之目的。总变异=组内变异+组间变异；组内变异：抽样（随机）误差（个体差异和测量误差）；组间变异：组间本质差别＋抽样（随机）误差；如果组间无本质差别，则组间变异＝组内变异

或F ＝

20.方差分析的优点：（1）不受比较组数的限制；（2）可同时分析多个因素的作用；（3）可分析因素间的交互作用。

21. 方差分析的意义：是按照实验设计把总变异分成若干部分，划分得越细，各部分的涵义越明确，对结论亦较易解释；同时，残余的变异即误差部分越小，因而能够提高检验的灵敏度和结论的准确性。

22. F 分布是方差比的分布，常用于方差齐性检验，方差分析等。 F 分布特征：

(1) F 分布为一簇单峰正偏态分布曲线，与两个自由度有关。(2) 若F 服从自由度为(ν1,ν2)的F 分布，则其倒数1/F 服从自由度为(ν2,ν1)的F 分布。

(3) 自由度为(ν1,ν2)的F 分布，其均数为ν2/(ν2-2)，与第一自由度无关。

(4) 第一自由度ν1＝1时，F 分布实际上是t 分布之平方；第二自由度ν2＝∞时，F 分布实际上等于χ2分布。

(5) 每一对自由度下的F 分布曲线下的面积分布规律，见方差分析用F 界值表，表中横标目为第一自由度，纵标目为第二自由度，表中分别给出了右侧尾部概率为0.051Between Within

MS MS =

和0.01时的F 界值。

23.方差分析表变异来源

SS v MS F P 组间

SS 组间 k-1 SS 组间/v 组间 MS 组间/ MS 组内组内

SS 组内 N -k SS 组内/v 组内总

SS 总 N -1

24.方差分析与t 检验的关系

当比较两个均数时，从同一资料算得之 F 值与t 值有如下关系：F = t2 可见在两组均数比较时，方差分析与t 检验的效果是完全一样的。

25. 方差分析后的两两比较(多重比较)的几种方法:

一、SNK －q 检验（多个均数间全面比较）二、LSD －t 检验（有专业意义的均数间比较）

三、Dunnett 检验（多个实验组与对照组比较）还有TUKEY 、DUNCAN 、 SCHEFFE 、 WALLER 、BON 等比较方法

各组间的比较用SNK 法；各试验组与某一对照组间的比较用Dunnet 法。

26. 方差分析应用条件:① 各样本是相互独立的随机样本;② 各样本来自正态总体;③ 各组总体方差相等，即方差齐。

方差分析和t 检验要求：独立性、正态性、方差齐性。

27. 总结：均数、方差的比较：

样本均数与总体均数的比较( t 检验) 配对设计样本均数的比较(配对t 检验)

两样本均数的比较 ( t 检验, u 检验, F 检验, SNK , Duncan )

多样本均数的比较( F 检验，ANOVA )

? 各组间的比较(SNK 法)；各试验组与某一对照组间的比较用(Duncan 法)

两个方差的比较( F 检验) 多个方差的比较( Bartlett 检验

28. 二项分布应用条件：医学领域有许多二分类记数资料都符合二项分布(传染病和遗传病除外)，但应用时仍应注意考察是否满足以下应用条件：

（1）每次实验只有两类对立的结果；如阳性或阴性、生存或死亡，不允许考虑“可疑”等模糊结果，属于二项分类的资料。

（2） n 次事件相互独立；即每个观察单位的观察结果不会影响到其它观察单位的结果。如要求疾病无传染性、无家族聚集性等。

（3）每次实验某类结果的发生的概率是一个常数。已知发生某一结果（如阳性）的概率为π，其对应的概率必然是（1-π），我们知道总体率π一般是未知的，在实际工作中要求π是从大量观察中获得的比较稳定的数值。

29.二项分布的应用：（1）样本率与总体率的比较；（2）两样本率的比较。

30. Poisson 分布特征：① 非对称，但μ增大时趋于对称；② 均数与方差均为μ；③ 分布的可加性， n 个独立的Poisson 分布相加仍符合Poisson 分布，可使μ>20,使得可用正态近似。

31. Poisson 分布应用条件：（1）平稳性：X 的取值与观察单位的位置无关；（2）独立增量性：在某个观察单位X 的取值与前面各观察单位上X 的取值独立.；（3）普通性：在充分小的观察单位上X 的取值最多为1。

32. Possion 分布的应用：（1）总体均数估计；（2）样本均数与总体均数的比较；（3）两样本均数的比较。

33.χ2检验的用途：（1）推断多个总体率之间有无差别（2）推断几组总体构成比之间有无差别

（3）两个变量之间有无关联性（4）频数分布的拟合优度检验。

34. χ2检验的基本思想：χ2=

如果H0假设成立，那么实际频数与理论频数应该比较接近。如果实际频数与理论频数相差很大，超出了抽样误差所能解释的范围，则可认为H0假设不成立，即两样本对应的总体率不等。χ2值反映了实际频数与理论频数吻合的程度。如果两总体率相同的假设成立，则实际频数与理论频数之差异纯系抽样误差所致，故一般不会很大，χ2值也就不会很大；在一次随机试验中，出现大的χ2值的概率P 是很小的。因此，若根据实际样本资料求得一个很小的P ，且P ≤α（检验水准），根据小概率原理，就有理由怀疑H0假设的真实性，因而拒绝它；若P ＞α，则没有理由拒绝H0。χ2值的大小除取决于︱A-T ︱的差值外，还与基本数据的格子数有关，严格地说是与自由度有关。在x2检验中，自由度指在表中周边合计不变的前提下，基本数据可以自由变动的格子数。

35. x 2检验的精髓：检验实际频数和理论频数的吻合程度。如果实际频数和理论频数越吻合，

说明H0假设成立的可能性就越大，反之，如果实际频数和理论频数相差越远，说明

H0越不可能成立。

36.普通四个表资料卡方检验公式的选用条件：

1) n ≥40，且T ≥5时，用未校正的值 ()

∑-T

T A 2

2) 1≤T<5，且n ≥40时，宜用校正χ2值

3) T<1或n<40时，宜用确切概率计算法

37. 行×列表的χ2值计算专用公式：

χ2=

38. 行×列表资料采用χ2检验时，注意事项：

（1）注意理论数的大小。行×列表资料采用χ2检验时，对理论数的要求与四格表资料相同，不能有T<1，T<5的个数不能超过所有理论数个数的1/5（四格表中有一个T<5即超过1/5），如出现上述情况，可用以下办法解决：

1）增加观察例数可使实际频数增加，从而使T 增大。

2）合并相邻行或列的实际数，从而使T 增大。合并时应注意合理性，一般有序分类可合并，无序分类则不可合并。

3）采用精确概率检验法或似然比χ2检验法，

（2）最小理论数求法。上述χ2检验时，采用专用公式计算χ2值无须理论数，但也必须求出最小理论数，观察其大小是否满足上述各项条件。最小理论数位于最小行列合计数相对应的位置上，因此可用行、列合计数中小者相乘除以总例数即得到最小理论数。

（3）多组资料比较经χ2检验拒绝H0时只能认为多组间总的看差别有统计学意义，并不说明两两之间差别均有统计学意义。若需分析两两之间构成差别有无统计学意义，可采用χ2分割法或改变检验水准法进行分析等。

39. 配对四格表资料的χ2检验步骤：（H0、H1写法特殊）

一．H 0: 两法检出阳性率相同，总体B ＝C ； H 1: 两法检出阳性率不同，总体B ≠C 。

α＝0.05。

二．计算统计量： χ2。

三．查χ2界值表，判断P 与α大小

四．按α＝0.05水准，拒绝H 0 或接受H 1 。得出结论。

40. 列联表：将单一样本的每个观察单位，同时按两种因素，进行分组,分组以后就得到R ×C 表。然后对这个表进行x2检验，以判断两个因素的关联性。而这种配对设计而形成的双向交叉排列的统计表，用以描述行变量和列变量之间的关系，特称为列联表。

关于列联表内两个分类变量是否有关联性的统计推断，仍然是用x2检验，但是它的检验假设有所不同。

一．列联表关联性分析的χ2检验步骤：（结合课件看）

H 0: 不同矽肺期次的患者肺门密度分布相同； H 1: 不同矽肺期次的患者肺门密度分布不同或不全相同。

α＝0.05。

二．计算统计量： χ2 , v 。

三． P=？

四．按α＝0.05水准，拒绝H 0 ，接受H 1 。

认为肺门密度与矽肺期次有关。结合本资料，肺门密度有随矽肺期次增高而增加的趋势。

41. R ×C 表资料中的行一般为研究因素的不同水平分组，列一般为研究结果（效应指标）的分类。根据行和列的分组或分类情况，可将R ×C 表资料分为以下几种情况：

1）双向无序R ×C 表

行和列的分组或分类均为无序。此时可采用χ2检验处理。

2）单向有序R ×C 表若行的分组为有序（如药物剂量、患者年龄、病情轻重等），但率的效应为无序分类（如染色体损伤的类型、疾病的证型等），此时仍可按双向无序处理，采用χ2检验；若行的分组为无序（如三种药物处理），而列的效应为有序（如痊愈、显效、好转、无效），此时应采用秩和检验或Ridit 检验方可判断疗效上的优劣。因为χ2检验不考虑有序分类变量的顺序。如果固定有序分类变量的顺序，将列的频数互换后，检验的结论相同，显然不合理。

3）双向有序R ×C 表

若行的分组为有序（如年龄），效应分类也为有序（如疗效等级），可按单向有序R ×C 表中，列为有序分类时的处理方法，采用秩和检验或Ridit 检验。若行和列均为同一观察对象的两个有序变量，如矽肺的期次和肺门密度的级别，病程与疗效等，此时为配对设计，可先采用χ2检验。

))()()(()(22

d b c a d c b a n bc ad ++++-=χ()()()()()d b c a d c b a n n bc ad ++++=--2/2

2χ()T T A 5.022--=χ!

!!!!)!()!()!()!(n d c b a d v c a d c b a P ++++=???

? ??-∑12n n A C R n

42. 资料的分类

数值变量资料二分类

分类资料无序多分类

多分类

有序多分类(等级资料)

43. 参数统计和非参数统计

参数统计非参数统计

（parametric statistics ）（nonparametric statistics ）

↓ ↓

已知总体分布类型，对未知参数进行统计推断对总体的分布类型不作任何要求

↓ ↓

不受总体参数的影响，比较分布或分布位置

依赖于特定分布类型，比较的是参数 ↓

适用范围广；可用于任何类型资料(等级资料，或“>50mg” )

44. 非参数检验适用情况：①总体分布形式未知或分布类型不明；②偏态分布的资料：

③等级资料：不能精确测定，只能以严重程度、优劣等级、次序先后等表示；

④不满足参数检验条件的资料：各组方差明显不齐。

⑤数据的一端或两端是不确定数值，如“>50mg”等。

45.秩和检验的适用范围：（1）等级资料；（2）定量资料，但数据的某一端或两端无确定数值（开口资料）；（3）定量资料，但数值的分布是极度偏态的，如L 形分布，或个别数值偏离过大而不属于“过失误差”者；（4）定量资料，但各组离散程度相差悬殊，即使经变量变换，也难以达到方差齐性；（5）定量资料，但分布型尚未确知，此时可先用秩和检验法进行分析；（6）兼有等级和定量性质的资料。

46.秩和检验的优缺点：

优点：⑴不论样本所来自的总体分布的形式如何，甚至是未知的，都能适用。

⑵某些非参数方法计算简便。因此在急需获得初步结果时可采用。

⑶易于理解和掌握。⑷可用于不能或未加精确测量的资料，如等级资料或某些记数资料。

缺点：⑴对适宜用参数方法的资料，若用非参数法处理，常损失部分信息，降低效率。

⑵虽然许多非参数法计算简单，但不少问题的计算仍嫌繁冗。

47.样本的相关系数r 的特征：（1） -1≤ r ≤1，没有单位；（2）r 的绝对值大小表示相关关系的密切程度；

（3） r 的符号表示相关的方向：r ＞0为正相关；r ＜0为负相关；r ＝0为零相关或无相关

48. 回归系数和回归方程的意义及性质：

（1）b 的意义：回归系数b 称为斜率，表示自变量增加一个单位时，应变量的平均改变量。

（2）a 的意义：a 为截距或常数项，a 的值表示当X=0时，应变量Y 的估计值。从坐标轴上看，a 对应回归直线延伸至X=0时与Y 轴的交点，故称为截距。

（3）＾Y （Y-hat ）的意义: ＾Y 表示给定X 时Y 的平均值的估计。＾Y 的涵义是均数—不同X 时Y 均数的估计值，与一般的均数的计算方法不同，这里的均数是给定X 的条件下，由回归方程估计得到的，故又称为条件均数。

（4）Y-＾Y 的意义：Y-＾Y 称为剩余，又称残差，是Y 的观察值与对应的估计值之差，在回归图中表示各散点到回归直线的纵向距离。

（5）的意义：称为残差平方和 (residual sum of squares)或剩余平方和，是所有剩余之平方和，综合表示点距直线的距离。在所有的直线中，回归直线的残差平方和是最小的。(最小二乘)

49. 回归直线的有关性质：

(1) 直线通过均点 (2) 直线上方各点到直线的纵向距离之和 = 直线下方各点到直线的纵向距离之和

即: (3) 各点到该回归线纵向距离平方和较到其它任何直线者为小。

50. 应变量Y 的总变异分解：

bX a Y

+= ?∑-2

)?(Y Y )

,(Y X ∑=-0)?(Y Y

()()[]

∑∑+-=-22??bX a Y Y Y ()2

22??∑∑∑???? ??-+???? ??-=-Y Y Y Y Y Y

v 总＝v 回＋v 剩，v 回=1， v 剩=n-2。 51. 直线回归中三种假设检验间的关系: 在直线回归中，相关系数的假设检验，回归系数的假设检验，以及回归方程的方差分析结果等价。

52. 的可信区间与Y 的容许区间：

可信区间是针对条件均数的，而容许区间是针对Y 的取值范围的。

的容许区间估计：给定 X 时 Y 的估计值是 Y 的均数的一个估计。给定X 时 Y 值的容许区间是 Y 值的可能范围。

53. 回归方程的应用：（1）描述两个变量间的依存关系。（2）利用回归方程进行预测。

（3）利用回归方程进行估计。（4）利用回归方程获得更高精度的参考值。

（5）利用回归方程进行控制。

54. 应用直线回归的注意点：

（1）.回归分析要有实际意义：

要有实际意义；充分利用散点图，判断：(1) 线性趋势 (2) 离群值 ?

当样本含量较大时，统计学检验的作用减弱；回归关系可以内插，不宜外延； ? 自变量的选择：原因容易测量的变异小的年龄、身高、体重、体表面积（2）在作回归前应先作散点图（3）内插和外延

55. 回归分析的正确应用：

．回归系数是有单位的，不能根据 b 的大小判断回归关系的密切程度。

．应用条件(LINE)：(1)线性(linear)(2)独立(independent)(3)给定X 时，Y 正态分布(normal)(4)等方差(equal variance)。

56．直线回归分析和相关分析的区别与联系：

（1）区别：在资料要求上：回归要求因变量Y 服从正态分布，X 是可以精确测量和严格控制的变量，一般称为I 型回归；相关要求X 和Y 均服从双变量正态分布，称为II 型回归。在应用上：说明两变量的依存变化的数量关系用回归，说明变量间相关关系用相关。

（2）联系：1）对一组数据同时计算r 和b ，它们的正负号一致，r 为+说明两变量间相互关系是同向的，b 为+说明X 增一个单位，Y 平均增b 个单位。

2）r 和b 的假设检验是等价的。

57．研究设计的定义：在进行科学研究时，对研究方案作合理的安排，以减少随机误差的影响。采用适当的研究试验次数，减少试验的成本并能对数据进行有效的分析，提高研究试验的可靠信，从而实现研究目的。

研究设计的作用：(1) 合理安排试验因素，提高研究质量。(2) 控制误差，使研究结果保持较好的稳定性。(3) 通过较少的观察例数，获取尽可能丰富的信息。

58．研究设计包括专业设计与统计设计两个部份。

统计设计主要是依据研究目的，从研究的现况条件出发，规定研究因素、选择效应指标、确定研究对象的引入方式方法和规模，拟实施的方法、方案，及数据收集、整理分析的模式,直至结果的解释,进行系统的安排,使其消耗最少的人力和物力、时间,而获得可靠的信息与结论。

59．研究设计的形式：在医学研究中，根据观察者是否主动施加干预而分为两类：

干预研究设计（试验研究）（类型：试验研究设计、临床试验设计、社区干预试验设计）、观察研究设计（调查研究）

研究设计的形式：前瞻性与回顾性试验研究与调查研究 (前瞻性试验研究前瞻性调查研究回顾性试验研究回顾性调查研究)

61．实验设计的特点：

（1）研究者能人为设置处理因素（2）受试对象接受何种处理因素/水平是由随机分配而定的。

（3）能使多种实验因素包括在较少次数的实验中，更有效地控制误差，达到高效的目的。

62．研究因素与混杂因素：研究因素：主要研究指标，与研究结果(效应)相联系。混杂因素：干扰研究结果的指标。

常见的混杂因素：年龄、性别；病程、病情；疾病史、家族史、伴发疾病

对混杂因素的处理：（1）采用良好的设计：排除，平衡；（2）设计时考虑：改为修饰因素。

63．实验设计（实验研究）的基本要素、基本原则、基本内容、步骤、常用的实验设计方法、实验设计对照的形式：

基本要素：处理因素、受试对象、实验效应基本原则：对照（均衡性）、重复（可靠性）、随机（客观性）

基本内容和步骤：（1）建立研究假设（立题）；（2）明确研究范围（应有严格的纳入标准和排除标准）；（3）确立处理因素（分清处理因素和非处理因素，并注意处理因素的标准化）；（4）明确观察指标（实验效应）；（5）控制误差和偏倚。

常用的实验设计方法：（1）随机化分组方法；（2）完全随机分组方法；（3）配对设计；（4）配伍组设计及随机分组方法。

实验设计对照的形式：（1）空白对照；（2）安慰剂对照；（3）实验对照；（4）标准对照；（5）自身对照。

剩

回总SS SS SS +=剩回总ννν+= 总

回归决定系数SS SS r =2 F

t t b r ==Y ?

μY ?μ

医学统计学试题及答案

医学统计学试题及答案集团文件发布号：（9816-UATWW-MWUB-WUNN-INNUL-DQQTY-

医学统计学试题及答案习??题《医学统计学》第二版??（五年制临床医学等本科生用）（一）??单项选择题 1．观察单位为研究中的( d??)。 A．样本? ?? ??B. 全部对象 C．影响因素? ?? ?????D. 个体2．总体是由（ c ）。 A．个体组成? ?? ?B. 研究对象组成 C．同质个体组成? ?? ? D. 研究指标组成 3．抽样的目的是（b??）。 A．研究样本统计量? ?? ?? ???B. 由样本统计量推断总体参数 C．研究典型案例研究误差? ???D. 研究总体统计量 4．参数是指（b? ?）。 A．参与个体数? ???B. 总体的统计指标 C．样本的统计指标? ? ??D. 样本的总和 5．关于随机抽样，下列那一项说法是正确的（ a ）。 A．抽样时应使得总体中的每一个个体都有同等的机会被抽取 B．研究者在抽样时应精心挑选个体，以使样本更能代表总体 C．随机抽样即随意抽取个体 D．为确保样本具有更好的代表性，样本量应越大越好 6.各观察值均加（或减）同一数后（ b ）。 A.均数不变，标准差改变? ?? ? B.均数改变，标准差不变 C.两者均不变? ?? ?? ?? ?? ??? D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用（ a??）。 A.变异系数? ?? B.差 C.极差? ?? ?? ? D.标准差 8.以下指标中（? ?d）可用来描述计量资料的离散程度。 A.算术均数? ? B.几何均数 C.中位数? ?? ? D.标准差 9.偏态分布宜用（? ?c）描述其分布的集中趋势。 A.算术均数? ?? B.标准差 C.中位数? ?? D.四分位数间距 10.各观察值同乘以一个不等于0的常数后，（? ?b）不变。 A．算术均数? ??? B.标准差 C.几何均数? ?? ???D.中位数 11.（ a??）分布的资料，均数等于中位数。 A.对称? ? B.左偏态 C.右偏态? ?? ?? D.偏态 12.对数正态分布是一种（ c ）分布。

医学统计学考试重点整理

一、基本概念 1.总体与样本总体：所有同质观察单位某种观察值（即变量值）的全体样本：是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查普查：就是全面调查，即调查目标总体中全部观察对象抽样调查：是一种非全面调查，即从总体中抽取一定数量的观察单位组成样本，对样本进行调查 3.参数与统计量参数：总体的某些数值特征统计量：根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误假设检验的结论真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误（ɑ错误）: H0为真时却被拒绝，弃真错误 Ⅱ型错误（β错误）: H0为假时却被接受，取伪错误 5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组，使每个研究对象都有同等机会被分配到各组中去，以平衡两组中已知和未知的混杂因素，从而提高两组的可比性，避免造成偏倚。（意义:①是提高组间均衡性的重要设计方法；②避免有意扩大或缩小组间差别导致的偏倚；③各种统计学方法均建立在随机化基础上）安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物，是一种无药理作用的制剂，不含试验药物的有效成分，但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样，不能被受试对象和研究者所识别。（安慰剂对照主要用于临床试验，其目的在于控制研究者和受试对象的心理因素导致的偏倚，并提高依从性。安慰剂对照还可以控制疾病自然进程的影响，显示试验药物的效应） 6.误差与标准误（区分率与均数）㈠均数抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。标准误：是指样本均数的标准差，反映抽样误差大小的定量指标，其公式表示为S x =S/√n ㈡样本率率的抽样误差:样本率p和总体率π的差异率的标准误:样本率的标准差,公式为σp=√π（1-π）/n

医学统计学试题及答案

医学统计学试题及答案 The latest revision on November 22, 2020

医学统计学一、选择题 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制（ B ） A 条图 B 百分条图或圆图 C线图 D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式Ｂ负偏态分布Ｃ正偏态分布Ｄ正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮，其统计方法是（ A ） A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用（ A ） A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是（ A ） A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同

6. 男性吸烟率是女性的10倍，该指标为（ A ）（A）相对比（B）构成比（C）定基比（D）率 7、统计推断的内容为（ D ） A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验，其目的是检验（ C ） A两样本均数是否不同 B两总体均数是否不同 C两个总体均数是否相同 D两个样本均数是否相同 9、有两个独立随机的样本，样本含量分别为n1和n2，在进行成组设计资料的t 检验时，自由度是（ D ）（A） n1+ n2 （B） n1+ n2 –1 （C） n1+ n2 +1 （D） n1+ n2 -2 10、标准误反映（ A ） A 抽样误差的大小 B总体参数的波动大小

医学统计学题库

1 医学统计学题库一、最佳选择题 1. 比较相同人群的身高和体重的变异程度，宜用的统计指标是__ __。 A. 全距 B. 标准差 C. 中位数 D. 变异系数 2. 反映一组偏态分布资料平均水平的指标宜用_ __。 A.变异系数 B. 几何均数 C. 中位数 D. 均数 3. 下述_ ___种资料为计数资料。 A. 血红蛋白( g/L ) B. 红细胞计数( 31012 /L ) C. 抗体滴度 D. 血型 4. 表示事物内部各个组成部分所占比重的相对数是___ ____。 A. 相对比 B. 率 C. 构成比 D. 率的标准误 5. 说明样本均数抽样误差大小的指标是___ _____。 A. 变异系数 B. 标准差 C. 标准误 D. 全距 6. 正态分布曲线下中间面积为99% 的变量值范围为___ _____。 A. μσ±196 . B. μσ±258. C. μσ±1 D. μσ±125. 7. 8名新生儿的身长（cm ）依次为：50, 53, 58, 54, 55, 52, 54, 52。中位数M 为__ __。 A. 53.5 B. 54.5 C. 54 D. 53 8. 表示两个变量之间的直线相关关系的密切程度和方向的统计指标是_ _。 A. 变异系数 B. 相关系数 C. 均数 D. 回归系数 9. 某市1955年和2015年的三种死因别死亡率，若用统计图表示宜选用____ _______。 A. 直条图 B. 直方图 C. 百分直条图 D. 统计地图 10. 下述___ ____为第一类错误的定义。 A.拒绝了实际上是不成立的H 0 B.接受了实际上是不成立的H 0 C.拒绝了实际上是成立的H 0

(完整word版)医学统计学试题和答案

（一）单项选择题 3．抽样的目的是（b ）。 A．研究样本统计量 B. 由样本统计量推断总体参数 C．研究典型案例研究误差 D. 研究总体统计量 4．参数是指（b ）。 A．参与个体数 B. 总体的统计指标 C．样本的统计指标 D. 样本的总和 5．关于随机抽样，下列那一项说法是正确的（ a ）。 A．抽样时应使得总体中的每一个个体都有同等的机会被抽取 B．研究者在抽样时应精心挑选个体，以使样本更能代表总体 C．随机抽样即随意抽取个体 D．为确保样本具有更好的代表性，样本量应越大越好 6.各观察值均加（或减）同一数后（ b ）。 A.均数不变，标准差改变 B.均数改变，标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用（ a ）。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中（d）可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用（c）描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后，（b）不变。 A．算术均数 B.标准差 C.几何均数 D.中位数 11.（ a ）分布的资料，均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种（ c ）分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料，可用（ c ）描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.（ c ）小，表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是（ c ）。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数

医学统计学基础理论和上机考试模拟复习题答案解析

“医学统计学”上机考试模拟题A卷 1．测得10例某指标值治疗前后情况如下：例号 1 2 3 4 5 6 7 8 9 10 治疗前76 64 60 62 72 68 62 66 70 60 治疗后74 62 64 58 68 70 56 60 66 56 1．用参数方法比较治疗前后该指标值的差异有无统计学意义，结果填入下表：例数均数标准差治疗前治疗后差值（前－后） H0：治疗前后该指标值无差异。 H1：治疗前后该指标值有差异。统计量t=2.512 P=0.0332 统计结论：P<0.05，拒绝H0，认为在α=0.05水平上差异有统计学意义，即治疗前后该指标值有差异。 2．上题资料，用非参数方法比较治疗前后该指标值的差异有无统计学意义。结果填入下面空格。 H0：治疗前后该指标值无差异。 H1：治疗前后该指标值有差异。统计量s=19.5 P=0.0547 统计结论：P>0.05，不拒绝H0，认为在α=0.05水平上差异无统计学意义，即治疗前后该指标值无差异。

3．测得10例正常儿童身高（cm）和体重（kg）如下：例号 1 2 3 4 5 6 7 8 9 10 身高（X）120 133 126 130 121 122 131 128 110 124 体重（Y）20 27 23 25 25 18 22 25 15 22 （1）求身高和体重的相关系数，并作显著性检验。相关系数r =0.81211 H0：p=0 H1：p≠0 P= 0.0043 统计结论：P<0.05，拒绝H0，认为在α=0.05水平上差异有统计学意义，即认为身高和体重存在正相关。（2）求身高推算体重的直线回归方程，并作显著性检验。直线回归方程：y=-32.964+0.443*x H0：β=0 H1：β≠0 P=0.0043 统计结论：P<0.05，拒绝H0，认为在α=0.05水平上差异有统计学意义，即认为身高和体重之间存在直线回归关系。三．10名氟作业工人在工作前后测定尿氟（mg/L）排出量结果如下：编号 1 2 3 4 5 6 7 8 9 10 工前 1.7 1.6 1.4 2.3 1.9 0.8 1.4 2.0 1.6 1.1 工后 2.7 3.1 3.2 2.1 2.7 2.4 2.6 2.4 2.3 1.4 1．计算工后比工前尿氟排出量增加值的均数，标准差，标准误，变异系数和中位数。均数0.91，标准差0.635，标准误 0.201,变异系数 69.78,中位数 0.900 2．检验氟作业工人在工作前后尿氟排出量的差异有无统计学意义。 H0：氟作业工人在工作前后尿氟排出量的差异无统计学意义。 H1：氟作业工人在工作前后尿氟排出量的差异有有统计学意义统计量t=4.532 P=0.0014

医学统计学考试重点

考试题型：名词解释10个选择20个填空题20个简答4-5个讨论分析1-2题计算1-2题绪论 2选1 总体：总体（population）指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。 3选1 小概率事件：我们把概率很接近于0（即在大量重复试验中出现的频率非常低）的事件称为小概率事件 P值：结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义小概率原理：一个事件如果发生的概率很小的话，那么可认为它在一次实验中是不会发生的，数学上称之小概率原理。统计学中，一般认为等于或小于0.05或0.01的概率为小概率。资料的类型（3选1）（1）计量资料：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurement data）。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。如某一患者的身高（cm）、体重(kg)、红细胞计数(1012/L)、脉搏（次/分）、血压（KPa）等。（2）计数资料：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（count data）。计数资料亦称定性资料或分类资料。其观察值是定性的，表现为互不相容的类别或属性。如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O 四种血型的人数等。（3）等级资料：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinal data）。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同：属性分组有程度差别，各组按大小顺序排列。等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。 2选1 抽样误差（sampling error ）是指样本统计量与总体参数的差别。在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。系统误差：由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是

研究生医学统计学上机试题

医学科研中的统计学方法上机试题时间：2014-12-15 共4题，共100分 1．某医院病理科研究人体两肾的重量，20例男性尸解时的左、右肾的称重记录见下表，问左、右肾重量有无不同？表1：20例男性尸解时左、右肾的称重记录编号左肾（克）右肾（克） 1 170 150 2 155 145 3 140 105 4 11 5 100 5 235 222 6 125 115 7 130 120 8 145 105 9 105 125 10 145 135 11 155 150 12 110 125 13 140 150 14 145 140 15 120 90 16 130 120 17 105 100 18 95 100 19 100 90 20 105 125 2. 在评价某药物耐受性及安全性的I期临床试验中，对符合纳入标准的40名健康自愿者随机分为4组，每组10名，各组注射剂量分别为0.5U、1U、2U、3U，观察48小时后部分凝血活酶时间（s）。试比较任意两两剂量间的部分凝血活酶时间有无差别？

表2 各剂量组48小时部分凝血活酶时间（s） 0.5 U 1 U 2 U 3 U 36.8 40.0 32.9 33.0 34.4 35.5 37.9 30.7 34.3 36.7 30.5 35.3 35.7 39.3 31.1 32.3 33.2 40.1 34.7 37.4 31.1 36.8 37.6 39.1 34.3 33.4 40.2 33.5 29.8 38.3 38.1 36.6 35.4 38.4 32.4 32.0 31.2 39.8 35.6 33.8 3. 某神经内科医师观察291例脑梗塞病人，其中102例病人用西医疗法，其它189 例病人采用西医疗法加中医疗法，观察一年后，单纯用西医疗法组的病人死亡13例，采用中西医疗法组的病人死亡9例，请分析两组病人的死亡率差异是否有统计学意义？ 4. 某省卫生防疫站对八个城市进行肺癌死亡回顾调查，并对大气中苯并（a）芘进行监测，结果如下，试检验两者有无相关？表4 八个城市的肺癌标化死亡率和大气中苯并（a）芘浓度城市编号肺癌标化死亡率（1/10万）苯并（a）芘（μg/100m3） 1 5.600.05 2 18.50 1.17 3 16.23 1.05 4 11.400.10 5 13.800.75 6 8.130.50 7 18.000.65 8 12.10 1.20

医学统计学考试(详细)

医学统计学基本概念 1.医学统计学是以医学理论为指导，应用概率论与数理统计的有关原理和方法，研究医学资料的搜集、整理、分析和推断的一门应用科学。 2.统计工作的步骤：（1）设计（2）收集资料（3）整理资料（4）分析资料；或者分三步：（1）研究设计（2）资料分析（3）结论。 3.定量资料：又称为数值变量资料，特点：（1）各观察值之间有量的差别；（2）数据间有连续性。它是指变量的取值不止是可列个，而是可取某区间[a,b]，（-oo,oo）上的一切值。 4.定性资料：又称为分类资料、分类变量资料（包括二项分类、多项分类资料），特点：（1）各观察值之间有质的差别；（2）数据间有离散性。它是指变量的取值有限的，至多是可列多个。附：无序分类：二项分类、多项分类 5.等级资料：又称为半定量资料，有序分类，指各类之间有程度的差别。特点：（）各观察单位间或者相同，或者存在质的差别；（2）各等级间只有顺序，而无数值大小，故等级之间不可度量。 6.个体individual：即每个观察单位。 7.总体population：根据研究目的确定的同质观察单位的全体。 8.样本：是从总体中随机抽取部分观察单位，其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。 9.参数parameters：描述某总体特征的统计指标称为总体参数，简称参数。如总体均数、总体标准差等。特点：参数是未知的，固有的，不变的！ 10.统计量：描述某样本特征的的统计指标称为样本统计量，简称统计量。特点：统计量是已知的，变化的，有误差的！ 11.概率probability：是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。 12.随机事件：（1）可重复性：相同条件下可重复进行；（2）随机性：出现两种机两种以上结果；（3）偶然性：实验前不能肯定将出现哪种结果。 13.频率的稳定性：在重复试验中，事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p，频率的这一特性称为频率的稳定性。 14.概率的统计定义：频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性，因而是可以被认识和度量的。这个常数p就称为事件A出现的概率(probability)，记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出，频率为一变量，是样本统计量，而概率为常数，是一总体参数。实践中，当试验次数足够多时，可以近似地将频率作为概率的一个估计。 15.小概率原理：当某事件发生的概率小于或等于0.05时，统计学通常称该事件为小概率事件，其涵义为该事件发生的可能性很小，进而认为其在一次抽样中不可能发生，此即为小概率原理。 16.同质（homogeneity）：性质相同的事物称为同质的。 17.变异(variation)：同质的事物内个体之间或同一个体重复测量间的差别称为变异。 18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异，而且同一个人的某些指标还会随着时间、机体内外环境的改变而变化，因此需要确定其波动范围，即正常值范围，简称正常值(normal value)。 19.正常值范围(normal ranges)，是指绝大多数正常人的某指标范围。 20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。 21.标准误(standard error)：样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22.参数估计：由样本信息估计总体参数称为参数估计，包括点估计和区间估计。 23.点估计(point estimation) ：直接用样本统计量作为总体参数的估计值。这种估计方法简单，但未考虑抽样误差的大小。 24.区间估计(interval estimation) ：按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围，这个范围称作可信度为1-α的可信区间(confidence interval, CI)，又称置信区间。这种估计方法称为区间估计。 25.可信度为1-α的可信区间的确切涵义是：每100个样本所算得的100(1-α)％可信区间，平均有100(1-α)个包含了总体参数。如取α=0.05，则每100个样本所算得的100个95％可信区间，平均有95个包含总体参数在内，有5个不包含总体参数。 26.可信区间的两个要素：第一个要素是可靠性，常用可信度1-α的大小表示；第二个要素是精确性，常用可信区间的长度CU-CL衡量。 27.均数95%可信区间，其涵义是：如果重复100次抽样，每次样本含量均为n，每个样本均按（见课本P42）构建可信区间，则在此100个可信区间内，理论上有95个包含总体均数，而有5个不包含总体均数。 28.可信度为95%的CI的涵义：每100个样本，按同样方法计算95%的CI，平均有95%的CI包含了总体参数。这里的95%，指的是方法本身！而不是某个区间！ 29.第一类错误（I型错误）：拒绝了实际上成立的H0假设，称为“假阳性”, 用α来表示。 30.第二类错误（II型错误）：不拒绝实际上不成立的H0，称为“假阴性”,用β来表示。 31.检验效能(power of a test)或检验功效：1-β称检验效能(power of a test)，过去称把握度。为当两总体确有差异，按检验水准α所能发现该差异的能力。1-β只取单尾。 32.完全随机设计：根据某一试验因素，将试验对象完全按随机设计分为若干个组，每个组的样本例数可以相等，也可以不等，分别求出各组试验结果的均数，即为单因素多个样本均数，单个因素可以有多个水平，R>2 33.随机区组设计又称配伍组设计(Random Block Design)：即两因素多个样本均数的比较(或称两因素方差分析，two way analysis of variance）。 34.绝对数：在计数资料中，各组的观察数称绝对数。 35.相对数：是两个有联系的指标的比，计数资料的统计描述主要是相对数（relative number）。 36.率（rate）：说明某现象发生的频率或强度，常用%、‰、1/万、1/10万等作单位，表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常以保留1-2位整数为宜。

医学统计学上机试题-U

习题集（分析应用题） 1、某卫生防疫站对30名麻疹易感儿童经气溶胶免疫一个月后，测得其血凝抑制抗体滴度资料如下：请问：要反映其平均滴度，用何指标？为什么？抗体滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 合计例数 2 6 5 10 4 2 1 30 2、测得某地300名正常人尿汞值，其频数表如下。欲根据此资料制定95%正常值范围。请问：用何种估计方法？（列出计算公式，不用计算） 300例正常人尿汞值（ug/L）频数表尿汞值例数尿汞值例数尿汞值例数 0-4924-1648-3 4-4728-952-- 8-5832-956-2 12-4036-460--

16-3540-564-- 20-2244--68-721 3、某医师在研究血管紧张素I转化酶(ACE)基因I/D多态与Ⅱ型糖尿病肾病(DN)的关系时，将249例Ⅱ型糖尿病患者按有无糖尿病肾病分为两组，资料见下表。拟比较两组Ⅱ型糖尿病患者的ACE基因型分布有无差别，用何统计分析方法？ DN组与无DN组2型糖尿病患者ACE基因型分布的比较组别DD ID II合计 DN组42（37.8）48（43.3）21（18.9）111 无DN组30（21.7）72（52.2）36（26.1）138 合计72（28.9）120 （48.2） 57（22.9）249 4、某单位研究胆囊腺癌、腺瘤的P53基因表达，对同期手术切除的胆囊腺癌、腺瘤标本各10份，用免疫组化法检测P53基因，资料见下表。欲分析胆囊腺癌和胆囊腺瘤的P53基因表达阳性率有无差别，用何统计分析方法？胆囊腺癌与胆囊腺瘤P53基因表达阳性率的比较病种阳性阴性合计胆囊腺癌6410

医学统计学试题及答案

第一套试卷及参考答案一、选择题（40分） 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制（ B ） A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式Ｂ负偏态分布Ｃ正偏态分布Ｄ正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮，其统计方法是（A ） A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用（A ） A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是（ A ） A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍，该指标为（A ）（A）相对比（B）构成比（C）定基比（D）率 7、统计推断的内容为（ D ） A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验，其目的是检验（ C ） A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本，样本含量分别为n1和n2，在进行成组设计资料的t检验时，自由度是（D ）（A）n1+ n2（B）n1+ n2–1 （C）n1+ n2 +1 （D）n1+ n2 -2 10、标准误反映（A ） A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) Ａ垂直距离的平方和最小Ｂ垂直距离最小Ｃ纵向距离的平方和最小Ｄ纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r，对回归系数检验的t值为t b，二者之间具有什么关系？（C） A t r>t b B t rχ20.05,ν可认为（A ） A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原，其中甲年级调查35人，阳性人数4人；乙年级调查40人，阳性人数8人。该资料宜选用的统计方法为（ A ） A．四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重：北方n1=5385，均数为3.08kg，标准差为0.53kg；南方n2=4896，均数为3.10kg，标准差为0.34kg，经统计学检验，p=0.0034<0.01，这意味着（D ） A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

预防医学考试重点完整最新版

预防医学医学统计学第一章医学统计学中的基本概念 1医学统计学中的基本概念 3选1 变异：由众多的、偶然的、次要的因素造成的个体之间的差异称为变异。总体：总体（population）指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体，反之为无限总体。样本：从总体中随机抽取部分观察单位，其测量结果的集合称为样本（sample）。样本应具有代表性。所谓有代表性的样本，是指用随机抽样方法获得的样本。样本特性代表性随机性可靠性可比性 3选1 小概率事件：我们把概率很接近于0（即在大量中出现的频率非常低）的事件称为小概率事件。 P值：结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义。小概率原理：一个事件如果发生的概率很小的话，那么可认为它在一次实验中是不会发生的，数学上称之小概率原理。统计学中，一般认为等于或小于0.05或0.01的概率为小概率。

资料的类型（3选1）（1）计量资料：对每个观察单位用定量的方法测定某项指标量的大小，所得的资料称为计量资料（measurement data）。计量资料亦称定量资料、测量资料。.其变量值是定量的，表现为数值大小，一般有度量衡单位。如某一患者的身高（cm）、体重(kg)、红细胞计数(1012/L)、脉搏（次/分）、血压（KPa）等。（2）计数资料：将观察单位按某种属性或类别分组，所得的观察单位数称为计数资料（count data）。计数资料亦称定性资料或分类资料。其观察值是定性的，表现为互不相容的类别或属性。如调查某地某时的男、女性人口数；治疗一批患者，其治疗效果为有效、无效的人数；调查一批少数民族居民的A、B、AB、O 四种血型的人数等。（3）等级资料：将观察单位按测量结果的某种属性的不同程度分组，所得各组的观察单位数，称为等级资料（ordinal data）。等级资料又称有序变量。如患者的治疗结果可分为治愈、好转、有效、无效或死亡，各种结果既是分类结果，又有顺序和等级差别，但这种差别却不能准确测量；一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。等级资料与计数资料不同：属性分组有程度差别，各组按大小顺序排列。等级资料与计量资料不同：每个观察单位未确切定量，故亦称为半计量资料。 3选1 抽样误差（sampling error ）是指样本统计量与总体参数的差别。在总体确定的情况下，总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。系统误差：由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。随机测量误差:在收集原始资料时，仪器由于各种偶然因素造成同一对象多次测定的结果不一致。统计的步骤（考填空题，四个空）医学统计工作的内容１．实验设计：设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研究中最关键的一环，是今后工作应遵循的依据。２．收集资料：应采取措施使能取得准确可靠的原始数据。３．整理资料：简化数据，使其系统化、条理化，便于进一步分析计算。４．分析资料：计算有关指标，反映事物的综合特征，阐明事物的内在联系和规律。分析资料包括统计描述和统计推断。实验设计的基本原则（考填空题，三个空）随机化原则、对照的原则（对照的类型，对照的设置）、重复的原则。对照的类型空白对照实验对照标准对照自身对照相互对照历史对照安慰剂对照 2选1 参数：参数（ｐａｒａｍａｔｅｒ）是指总体的统计指标，如总体均数、总体率等。总体参数是固定的常数。多数情况下，总体参数是不易知道的，但可通过随机抽样抽取有代表性的样本，用算得的样本统计量估计未知的总体参数。统计量：统计量（ｓｔａｔｉｓｔｉｃ）是指样本的统计指标，如样本均数、样本率等。样本统计量可用来估计总体参数。总体参数是固定的常数，统计量是在总体参数附近波动的随机变量。完全随机设计常用的几种实验设计方法：配对设计和完全随机设计（名解2选1）完全随机设计：完全随机设计仅涉及一个处理因素（但可为多水平），故又称单因素（one-way）设计。它是将受试对象按随机化的方法分配到各个处理组中，观察实验效应，临床试验中的随机对照试验也属于此类设计。配对设计：是将受试对象按一定条件配成对子，再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。第二章集中趋势的统计描述频数表的制作步骤以及频数分布表的用途（问答题）频数分布表的编制步骤：例：某市1982年50名7岁男童的身高(cm)资料如下，试编制频数表。 114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1

医学统计学试卷

《医学统计学》考查试卷（必修）－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－说明：本试卷总计100分，全试卷共4页，完成答卷时间2小时。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－一、填空（10小题，每小题2分，共计20分。） 1、统计学分为和两大部分。 2、统计思想是用样本估计（或推测）总体，它是通过和来实现的。 3、统计步骤包括、、、。 4、统计资料分为和，后者又分为、和。 5、总体服从正态分布的数值资料，常用与来描述其集中趋势与离散趋势。 6、假设检验的原理是。 7、假设检验得到，可认为差别无统计学意义，，可认为差别有统计学意义，，可认为差别有高度统计学意义。 8、直线回归反映两个变量的，而直线相关反映的是两个变量的。 9、2x 检验的思想可以概述为看和吻合程度如何。 10、秩和检验和Ridit 分析均属，前者关键是，后者关键是。二、选择题（有单选和多选，10小题，每小题1分，共计10分。） 1、当均数相差很大或量刚不同时，比较多个样本资料的离散趋势指标应选。（1）极差（2）变异系数（3）方差（4）标准差 2、总体均数95%的可信区间为。（1）)96.1,96.1(s x s x +- （2）)58.2,58.2(s x s x +-

（3）)96.1,96.1(x x s x s x +- （4）)58.2,58.2(x x s x s x +- 3、四个样本均数的比较，参数假设检验为。（1）0H ：4321x x x x === （2） 1H ：4321x x x x ≠≠≠ （3）0H ：4321μμμμ=== （4）1H ：4321μμμμ≠≠≠ 4、两样本均数比较，经t 检验差别有统计学意义时,P 越小，说明：。（1）两样本均数差别越大（2）两总体均数差别越大（3）越有理由认为两总体均数不同（4）越有理由认为两样本均数不同 5、分类资料的配对设计差异性（或优势性）检验需选用。（1）Pearson-2x 检验（2）CMH-2x 检验（3）McNemar-2x 检验（4）Fisher 的确切概率法 6、来自医院的资料可求得。（1）有效率（2）无效率（3）发病率（4）死亡率 7、作直线相关分析，要求：。（1）X 和Y 变量总体均服从正态分布（2）X 或Y 变量总体服从正态分布（3）只要因变量Y 总体服从正态分布（4）两变量总体服从不服从正态分布均可。 8、方差分析可用于。（1）两个样本均数的比较（2）多个样本均数的比较（3）回归系数的假设检验（4）多个样本率的比较 9、Fisher 确切概率法可用于。（1）两个样本均数的比较（3）多个样本均数的比较（3）两个样本率的比较（4）每组观察例数不太大的多个样本率的比较 10、等级资料（有序多分类资料），可采用的统计分析方法有。（1）2x 检验（2）秩和检验（3）Ridit 分析（4）t 检验或F 检验三、（本题10分）

医学统计学题库完整

第一章绪论习题一、选择题 1.统计工作与统计研究得全过程可分为以下步骤:(D) A、调查、录入数据、分析资料、撰写论文 B、实验、录入数据、分析资料、撰写论文 C、调查或实验、整理资料、分析资料 D、设计、收集资料、整理资料、分析资料 E、收集资料、整理资料、分析资料 2、在统计学中,习惯上把(B )得事件称为小概率事件。 A、B、或C、 D、E、 3～8 A、计数资料 B、等级资料 C、计量资料 D、名义资料 E、角度资料 3、某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料得类型就是( A)。 4、分别用两种不同成分得培养基(A与B)培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长得活菌数如下,A:48、84、90、123、171;B:90、116、124、22 5、84。该资料得类型就是(C )。 5、空腹血糖测量值,属于( C)资料。 6、用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料得类型就是(B )。 7、某血库提供6094例ABO血型分布资料如下:O型1823、A型1598、B型2032、AB型641。该资料得类型就是(D )。 8、100名18岁男生得身高数据属于(C )。二、问答题 1.举例说明总体与样本得概念、答:统计学家用总体这个术语表示大同小异得对象全体,通常称为目标总体,而资料常来源于目标总体得一个较小总体,称为研究总体。实际中由于研究总体得个体众多,甚至无限多,因此科学得办法就是从中抽取一部分具有代表性得个体,称为样本。例如,关于吸烟与肺癌得研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取得一定量得个体则组成了研究得样本。 2.举例说明同质与变异得概念答:同质与变异就是两个相对得概念。对于总体来说,同质就是指该总体得共同特征,即该总体区别于其她总体得特征;变异就是指该总体内部得差异,即个体得特异性。例如,某地同性别同年龄得小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析得关系答:统计设计与统计分析就是科学研究中两个不可分割得重要方面。一般得,统计设计在前,然而一定得统计设计必

医学统计学考试重点

医学统计学考试重点 The latest revision on November 22, 2020

H 正确Ⅰ型错误(ɑ) 推断正确(1ɑ) 不正确推断正确(1β) H Ⅱ型错误(β) 为真时却被拒绝，弃真错误 Ⅰ型错误（ɑ错误）: H 为假时却被接受，取伪错误 Ⅱ型错误（β错误）: H 5.随机化原则与安慰剂对照随机化原则:是将研究对象随机分配到实验组和对照组，使每个研究对象都有同等机会被分配到各组中去，以平衡两组中已知和未知的混杂因素，从而提高两组的可比性，避免造成偏倚。（意义: ①是提高组间均衡性的重要设计方法；②避免有意扩大或缩小组间差别导致的偏倚；③各种统计学方法均建立在随机化基础上）安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物，是一种无药理作用的制剂，不含试验药物的有效成分，但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样，不能被受试对象和研究者所识别。（安慰剂对照主要用于临床试验，其目的在于控制研究者和受试对象的心理因素导致的偏倚，并提高依从性。安慰剂对照还可以控制疾病自然进程的影响，显示试验药物的效应） 6.误差与标准误（区分率与均数）

医学统计学上机考试题样题及评分标准

上机考试题样题及评分标准姓名__________ 学号__________________ 成绩_________ 1、某监测站拟用极谱法替代碘量法来测定水中溶解氧含量,今对12 个水样同时用两种方法测定,结果如下,问能否用极谱法推算碘量法 ? ━━━━━━━━━━━━━━━━ 极谱法碘量法 (微安值) (溶解氧) ──────────────── 5.3 5.84 5.3 5.85 5.2 5.80 2.1 0.33 3.0 1.96 3.3 2.27 2.8 1.58 3.4 2.32 2.3 0.76 6.8 7.79 6.3 7.56 4.8 5.00 ━━━━━━━━━━━━━━━━ 评分标准：题意分析：根据题意，应做回归分析。（方法正确得10分） ⑴经绘制散点图，两指标间基本呈直线趋势，可以用直线回归分析。（5分） ⑵计算结果（10分）：以极谱法结果为x，碘量法结果为y，经 SPSS计算得： a=-3.113, b=1.668, F=1944.118（或t=44.092）, P=0.000（或

P<0.0005） ⑶结论（9分）：由于P<0.05，可认为极谱法与碘量法存在回归关系（或依存关系），可以用极谱法结果推算碘量法结果（6分），推算方程为： Y=-3.113+1.668X（3分） 2、某医院对比两种疗法对活动期＋二指肠球部溃疡的疗效，一组口服呋喃硝胺；另一组口服甲氰咪呱。结果如下，问两组的疗法是否有差别？例数愈合好转无效呋喃硝胺组 62 54 7 1 甲氰咪呱组 64 44 11 9 合计 126 98 18 10 评分标准：题意分析：该资料为等级资料，可采用秩和检验。（方法正确得10分） ①建立假设，确定检验水准（3分） H0：两组疗效的分布无差别 H1：两组疗效的分布有差别 α=0.05 ②计算结果（10分）：经SPSS计算得， U=1594.00（或W=3547或Z=-2.624），P=0.009 ③推断结论（6分，其中，统计结论3分，专业结论3分）：由于 P=0.009<0.05，按α=0.05，拒绝H0，接受H1，可认为两组疗效差异有统计学意义，呋喃硝胺的疗效高于甲氰咪呱。 3、现有170例已确诊的乳癌患者,请问：两种诊断方法的诊断结果是否有关系？两种方法何者为优 ? ──────────────── 临床诊断 X线诊断 ───────── 乳癌非乳癌 ──────────────── 乳癌 24 30