医学统计学总结

医学统计学总结
医学统计学总结

医学统计学总结

一、绪论

1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。

2,医学统计学得主要内容:

1) 统计研究设计调查研究设计与实验研究设计

2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整

理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。

3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、

logistic回归与Cox回归分析。

3,统计工作步骤:

1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预

期分析指标,误差控制措施,进度与费用。

2) 搜集材料

A, 搜集材料得原则及时、准确、完整

B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。

C, 资料贮存

3) 整理资料 a检查核对b设计分组c拟定整理表d归表

4) 分析资料统计分析包括统计描述与统计推断

4,同质(homogeneity):指被研究指标得影响因素相同。

变异(variation):同质基础上得各观察单位间得差异。

变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项

特征进行测量或观察,这种特征称为变量

变量值:变量得观察结果或测量值。

5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体

具有得基本特征就是:同质性

样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表

性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。

统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。

参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

抽样误差(sampling error):由于个体差异得存在,即使在同一整体中随机抽取若干样本,各样本得统计量往往不等,统计量与参数也会有所不同。这种因抽样研究引起得差异称抽样误差。

随机事件(random event)对随机试验得各种可能结果得集合。

概率(probability) 描述随机事件发生得可能性大些哦得一个度量。

小概率事件若随机事件A得概率P(A)≤α,习惯上,α=0、05时,就称A为小概率事件。其统计学意义就是小概率事件在一次随机试验中认为不会发生。

抽样误差

1,抽样误差(sampling error) 由抽样而造成得样本统计量与总体参数之间得差异或各样本统计量之间得差异。在医学统计学中,常把由抽样造成得样本均数与总体均数间得差异称为均数得抽样误差;由抽样造成得样本率与总体率之间得差异称为率得抽样误差。

2,样本均数得标准差(简称标准误,standard error) 反映均数得抽样误差大小得指标。大,抽样误差大;反之,小,抽样误差小。

(3、1)

实际工作中往往未知得,可用样本标准差s作得估计值,计算标准误得估计值。

(3、2)

3,标准误得用途:a,衡量样本均数得可靠性;b,估计总体均数得置信区间;3,用于均数得假设检验。

4,标准误得估计值得用途:

a,描述抽样误差得大小;

b,总体参数得估计;

c,用来进行假设检验。

5,率得抽样误差:由抽样造成得样本率与总体率得差异称为率得抽样误差。

衡量率得抽样误差大小得指标就是率得标准误。越小,率得抽样误差越小;越大,率得抽样误差越大。

(3、3)

其中为总体率。实际工作中,由于往往就是未知得,可用样本率p作得估计值,计算率得标准误得估计值。

(3、4)。

标准差(s)标准误

计算公式s=

(1)表示观察值得变异程度(1)估计均数得抽样误差得大小

(2)计算变异系数CV=100% (2)估计总体均数得可信区间

(,)

(3)确定医学参考值范围(3)进行假设检验

(4)计算标准误

简述标准差、标准误得区别与联系?

区别:(1)含义不同:标准差S表示观察值得变异程度,描述个体变量值(x)之间得变异度大小,S越大,变量值(x)越分散;反之变量值越集中,均数得代表性越强。标准误估计均数得抽样误差得大小,就是描述样本均数之间得变异度大小,标准误越大,样本均数与总体均数间差异越大,抽样误差越大;反之,样本均数越接近总体均数,抽样误差越小。(2)与n得关系不同: n增大时,S趋于σ(恒定),标准误减少并趋于0(不存在抽样误差)。(3)用途不同:标准差表示x得变异度大小、计算变异系数、确定医学参考值范围、计算标准误等,标准误用于估计总体均数可信区间与假设检验。

联系:二者均为变异度指标,样本均数得标准差即为标准误,标准差与标准误成正比。

标准差: 标准误:

二、分布

正态分布

1,正态分布得函数

其中为总体均数,为总体标准差,为圆周率,为自然对数得底,且仅为变量。以为横轴,以为纵轴,当均数与标准差已知时即可绘出正态分布曲线。

为应用方便,将式中进行变量变换,使原来得正态分布变为得标准正态分布,亦称分布。被称为标准正态变量或标准正态离差,将代入上述公式即得标准正态分布得密度函数。

(2、17)

(2、18)

2,正态分布得特征

(1)正态曲线(normal curve)在横轴上方均数处最高。

(2)正态分布以均数为中心,左右对称。

(3)正态分布有2个参数(parameter),即均数(位置)与标准差(形状)。当固定不变时,越大,曲线沿横轴越向右移动;反之,越小,则曲线沿横轴越向左移动。当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。通常用N(,)表示均数为、方差为得正态分布。用(0,1)表示标准正态分布。(4)正态分布在1处各有一个拐点。(5)正态曲线下面积得分布有一定规律。

3,常用得两个区间:1、96及2、58得区间面积分别占总面积得95%及99%。

4,正态分布得应用

1),制定医学参考值范围

a,正态分布法适用于正态或近似正态分布得资料双侧界值:;单侧上界:,或单侧下界:。

b,对数正态分布法适用于对数正态分布资料双侧界值: ;单侧上界:,或单侧下界

c,百分位数法常用于偏态分布资料及资料中一端或两端无确切数值得资料。双侧界值:与;单侧上界:,或单侧下界:。

2)正态分布就是多种统计方法得理论基础如t分布,F分布,分布都就是在正态分布得基础上推导出来得,分布也就是以正态分布为基础得。另外t分布,二项分布,poisson分布得极限为正态分布,一定条件下可按正态分布原理处理。

t分布

1,t分布:(3、5)

t分布得特征为:

1. 以0为中心,左右对称得单峰分布。

2. t分布曲线形态变化与自由度得大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐

增大时,则t分布逐渐逼近正态分布(标准正态分布)。当=时,t分布为u分布。t界值表附图

中非阴影部分面积得概率为:

2,总体均数得估计:用样本指标估计总体参数称为参数估计,就是统计推断得一个重要方面。总体均数得估计有2种方法。一就是直接用统计量估计总体参数,称为点值估计。由于抽样误差得存在,此法很难估计准确。二就是区间估计(interval estimation)法。区间估计就是按一定得概率100(1-)%估计总体均数所在得范围,亦称可信区间(confidence interval,CI)。常取得可信度为95%与99%,即95%可信区间与99%可信区间。计算方法有3种:

(1)未知且n小按t分布原理用式(3、6)计算可信区间。

由于将代入,得

则总体均数得100(1-)%可信区间得通式为:(3、6)或写成 (,)。

(2)未知,但n足够大时(n>100) t分布逼近u分布,按正态分布原理,用式(3、7)估计可信区间。

()(3、7)

(3)已知按正态分布原理,用式(3、8)估计可信区间。

()(3、8)

标准正态分布(u分布)与t分布有何异同?

答:相同点:t分布与标准正态分布(u分布)都就是以0为中心得正态分布。标准正态分布就是t分布得特例

(自由度就是无限大时)。

不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低,且尾部翘得更高;t分布

受自由度大小得影响,随着自由度得增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯

一一条曲线。

二项分布

1,二项分布(binomial distribution)就是对只具有2种互斥结果得离散型随机事件得规律性进行描述得一种

概率分布。

二项分布概率公式: (3、9)

式中n为独立得贝努力试验次数,为成功得概率,(1-)为失败得概率,X为在n次贝努力试验中出现“成功”

得次数,表示在n次试验中出现X得各种组合数,在此称为二项系数(binomial coefficient)。

2,二项分布得应用条件:

(1)各观察单位只能具有相互对立得一种结果,如阳性或阴性,生存或死亡。

(2)已知发生某一结果(阳性)得概率为,其对立结果得概率为1-,实际工作中要求就是从大量观察中获

得比较稳定得数值。

(3)n次试验在相同条件下进行,且各个观察单位得观察结果相互独立。

3,二项分布得性质:

A,二项分布得均数与标准差在二项分布得资料中,

当与n已知时,它得均数及其标准差如下:=n (3、11)

(3、12)

若均数与标准差不用绝对数表示,而就是用率表示时,即对式(3、11)(3、12)分别除以n,得:

(3、13)

(3、14)

就是样本率得标准误得理论值,当未知时,常用样本率p作为得估计值,则: (3、15)

B,二项分布得累计概率二项分布得累计概率(cumulative probability)常用得有左侧累计与右侧累计2种方

法。

从阳性率为得总体中随机抽取n个个体,则

(1)最多有k例阳性得概率

(3、16)

(2)最少有k例阳性得概率

(3、17)

D,二项分布得形状取决于与n得大小:

(1)当=0、5时,分布对称;当<0、5时,分布呈正偏态,且固定n时,越小,分布越偏;当>0、5时,分布呈负偏

态,且固定n时,越大,分布越偏。

(2)对固定得,分布随n得增大趋于对称。

4,总体率得估计

总体率得估计也有点估计与区间估计,点估计就是简单地用样本率来估计总体率;区间估计就是求出总

体率得可能范围。样本率得理论分布与样本含量n、阳性率p得大小有关,所以需要根据n与p得大小不同,

分别选用下列2种方法。

(一)查表法当样本含量n较小,如n≤50,特别就是p很接近于0或1时,按二项分布得原理估计总体率得

可信区间。

(二)正态近似法当样本含量n足够大,且样本率p或1-p均不太小,如np与n(1-p)均大于5时,样本率得p 得抽样分布近似正态分布,总体率得可信区间可按下列式(3、17)进行估计。

(3、17)

Poisson分布

1,Poisson分布泊松分布就是在很小,样本含量n趋向于无穷大时,二项分布得极限形式。更多地用于研究单位时间、单位人群、单位空间内,某罕见事件发生得次数得分布。

X=0,1,2(3、19)

式中=n为Poisson分布得总体均数,X为单位时间或单位空间内某事件得发生数,e为自然对数得底,约等于2、71828。在实际运算中,P(X)亦可按式(3、20)作递推计算。(3、20)

2,Poisson分布应用条件:

A, 要求事件得发生就是相互独立

B, 发生得概率相等

C, 结果就是二分类

3,Poisson分布得性质:

A, 该分布就是一种单参数得离散型分布,其参数为,它表示单位时间或空间内某件事平均发生得次数,又称强度参数。

B, Poisson分布得方差与均数相等,即=

C, Poisson分布得累计概率

(1) 最多为k次得概率

(2) 最少为k次得概率

4,Poisson分布得图形

已知,就可按公式计算得出X=0,1,2,时得P(X)值,以X为横坐标,以P(X)为纵坐标作图,即可会出Poisson 分布得图形。

值越小,分布越偏,随着得增大,分布越趋于对称,当=20时,分布接近正态分布,当=50时,可以认为Poisson 分布呈正态分布N(,)按正态分布处理。

5,Poisson分布具有可加性

6,总体参数得估计

由样本均数(样本计数)X估计总体均数也有点(值)估计与区间估计,区间估计得方法,需视样本计数(样本均数)X得大小而定,X小时用查表法,X大时用正态近似法。

(一)查表法

当样本计数X时,用X值查附表poisson分布得可信区间,可得总体均数得95%或99%可信区间。

(二)正态近似法

当样本计数X>50时,可用正态近似原理下面公式求总体均数得95%或99%可信区间

正态分布、二项式与泊松分布得关系:

二项分布(binomial distribution):对只具有两种互斥结果得离散型随机事件得规律性进行描述得一种概率分布。Poisson分布就是在π很小,样本含量n趋于无穷大时,二项分布得极限形式。当v=∞时,t分布即为u分布,趋向正态分布。

可信区间与参考值范围得区别:

意义、计算公式与用途均不同。(1)参考值范围就是指同质总体内包括百分之几十个体值得估计范围。而可信区间就是指在百分之几十得可信度估计得总体参数得所在范围。(2)同样得百分之几十,参考值范围就是样本范围,可信区间就是指可信度范围,二者有着本质得不同。(3)从意义来瞧,95%参考值范围就是指同质总体内包括95%个体值得估计范围,而总体均数95%可信区间就是指按95%可信度估计得总体均数得所在范围。(4)从计算公式瞧,若指标服从正态分布,95%参考值范围得公式就是:±1、96s。总体均数95%可信

区间得公式就是:。前者用标准差,后者用标准误。前者用1、96,后者用α为0、05,自由度为v得t界值。

(5)从用途上瞧,可信区间用来估计总体均数,参考值范围用来判断观察对象得某项指标就是否正常。

简述检验假设与可信区间得联系与区别。

答:(1)可信区间用于推断总体参数所在得范围,假设检验用于推断总体参数就是否不同。前者估计总体参数得大小,后者推断总体参数有无质得不同。(2)可信区间也可回答假设检验得问题。但可信区间不能提供确切得P值范围,只能给出在α水准上有无统计意义。(3)可信区间还可提示差别有无实际意义。

统计图表

1,绘制统计图得基本要求:

A, 根据资料性质与分析目得据顶适当图形。

B, 标题应说明资料得内容、时间与地点,一般位于图得下方。

C, 图得纵、横轴应注明标目及对应单位,尺度应等距或具有规律性,一般自左而右、自下而上、由小到大。

D, 为使图形美观并便于比较,统计图得长宽比例一般为7:5,有时为了说明问题也可以变动。

E, 比较、说明不同得事物时,可用不同颜色或线条表示,并常附图例说明,但不宜过多。

2,常用统计图得适用条件与绘制

1. 条图(bar graph)用等宽长条得高度表示按性质分类资料各类别得数值大小,用于表示它们之间得

对比关系。

2. 圆图(pie graph)圆形图适用于百分构成比资料,表示事物各组成部分所占得比重或构成。

3. 百分条图(percent bar)意义及适用资料同圆图,也称构成条图。

4. 线图(line graph)线图适用于连续性资料,以不同得线段升降来表示资料得变化,并可表明一事物

随另一食物(时间)而变动得情况。

5. 直方图(histogram)直方图用于表达连续性资料得频数分布。

6. 散点图(scatter diagram)散点图以直角坐标系中各点得密集程度与趋势来表示两现象间得关系。常

用在对资料进行相关分析之前适用。

单变量资料

一,数值变量

统计描述

1,频数表得编制求全距定组段与组距列频数表画频数图

2,频数分布得两个重要特征:集中趋势与离散趋势

3,频数分布可以分为正态分布与偏态分布

4,频数表得用途:揭示资料分布类型与分布特征,以便选取适当得统计方法;便于进一步计算指标与统计处理;便于发现某些特大或者特小得可疑值。

5,集中趋势得描述:均数几何均数中位数百分位数

6,均数(mean):算术均数得简称。常用==表示。

7,中位数(median):一组由小到大按顺序排列得观察值中位次居中得数值,用M表示。可用于描述任何分布,特别就是偏态分布资料以及频数分布得一端或两端无确切数据资料得中心位置。

8,百分位数(percentile)就是一种位置指标,用表示。一个百分位数P将一组观察值分为两部分,理论上有x%得观察值比它小,有(100-x)%得观察值比它大。可用于确定非正态分布资料得医学参考值范围。

9,离散趋势得描述:全距(range) 四分位数间距(quartile) 方差标准差

10,全距(range) 亦称极差,为一组同质观察值中最大值与最小值之差。反映个体差异得范围,优点就是计算简单,缺点就是:1)只考虑最大最小值之间得差异,不能反映组内其她观察值得变异度;2)样本含量相差悬殊时不宜用全距比较。

11,四分位数间距(quartile) 上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布得一端或两端无确切数值资料得离散程度。

12,方差(variance)离均差得平方与表示。

13,标准差(standard variance)得作用:a,估计变量值得离散程度b,计算变异系数c,与均数结合,估计变异值得频数分布范围d,计算标准误

(总体) s=(样本)

14,变异系数(coefficient of variation) 常用于比较度量单位不同或均数相差悬殊得两组或多组资料得变异度。CV=100%

假设检验

1,假设检验(hypothesis test)亦称显著性检验(significance test),其基本思想就是先对总体得参数或分布做出某种假设,如设总体均数(或率)为一定值;两总体均数(或率)相等;总体服从正态分布或两分布相同等,然后根据样本信息选用适当得方法,推断此假设应当拒绝或不拒绝。

2,假设检验得一般步骤:

(1)建立假设与确定检验水准:根据实际情况确定单、双侧检验,建立假设,确定检验水准;

(2)选定检验方法与计算统计量:根据设计得类型及研究目得选择合适得检验方法并计算出对应得统计量;

(3)确定P值并做出推断结论。若t≥tα,v,则P≤α,按检验水准,拒绝H0,接受H1,尚可认为差异显著有统计学意义;相反则差异不显著,无统计学意义

3,假设检验时应注意得事项:

(1)要有严密得抽样研究设计;样本必须就是从同质总体中随机抽取得,要保证组间得均衡性与资料得可比性,可能影响结果得非处理因素在对比组间应尽可能相同或相近;

(2)正确选择检验方法;根据现有得资料类型、设计类型、分析目得、样本含量等因素选用适当得检验方法,如不符合条件可做适当转换;

(3)正确理解“差别无显著性”得含义,差别有统计学意义,不能理解为两者差差大,也不能理解为所分析得指标在实际应用上就有“显著效果”。

(4)检验假设得推断结论为概率结论,不能绝对化:检验水准人为规定,就是相对得,报告结论时应列出检验统计量与P值得确切范围。

(5)注意就是单侧检验还就是双侧检验

I型错误与II型错误:

I型错误(type I error)拒绝了实际上成立得,即样本原本来自得总体,由于抽样得偶然性得到了较大得t 值,所以拒绝了,接受了,这类弃真错误称为第一类错误,犯第一类错误得概率就是。

II型错误(type II error)就是不拒绝实际上不成立得,即“存伪”即样本原本来自得总体,但就是由于抽样得偶然性,得到了较小得t值,得到了较大得P值,没有拒绝,这类存伪错误称为第二类错误,犯第二类错误得概率就是1-

正态性检验:用均数与标准差描述资料得分布特征,对例数n较小得样本进行t检验时,首先要求样本取自正态分布得总体。

两个方差得齐性检验:两样本均数比较得t检验与多个样本均数比较得方差分析要求各样本所来自得总体方差相等。两样本方差得齐性检验:

(4、12)

式中为较大得样本方差,为较小得样本方差,为分子得自由度,为分母得自由度,相应得样本例数分别为与。当两总体方差齐同时,F值一般不会离1太远;若算得得F值较大,大于我们规定得界值时,就认为两样本所在总体得方差不齐。

t检验

t检验:常用于总体标准差未知且样本含量较小时样本均数与总体均数得比较,成组设计得两个小样本得均数得比较及配对设计得两样本均数得比较。

t检验得应用条件:a,n≤50 b,样本来自正态分布得总体 c,两样本均数比较时要求两样本总体方差相等。

1,单样本t检验(one sample t-test):样本均数与已知总体均数比较,目得就是推断样本所代表得未知总体均数与已知总体均数有无差别。

()(4、1)

式中为样本均数,为已知总体均数,s为样本标准差,n为样本含量,为自由度。

步骤如下(可为u检验)

1)建立假设,确定检验水准。

H0:μ=μ0 H1:μ≠μ0

α=0、05

2)计算统计量。

已知,(总体均数)μ0=,n=,=,s=

3)确定P值,做出推断结论。

按v=n-1,查t界值表,得P>0、05(或P<0、05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?与?有差异。

2,配对设计资料得t检验分为3种情况:①将受试对象按一定条件配成对子(同种属、同体重、同年龄、同性别等),再随机分配每对中得2个受试对象到不同得处理组;②同一受试对象分别接受2种不同处理,其目得就是推断2种处理得效果有无差别;③同一受试对象处理前后得比较,其目得就是推断某种处理有无作用。

配对设计资料得t检验(paired t-test for dependent samples)得基本思路:首先计算出各对差值d得均数,当2种处理结果无差别或某种处理不起作用时,理论上差值得总体均数应该为0,故可将配对设计资料得t检验视为样本均数与总体均数得比较。

(4、2)

式中为样本中各对差值d得均数,为样本差值得标准差,n为对子数,为自由度。

先列表求差值d与

1)建立假设,确定检验水准。

H0:μd =0 H1:μd≠0

α=0、05

2)计算统计量。

已知,n=,∑d=,∑=

3)确定P值,做出推断结论。

按v=n-1,查t界值表,得P>0、05(或P<0、05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),即根据本资料尚不能(可以)认为?。

3,成组设计资料两样本均数比较得t检验(two-sample t-test for independent samples):在临床医学研究中,进行配对设计比较困难,一般分别从2个总体中随机抽样,进行成组设计两样本均数得比较,目得就是推断2个总体均数就是否相等。所比较得两个样本含量最好相等,此时抽样误差最小。

(4、3)

可为t,u检验

1)建立假设,确定检验水准。

:μ1=μ2 :μ1≠μ2

α=0、05

2)计算统计量。

已知,n1=,∑X1=,∑=,n2=,∑X2=,∑=

1=∑X1/n1=,2=∑X2/n2=

(已知,n1=,1=,s1=,n2=,2=,s2=

3)确定P值,做出推断结论。

按v=n1+n2-2,查t界值表,得P>0、05(或P<0、05),按α检验水准,不拒绝H0(或拒绝H0,接受H1),可以认为?得差别无(或有)统计学意义。

检验

u检验(u-test,或Z-test):用检验统计量u来命名得。用于样本含量n足够大(n>50),或n虽小但总体标准差已知时得样本均数与总体均数得比较、成组设计两样本均数得比较。

1,单样本u检验(one sample u-test):

(4、4)

式中为样本均数,为已知总体均数,s为样本标准差,n为样本含量。

2,成组设计得两样本均数比较得u检验(two-sample u-test for independent samples):

(4、5)

式中,分别为两样本均数,为两样本均数差值得标准误,、为分别为两样本得方差,、分别为两样本例数。

标准正态分布(u分布)与t分布有何异同?

答:相同点:t分布与标准正态分布(u分布)都就是以0为中心得正态分布。标准正态分布就是t分布得特例(自由度就是无限大时)。不同点:t分布为抽样分布,u分布为理论分布;t分布比标准正态分布得峰值低,且尾部翘得更高;t分布受自由度大小得影响,随着自由度得增大,逐渐趋近于标准正态分布;t分布有无数条曲线,而u分布只有唯一一条曲线。

方差分析

1,方差分析得基本思想:按研究目得与设计类型,将总变异中得离均差平方与SS与自由度分别分解成相应得若干部分,然后求得各相应部分得变异;由于其中得组内(或误差)变异主要反映个体差异或抽样误差,其她各部分得变异与之比较得出统计量F值,根据F值得大小确定P值,并做出推断。

2,方差分析得优点:

(1)不受比较组数得限制,可比较多组均数

(2)可同时分析多个因素得作用

(3)可分析同类间得交互作用

3,方差分析得应用范围:

(1)2个或多个样本均数间得比较

(2)分析2个或多个因素间得交互作用

(3)回归方程得线性假设检验

(4)多元线性回归分析中偏回归系数得假设检验

(5)两样本方差齐性检验

完全随机设计得方差分析:

就是将总变异中得离均差平方与SS与自由度分别分解成组间与组内两部分,SS/ 与SS/SS分别为组间变异(MS)与组内变异(MS),两者之比即为统计量F。

(1)总离均差平方与及自由度:

SS= (5、2)

= (5、3)

(2)组间离均差平方与、自由度与均方:

SS= (5、4)

= (组数-1)(5、5)

MS= (5、6)

(3)组内离均差平方与、自由度与均方:

SS=SS-SS (5、7)

=N-k (样本量-组数)(5、8)

MS= (5、9)

当方差分析得推断结果为拒绝H0,接受H1,各总体均数不同或不全相同时,应对均数进一步两两比较,即多重比较(multiple parisons)。可用q 检验进行分析:

(5、14)

式中为方差分析得组内均方,若为两因素或两因素以上得方差分析,则为误差项均方;与分别为两样本得样本含量。

配伍组设计资料得方差分析

配伍组设计亦称随机区组设计(randomized block design),其多个样本均数比较可用无重复数据得两因素方差分析(two-way ANOVA)。2个因素就是指主要得研究因素与配伍组因素。两因素得方差分析就是把总变异中得离均差平方与与自由度分别分解成处理组间、配伍组间与误差三部分。计算公式如下:

变异来源离均差平方与自由度均方MS F

总-C

处理组间k-1

配伍组间b-1

误差SS-SS-SS (k-1)(b-1)

,为配伍组数

二,分类变量

统计描述常用相对数,即率,构成比,与相对比对分类资料进行统计描述

1,率(rate):率又称频率指标,它说明某现象发生得频率或强度

率=

2,构成比(proportion):又称构成指标,它说明一事物内部各组成部分所占得比重或分布,常以百分数表示构成比=

3,相对比(relative ratio)亦称比,就是A,B 2个有关指标之比,说明A与B 得若干倍或百分之几,就是相对数得最简单形式。A,B性质可相同可不同。

相对比=

4,应用相对数时应注意得事项:

(一) 计算相对数得分母不宜过小。

(二) 分析时不能以构成比代替率。

(三) 对观察单位数不等得几个率,不能直接用相加求其平均率。

(四) 资料得对比应注意可比性。

(五) 对样本率(或构成比)得比较应遵循随机抽样,要做假设检验。

(六) 区别清分子分母。

5,率得u检验

1),样本率与总体率比较:目得就是推断样本率所代表得总体率与某已知总体率就是否相等。根据资料得不同情况,可以采用不同得假设检验方法:①若很小,可用Poisson分布原理做检验;②若不太靠近0或1时,可用二项分布原理做检验;当样本含量n足够大时,或且,二项分布逼近正态分布,可用u检验计算其样本检验统计量。

(6、1)

式中p为样本率,为已知总体率(常为理论值或标准值),n为样本含量。

2),两样本率比较:两个样本率作比较得目得就是推断两个样本各自代表得两总体率就是否相等,当两个样本满足正态近似条件且样本含量较大时,可用u检验,其公式:

(6、2)

式中、分别为两个样本率,、分别为两样本含量,为两个样本率之差得标准误,为合并阳性率,,、为两个样本阳性例数。

四格表资料得检验

适用于分类变量资料中推断两个或多个总体率(或构成比)之间有无差别,两个分类指标之间有无相关关系得检验以及检验频数分布得拟合优度。

(6、3)

式中A代表实际频数,T代表理论频数。格子理论频数可用同样方法求得,其计算公式为:(6、4)

(6、5)

四格表资料得专用公式:(6、6)

式中a、b、c、d分别为四格表得实际频数=a+b+c+d。

四格表得值得校正。

①当所有T>5,n>40时用上述公式;

②当有140时,需进行连续性校正:

(6、7)

(6、7)

③或n<40时,需用四格表资料得确切概率法。

行×列表资料得检验。

(6、9)

式中n就是总例数,A就是每个格子得实际频数,,分别为某格子对应得行合计与列合

行×列表检验注意事项

(1)X2检验要求理论频数不宜太小,否则将导致偏性。一般认为行X列表资料中不宜有1/5以上得格子理论数小于5,或有一个格子理论数小于1。处理方法:最好得方法就是增加样本例数,以增大理论频数;且精确概率法;进行合理得合并;删除理论频数太小得行与列,后两种方法将损失一定得信息并影响样本得随机性。

(2)单向有序列行X列表得统计处理:当效应按强弱分为若干个级别,试验结果整理为单向有序行列表,在比较各处理组得效应有无差别时,宜用秩与检验或Ridit分析。

(3)当多个样本率比较得检验。结论为拒绝H0,只能认为各总体率或总体构成比之间总得说来有差别,但不能说明它们彼此间都有差别,或某两者间有差别。若要进一步解决此问题,可用卡方分割法。

配对四格表资料得卡方检验:

(一)关联性分析:

(1)建立假设检验,确定检验水准。

H0:两种方法得检验结果无关系

H1:两种方法得检验结果有关系

α=0、05

(2)计算统计量X2值。

①n>=40,T>=5,

②n>=40,1

③n<40或T<1,四格表确切概率法。

(3)确定P值,做出推断结论。

X2>3、84,P<0、05,按α=0、05检验水准,拒绝H0,接受H1,可以认为两种方法得检验结果有关系。

(二)差别性检验:

(1)建立假设检验,确定检验水准。

H0:两总体得B=C

H1:两总体得B不等于C

α=0、05

(2)计算统计量X2值。

①b+c>40时:

②b+c<40时,

(3)确定P值,做出推断结论。

X2>3、84,P<0、05,按α=0、05检验水准,拒绝H0,接受H1,可以认为两种方法得检验结果有差别。

(X20、05(1)=3、84, X20、005(1)=7、88)

非参数检验

参数检验与非参数检验得优缺点:

参数检验得优点就是对资料得分析利用充分,统计分析得效率高;缺点就是对资料得要求高,适用范围有限。非参数检验得优点:(1)适用范围广,对变量得类型与分布无特殊要求,不受总体分布得限制;(2)对数据得要求不严,对某些指标不便准确测定得资料也可应用;(3)方法简便,易于理解与掌握。缺点就是如果对符合参数检验得资料用了非参数检验,因不能充分利用资料提供得信息,会使检验效能低于非参数检验;若要使检验效能相同,往往需要更大得样本含量。

配对设计得符号秩与检验

Wilcoxon符号秩与检验(Wilcoxon signed rank test)就是推断其差值就是否来自中位数为零得总体得方法,可用于配对设计差值得比较与单一样本与总体中位数得比较。

(一)基本思想其假设就是差值得总体中位数等于0,备择假设就是差别得总体中位数不等于0,如果差别太大,就拒绝;反之,不拒绝。

(二)方法步骤:1,建立检验假设,确定检验水准;2,计算检验统计量T值:a,求各对得差值;b,编秩;c,求秩与,确定统计量T;3,确定P值,做出推断结论。

完全随机设计两样本比较得秩与检验

亦称两个样本比较得秩与检验,利用两样本观察值得秩与来推断样本分别代表得总体分布就是否相同。成组设计多样本比较得秩与检验,

利用多个样本得秩与来推断各样本分别代表得总体得分布有无差别。

配伍组设计得秩与检验M检验

秩与检验步骤:

(1) 建立检验假设,确定检验水准。

H0:?与?得?总体分布相同。

H1:?与?得?总体分布不同。

(2) 计算统计量T值。

1)编秩将2组数据由小到大统一编秩,相同数据取平均秩次。

2)求秩与,确定统计量T 2组秩次分别相加,若两组例数相等,则任取一组得秩与为统计量;若两组例数不等,则以样本例数较小者对应得秩与为统计量。

3)确定P值,做出推断结论。

查T界值表(成组设计用),若T值在界值范围内,P>0、05,按α=0、05检验水准,不拒绝H0,可以认为两者得总体分布相同;若T值<=界值或在界值范围外,P<=0、05,按α=0、05检验水准,,拒绝H0,接受H1,可以认为两得分布位置不同。

如n1或n2-n1超出了成组设计T界值得范围,可用正态近似检验:

如相同秩次较多(>25%),应校正:

uc=?>1、96,P<0、05。按α=0、05检验水准,,拒绝H0,接受H1,可以认为两得分布位置不同。

非参数统计检验得适用条件:

(1)资料不符合参数统计法得应用条件(总体为正态分布、且方差相等)或总体分布类型未知;(2)等级资料;(3)分布呈明显偏态又无适当得变量转换方法使之满足参数统计条件;(4)在资料满足参数检验得要求时,应首选参数法,以免降低检验效能。

直线回归方程得应用:

(1)定量描述两变量之间得依存关系;(2)利用回归议程进行预测;(3)利用回归议程进行统计控制。

应用直线回归得注意事项:

(1)作回归分析要有实际意义;

(2)直线回归分析得资料,一般要求因变量Y就是来自正态分布总体得随机变量,自变量X可以就是正态随机变量,也可以就是精确测量与严格控制得值、

(3)进行回归分析时,应先绘制散点图,如提示有直线趋势,可作线性回归分析,否则应考虑作数据转换或进行非线性回归;

(4)对离群值应检查核对,予以修正或剔除;

(5)回归直线不要外延。

简述直线相关与回归得区别与应用。

答:区别:(1)资料要求不同,相关要求两个变量就是双变量正态分布;回归要求应变量Y服从正态分布,而自变量X就是能精确测量与严格控制得变量。(2)统计意义不同,相关反映两变量间得伴随关系这种关系就是

相互得,对等得;不一定有因果关系;回归则反映两变量间得依存关系,有自变量与应变量之分,一般将“因”或较易测定、变异较小者定为自变量。这种依存关系可能就是因果关系或从属关系。(3)分析目得不同,相关分析得目得就是把两变量间直线关系得密切程度及方向用一统计指标表示出来;回归分析得目得则就是把自变量与应变量间得关系用函数公式定量表达出来。

联系:(1)变量间关系得方向一致,对同一资料,其r与b得正负号一致。(2)假设检验等价,对同一样本,tr=tb,由于tb计算较复杂,实际中常以r得假设检验代替对b得检验。(3)相关与回归可以相互解释,相关系数得平方r2(又称决定系数)就是回归平方与与总得离均差平方与之比,故回归平方与就是引入相关变量后总平方与减少得部分。(4)对于II型回归,r与b值可相互换算,。

简述相关系数与回归系数得联系与区别。

答:区别:(1)两种系数得意义不同:回归系数就是表明两个变量之间数量上得依存关系,回归系数越大回归直线越陡峭,表示应变量随自变量变化越快;相关系数就是表明两个变量之间相关得方向与紧密程度得,相关系数越大,两个变量得关联程度越大。(2)r与b有区别,回归系数b表示X每增(减)一个单位,Y平均改变b个单位;相关系数r说明具有直线关系,收集整理得两个变量间相关关系得密切程度与相关方向。(3)计算公式不一样。(4)取值范围不一样:-∞<b<+∞,-1≤r≤1。(5)单位不同:b有单位,r没有单位。

联系:(1) r与b值可相互换算,;(2) r与b正负号一致;(3)r与b得假设检验等价;(4)回归可解释相关。相关系数得平方r2(又称决定系数)就是回归平方与与总得离均差平方与之比,故回归平方与就是引入相关变量后总平方与减少得部分。

判别分析:就是根据一批已知类别得样品多指标观察数据,制定出一个分类标准,以指导对未知类别煌新个体归类得多元统计分析方法。

协方差分析:就是把直线回归分析与方差分析结合焉得一种统计分析方法,用来消除混杂因素对处理效应得影响,提高分析结果得真实性,属多元统计方法范畴。

思想:将因变量Y得残差分为两部分,即为修正均数间得变异与组内残差。应用条件:A、各样本来自正态分布总体,且总体方差相等;B、各处理组得总体直线回归系数相等,且都不为0。

Fisher准则:从方差分析得观点,要求投影点得类间方差与类内方差之比最大。

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学-名词解释

统计学 1.医学统计学: 是运用统计学原理和方法研究生物医学资料的搜集、整理、分析和推断的一门学科。(医学研究的对象主要是人体以及与人体的健康和疾病相关的各种因素) 2.同质: 性质相同的事物成为同质的,否则成为异质的或间杂的。 (观察单位间的同质性的进行研究的前提,也是统计分析的必备条件,缺乏同质性的观察单位的不能笼统地混在一起进行分析的) 3.变异: 是指在同质的基础上各观察单位(或个体)之间的差异。 4.总体: 总体是根据研究目的所确定的同质观察单位的全体。 5.样本: 样本是从总体中随机抽取的部分个体。(样本中包含的个体数称为样本含量) 6.随机: 即机会均等,是为了保证样本对总体的代表性、可靠性,使各对比组间在大量不可控制的非处理因素的分布方面尽量保持均衡一致,而采取的一种统计学措施。(包括抽样随机、分组随机、实验顺序随机) 7.统计量: 由样本所算出的统计指标或特征值称为统计量。(反映样本特性的有关指标) 8.参数: 总体的统计指标或特征值称为参数。 (总体参数是事物本身固有的、不变的,为常数) 9.抽样误差: 从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异称为抽样误差。这种在抽样研究中不可避免。(抽样误差有两种表现形式:①样本统计量与总体参数间的差异②样本统计量间的差异)10.概率: 描述事件发生可能性大小的一个度量,常用P表示,取值为0≤P≤1。 11.频率: 用随机事件A发生表示观察到某个可能的结果,则在n次观察中,其中有m次随机事件A发生了,则称A发生的比例0≤f≤1为频率。显然有 f = m / n 12.小概率事件: 当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生。(为进行统计推断的依据) 13.定量资料: 以定量值表达每个观察单位的某项观察指标,如血脂,心率等。 14.定性资料: 以定性方式表达每个观察单位的某项观察指标,表现为互不相容的类别或属性,如血型、性别等。 15.等级资料: 以等级表达每个观察单位的某项观察指标,如疗效分级、血粘度、心功能分级等。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

医学统计学符号-公式-重点

第一章 医学统计中的基本概念 1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。 2、个体:研究的基本观察单位。 3、变量:用于观察研究对象的指标。 4、观察值:个体变量的数值。 5、资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有 的差异。 变异和同质是对统计学数据 的要求! 变异是统计学研究的真正对 象! 统计学是研究变异规律的科 学! 同质:个体观察值之间的变 异在允许范围内。 异质:个体观察值之间的变 异超出允许范围。 一、总体、抽样、样本、参数、统计量 总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。 有限总体:总体中的个体 数量是有限的。 无限总体:总体中的个体 数量是无限的。 样本:从总体中随机抽取 的部分个体。 样本量:样本所包含的个

体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。 抽样:从总体中随机抽取部分个 体的过程。抽样具有代表性、随机性、可靠性、可比性; 原则:代表性:样本能充分反映 总体特征。 随机性:保证总体中每个个体都有相同的几率被抽样。 随机性是代表性的保证; 生活中随机性的例子(思考题); 计数资料计量资料 (分类资料)资料 等级资料(有序多分类资料) 二分类资料 无序多分类资料 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小 所得的资料,一般有度量衡单位,例如年龄、身高、 血糖。 计数资料:由离散变量的观察值构成的资料。先将 观察对象的观测指标按性 质或类别进行分组,然后 计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

常用医学统计学方法汇总

选择合适的统计学方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t 检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t 检验;(2)采用非参数检验,如Wilcoxon 检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t '检验;(2)采用非参数检验,如Wilcoxon 检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t 检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon 的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果 为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe 法,SNK 法等。 1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal -Wallis 法。如 果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用成组的Wilcoxon 检验。 1.4 多组随机区组样本比较 1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。 1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman 检验法。如果 检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用符号配对的Wilcoxon 检验。 **** 需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。** 绝不能对其中的两 组直接采用t检验,这样即使得出结果也未必正确**

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学-知识梳理

均数±标准差:表示集中位置、离散程度均数±标准误:表示平均水平、抽样误差大小P75 一、标准差的主要作用是估计正常值的范围 实际应用中,估计观察值正常值范围应该用标准差(s),表示为“Mean±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。 二、标准差还可用来计算变异系数(CV) 当两组观察值单位不同, 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。: 标准误的正确使用 一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean±SE”的形式。 二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。 根据正态分布原理,与合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间,例如常用(其中 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。 三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差别是否是由抽样误差引起的。例如:某当地小麦良种的千粒重=34克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=克,问新引进品种千粒重与当地良种有无显著差异新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验,这里用t测验进行检验,而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样 误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。 总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值) 随机性的指标,只是从不同角度来反映误差,二者在统计推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。 定量资料的统计描述:

医学统计学公式整理 简洁版

集中趋势的描述 算术均数: 频数表资料(X0为各组段组中值) n fX f fX x O O ∑∑∑== 几何均数: n n X X X G ...21= 或 ) log ( log 1 n X G ∑-= 频数表资料: ? ?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)* 2 1 +=n X M (2) ) (21* 12*2++= n n X X M 百分位数 ?? ? ??-?+ =L X X f n X f i L P 100其中:L 为欲求的百分位 数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为 该组段的的频数 , L f 为该组段之前的累计频数 方差: 总体方差为:式(1); 样本方差为 式(2) (1) N X 2 2 )(μσ-∑= (2) 1)(2 2--∑= n X X S 标准差: 1)(2--∑= n X X S 或 1/)(22-∑-∑= n n X X S 频数表资料计算标准差的公式为 1/)(22-∑∑∑-∑= f f fx fx S 变异系数:当两组资料单位不同或均数相差较大时,对变异 大小进行比较,应计算变异系数 %100?= X S CV 常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化 N p N p i i ∑= ' ∑=i i p N N p )(' 2.间接法标准化 预期人数实际人数= SMR ∑=i i P n r SMR S M R P P ?=' 正态分布:密度函数: )2/()(2221)(σμπ σ--= X e X f 分布函数: 小于X 值的概率,即该点正态曲线下左侧面积 )()(x X P x F <= 特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律 标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换 σ μ-= X u ,u 服从总体均数为0、总体标准 差为1的正态分布。 u 值左侧标准正态曲线下面积为标准正态分布函数,记作 )(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为 S X 96.1± 样本均数标准误的估计值为 X s = t 分布的概念:小样本总体标准差未知时,服从自由度为n-1 的t 分布 X X X t s μ-= 总体均数可信区间的计算: 大样本或总体标准差已知:式(1); 小样本:式(2) (1)n S X ? ±96.1 (2)n S n t t ?±-)1(,05.0(前一个t 表示均数) 单样本t 检验: n S X t /0 μ-= 自由度为 n-1; 配对样本t 检验: 检验统计量: n S d t d /0-= 自由度为n-1(n 为对子数) 两样本t 检验:检验统计量: ) 11(2 12 1n n S X X t c +-= (错: Sc 的平方) 2 )()(2)1()1(21222211212 222112-+-+-= -+-+-= ∑∑n n X X X X n n S n S n S c 方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1 检验统计量: (较小)(较大)2 2 2 1 S S F = 分子自由度为n 1-1,分母自由度为n 2-1 方差分析的基本思想: 1、总变异:总离均差平方和: 2() 1 T ij i j SS SS X X N νν=-==-∑∑总总= ∑∑-=N X X ij ij /)(22 ∑=N X C ij /)( 2 2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。 21() 1 B i i i SS SS n X X k νν-==-∑组间组间== = C n X i i ij -∑ ∑2 )( 3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。 222()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 2()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 1(1)()N k N k ννν=-=-+-=+总组间组内 组间均方与组内均方比值一般地服从分子自由度为ν1,分母 自由度为ν2的F 分布 12 1 MS F k N k MS νννν= ==-==-组间 组间组内组内 , 二项分布的概率函数P (X ): X n X X n C X P --=)1()(ππ; )! (!!X n X n C X n -= 二项分布的均数和标准差:进行n 次独立重复试验,出现X 次阳性结果 X 的总体均数为πμn = 总体方差为)1(2ππσ-=n 总体标准差为)1(ππσ -=n 如果将阳性结果用频率表示 n X p = 率的总体均数 π μ=p 标准差 n p ) 1(ππσ-= n p p n p p S p )1(1 ) 1(-≈--= 又称率的标准误它反映率的抽样误差的大小。 单侧累积概率计算:出现阳性的次数至多为k 次的概率为 ∑∑ ==---==≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ 出现阳性的次数至少为k 次的概率 ∑∑ ==---==≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ 率的可信区间的估计 正态近似法:当)1(,p n np - 均大于等于5时 n p p p n p p P )1(96.1,)1(96.1-+-? - 样本率与总体率的比较: 检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量 ) 1(000 πππ--= n n X Z 或 n p Z ) 1(000 πππ--= 2. 不满足正态近似时用直接概率计算法 两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量: ) 1 1)(1(| |2121n n p p p p Z c c +--= 2121n n X X p c ++= Poisson 分布的概率函数为 ! )(X e X P X λλ -= POISSON 分布的应用: 单侧累计概率计算:稀有事件发生次数至多为k 次的概率为 ∑∑==-==≤k X k X X X e X P k X P 0 ! )()(λλ 发生次数至少为k 次的概率为 )1(1)(-≤-=≥k X P k X P 总体均数的区间估计:正态近似法 95%总体均数的可信区间为X X X X 96.1,96.1+- 样本率和总体率的比较 正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为 λ λ-= X Z 两组独立样本资料的Z 检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单

相关文档
最新文档