医学论文常见统计学错误与纠正

一、设计与实施

1.对象合格标准不明确

●只报告来源和时间段，总体不清晰：大杂烩,得不到科学结论；

●事前未规定合格标准和排除标准，事后排除；

●不报告按照合格标准和排除标准筛选对象的过程。

2.结局指标多而杂--是事先规定的最重要的结局指标，通常以此为准来计算样本量。

常见错误：终点指标过多, 大海捞针

临床试验时，不知道哪个指标在组与组间有差异；“确定某个指标后，万一组间没有差异，岂不被动?！”

生理、生化、组织学、基因，都做；“内容丰富，显得水平高?！”

许多仪器一下子可以做许多项目；“许多项目一一分析，哪个有意义，就报告哪个指标?！”

哪些指标可能有组间差异，必须心中有数。

假说：预计将要得到的结论——假说是科研的灵魂心中无数，不要“先上马再说”

●指标多，实验工作量大。大海捞针——碰运气，不是科研！

●指标多，翻来覆去分析，制造假阳性！

Nature杂志统计学指南：

?常见错误之一。仅分析1个指标时，P(假阳性)=0.05，P(1次分析不犯错误)=0.95 ，同时分析2个指标时，P(2次分析均不犯错误) = [P(1 次分析不犯错误)] 2 P(假

阳性)=1 - 0.952 ≈ 0.10, 同时分析 3 个指标时， P(假阳性)=1 - 0.953 ≈ 0.14 同时分析 10个指标时，P(假阳性)=1 - 0.9510 ≈ 0. 40

?常见错误之一(Nature) ----多重比较不校正

多重比较: 对一组数据作多项比较时，必须说明如何校正α水平，以避免增大第一类错误的机会---- Bonfferoni校正（α/k来校正，k为两两比较次数）

3 不重视对照

为何必需对照？

●消除非研究因素的混杂实验组和对照组受非研究因素的影响尽可能相同，使两组

的差异主要反映研究因素的效应。

●鉴别研究因素的效应和自然发展结果。例如，研究某药物对口腔溃疡模型兔的疗效，

口腔溃疡有自愈的倾向，必须有对照扣除自愈效应。

常见错误

?没有对照！千方百计省去对照组，以减少一半工作量!? 自身前后对照/历史对照/文献对照/ “标准”对照

?对照不当对照太弱：安慰剂对照/对照过强：西药+加中药~西药/对照剂量有争议：试验药，大剂量~对照药，中小剂量 /对照基线不可比：试验组年轻、病轻 ~ 对

照组年老、病重

应当如何？

事先明确研究假说，例如，新药比常规药好：以常规药为对照

设计：研究组新药 ~ 对照组常规药可比性：基线可比、过程可比、终点可比

保证可比性措施：干预性研究: 随机化观察性研究：匹配

4样本量无根据

干预性研究：“ 500 例患者随机分成两组……” 为什麽 500 例？不多不少？

500 例从天而降？现成送上门来？

观察性研究：“ 10年期间A组3000例，B组258例……” ---- 有多少用多少 !?

应当如何？ ---- 报告最小样本量估算及其依据

1. 比较两组测定值的均数依据：

（1）预计欲比较的两总体参数的差值

（2）预计总体标准差

（3）允许出现假阳性结果的机会

（4）允许出现假阴性结果的机会 :

例：格列美脲、格列苯脲对比研究以HbA1c 为主要终点报告依据

?欲检出HbA1c临床差异≥0.65%

?假定标准差为1.3%

?双侧检验水平0.05

?功效80%

?退出率20% 计算：157例

2. 比较两组达标率依据：

（1）预计一组发生某结局的百分比为1

（2）预计另一组发生某结局的百分比为

（3）允许犯假阳性错误的机会

（4）允许犯假阴性错误的机会2

例：格列美脲、格列苯脲对比研究以HbA1c达标为主要终点

（1）预计一组发生某结局的百分比为 45%

（2）预计另一组发生某结局的百分比为 25%

（3）允许犯假阳性错误的机会 5%

（4）允许犯假阴性错误的机会 20% 计算: 176 例

5. 随机化，说而不做，做而不严处理分配的随机化为什么这么重要?

(1) 消除分配处理有意或无意的偏倚。

(2) 为实施盲法创造条件。

(3) 使得有可能利用概率论来说明：各干预组之间的差异不大可能是偶然性造成的。

说错和做错

将随机化当作“廉价名词”，实际没做，却写: “随机分成两组” ——科研道德？

将“随意分组”当作随机化

将“机械分组”当作随机化

略去筛选过程，简单地报告将多少人随机分组

略去实施过程中丢失对象，将最后两组人数说成是随机分组人数

应当如何？

成功的随机化取决于：

(1) 产生一个不可预见的分配序列;

(2) “隐蔽” （allocation concealment ）这个序列，直到分配完毕 (必须建立一个分配处理的系统) 。报告如何随机分组，如何“隐蔽” ：谁做随机序列，谁收病人，谁分药和发药；分组方案如何保管……

随机化类型 Simple randomisation (简单随机化) Blocked randomisation (区组随机化) Stratified randomisation (分层随机化) Minimisation

(不均衡最小化)

6. 避而不谈盲法

常见错误

如何“盲”？轻描淡写

为何没有“盲”？不加说明

普遍忽视盲法判定终点没有独立的终点判定委员会：专人、专职；盲法措施

盲法实施效果如何？缺乏评价

7. 量表的滥用

医学研究中，量表的应用日益广泛：生存质量 (quality of life, QOL)患者报告结局(patient report outcome, PRO) 美国FDA规定药品说明书必须有PRO内容。

国外已经研制了许多量表，可以借鉴；有些课题国外还没有适宜的量表,有待研制

国内许多医学研究也开始采用量表测量临床疗效。

常见错误

1.“引进国外量表”

未经作者同意，声称是“xx量表的中文版”

妄称文化调试，随意修改

未曾考察中文版量表的信度、效度和反应度

2.“自制量表”

未经查阅文献和专家咨询，匆忙起草

没有概念框架和基于概念框架的条目池

没有试用和现场调查，没有心理测量学评价

应当如何引进国外量表？

联系原作者，征得同意；

翻译-逆翻译，文化调试，与原作者共同修改、定稿；

收集现场数据，评价信度、效度和反应度

应当如何研制新量表？

查阅文献、专家咨询……

确定概念框架，领域、方面……

根据概念框架建立条目池

量表初稿

小规模试用、修改

收集现场调查数据

评价量表，信度、效度、反应度……

修改、定稿

二、分析与结果

8. 不考虑基线均衡与否

不首先考察基线是否均衡

不论基线均衡与否，一概使用单变量分析

方法：比较百分比或均数：

检验；比较均数：t 检验、非参数检验

比较发生某事件的时间：Kaplan-Meier 方法 2

应当如何？

不论干预性研究还是观察性研究，数据分析的第一步总是考察基线是否均衡，列表报告若干预性研究许多变量基线不均衡----随机化失败！

若观察性研究多个变量基线不均衡，很自然 ---- 从设计入手，认真解决！

对付基线不均衡的统计学方法： (1) 分层 (2) 匹配 (3) 回归

9. 缺失值处理不当

三类缺失机制：

完全随机缺失(missing completely at random, MCAR), 缺失完全由随机因素造成

随机缺失(missing at random, MAR), 缺失与已有的观察结果有关

非随机缺失(missing not at random，NAR), 缺失与当前观察到和尚未观察到的结果有关常见错误: 丢弃具有缺失值的个体？

仅完全随机缺失才可丢弃有缺失值的个体

临床试验中，若仅采用完整病例进行分析，违背 Intention-To-Treat原则(ITT原则) 仅在以下情况下考虑使用完整病例进行分析

① 在探索性研究中，药物研发的初期阶段；

② 在确证性试验中，作为次要结果的处理方法

常见错误: 数据填补（data imputation）?

仅在以下情况下方可填补

① 相对小的缺失率（例如10％～15％）

② 含有缺失值的变量对于所要研究的问题具有非常重要的意义；

③ 有合理的假设和结转技术, 一般宜遵循保守原则

不同填补方式产生的结论需进行敏感性分析

10. 统计检验结论不当

差异性检验

零假设：两组（或多组）总体均数间没有差别

对立假设：两组（或多组）总体均数间有差别

检验水准：

若p “两组样本均数间的差异具有统计学意义(statistically significant)”

--- “可以认为总体均数间有差别”

若p “两组样本均数间的差异不具有统计学意义”

---- “尚不能认为总体均数间有差别”

常见错误

若,“两组样本均数间的差异显著” ---- “总体均数不等” （忘记有假阳性可能!?）,“两组样本均数间的差异不显著” ---- “总体均数相等”

小结

医学论文常见统计学错误往往源于研究设计任何一项研究首先要明确定义目标总体；从目标总体选择对象要有细致的合格标准和排除标准; 总体和标准不清晰，切勿匆忙上阵；基于“杂乱” 对象的研究，一定不会有科学结论。

结局指标不是越多越好，主要指标只能一个; 次要指标可以多于一个，但不能过多; 结局指标过多，费力不讨好; 即便出现阳性结果，往往是假阳性，经不起重复。

科学研究必须有对照；对照的选取与研究的假说有关；对照不恰当，研究没有好下场。

样本量并非越大越好。不论干预性研究还是观察性研究，都要事先估算最小样本量; 医学论文的“方法”部分必须有一段报告样本量及其确定的依据; 依据不可靠，估算的样本量自欺欺人。

随机化是保证研究真实性的重要措施，将随机化当作“廉价名词”，只说不做，或做而不严，不仅败坏科研道德，而且，往往导致研究失败。

临床试验涉及人，无论研究对象还是研究者有意无意受心理因素的影响，“盲法” 是削弱此类影响的重要措施; 研究终点的认定要尽量实施盲法。

医学研究中，量表的应用日益广泛。引进国外量表或自制量表均属严肃的学术研究；按一定程序引进或研制的量表才能作科研的测量工具；非正规量表收集的数据缺乏科学性.

数据分析的第一步必定是考察基线均衡与否；基线不均衡，没有可比性; 设计要保证基线均衡；一旦不均衡，常用分层、匹配和回归等统计方法。

统计检验的结论并非绝对肯定,也非绝对否定。若在检验水准 0.05 拒绝零假设，可说“差异具有统计学意义”, 但仍有可能出错。若不能拒绝零假设，只能认为目前证据尚不足以支持“差异具有统计学意义”这一结论，不可因此而声称“无差异”。

有时想说明新药不亚于常规药，可进行“非劣效检验”

有时想说明新药等效于常规药，必须进行“等效检验”；“等效检验”包含一个非劣效检验和一个非优效检验, 仅当既“非劣”又“非优” 时, 方能声称“等效”。

（注：可编辑下载，若有不当之处，请指正，谢谢!）