广义多元线性模型

广义多元线性模型
广义多元线性模型

数据分析基础

广义多元线性回归方程的构建

【文献回顾】

这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. )

文章统计学方法部分开篇写到:

统计学方法里写到的独立作用的风险(absolute risk)是什么?是如何通过回归分析(Logistic-regression analysis)得出的?为什么要这样做?是怎么用软件实现的?

上述问题,将在本篇中讲解。

这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类

型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、负二项分布等,不同的分布类型对应不同的联系函数f(Y)。

f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+……

【概念】

广义线性模型有两大常用用途:

1.危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立

作用及独立作用的大小的是多少。(最常见)

2.建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型

预测Y的发生。

需要注意的是用途不同,构建模型的方法完全不同,对模型的解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构

建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。

这个教程的目的旨在帮助大家理清这个问题。

【用途】

结果变量(Y)危险因素(X)效应测量统计检验

连续性, 如收缩压分类型,

如是否吸烟

吸烟者与不吸烟者收缩压的差(β)

及其标准误

H0:β=0

连续性, 如收缩压连续性,

如体重指数

BMI每增加一个单位SBP增加多少

(β)及其标准误

H0:β=0

分类型,

如是否高血压分类型,

如是否吸烟

吸烟者与不吸烟者高血压发生率比

(OR)及其95% 可信区间

H0:OR=1

分类型,

如是否高血压连续性,

如体重指数

BMI每增加一个单位高血压发生率比

(OR)及其95% 可信区间

H0:OR=1

流行病学分析是为了确定危险因素与结果变量之间是否有联系,危险因素对结果变量的作用大小(即效应)。

表1 效应的估计和结果变量与危险因素的类型

【独立作用】

广义多元线性模型的第一大用途是在危险因素研究中,得出独立作用。什么是独立作用?为什么要评价独立作用呢?

如研究肥胖与高血压关系,比较论文中可能的几种结论:

1. 胖子与瘦子相比,收缩压有显著差别(P<0.005)。

这个结论是用t检验比较两组均数得出的。这有没有说清楚呢?没有。

2. 体重指数与收缩压,非常显著相关(P<0.0001)。

这是用相关分析做的。这有没有说清楚呢?也没有。

3. 体重指数每增加1kg,收缩压增加0.01 mmHg,P<0.00001。

这是用回归方程做出来的。统计上非常显著。它也告诉我们,每降低体重1公斤,能降低血压0.01 mmHg,这个0.01就没有临床意义了,因为控制体重能导致的降压幅度太小。另外这个0.01里面有没有其它因素

的作用在内呢?不知道。

4. 在控制了其它因素的作用下,体重指数每增加1kg,收缩压增加

1mmHg,95%可信区间0.7-1.3mmHg。

根据可信区间知统计上显著。而且每降低体重1公斤,能降低血压

1mmHg,有临床应用价值。这个结果是用多元回归方程做出来的,控制了其它因素的作用,得出的回归系数1mmHg是体重指数对收缩压的独立作用。可以想象当临床上遇到一个高血压并肥胖的病人,根据这个结果就可以告诉他仅降低体重这一项就能降低血压多少,如果病人又吸烟又饮酒,可根据相应的文献告诉他,如果戒烟又能降低血压多少,戒酒又能降多少,这就是临床价值的体现。

比较这些结论,理解统计意义与临床意义的关系,从而理解如何提高一篇论文的科学价值。上面这些结论中,有t检验得出的、相关分析得出的、回归分析得出的。回归分析,给出有临床意义的回归系数,而且可以控制其它因素,分析X对Y的独立作用,掌握回归分析非常必要。

如何通过回归分析来评价独立作用?

不吸烟组吸烟组

图1 按吸烟情况分组身高的箱图

举例:比较吸烟与身高的关系

看图知吸烟者比不吸烟者高。

单因素回归分析得出方程:

Height = 1.563 + 0.092*Smoke

回归系数为0.092,即吸烟者比

不吸烟者高9.2cm,P值小于

0.001。

那是不是就可以说吸烟影响身

高呢?再看看进一步的分析:

按性别分开:男性身高比女性

高;男性里,吸烟者与不吸烟

者身高没有多大差异;女性里,

吸烟者与不吸烟者身高也没有

多大差异。

?不吸烟者219个女性,57个男

性,即不吸烟者主要是女性;

?吸烟者中139个男性,只有7

个女性,即吸烟者主要是男性。

这里看到性别与吸烟(X)有关,又与身高(Y)有关,因此构成混杂。也就是说前面观察到的吸烟者与不吸烟者身高的差异9.2cm 里有性别的作用在内。用多元回归模型,调整性别后,也就是把性别的作用剥离出来,得出回归方程式:

Height = 1.747 + 0.015*Smoke - 0.103*Female

它告诉我们男女之间身高相差10.3cm,吸烟比不吸烟者只相差1.5cm,P值(未列出)不显著。这个1.5cm里面就没有性别的作用了,也就是独立于性别的作用。回归方程就是这样来评价独立作用的。

图2 按吸烟情况、性别分组身高的箱图

男男女女

不吸烟吸烟不吸烟吸烟

如何构建危险因素分析的多元回归方程?

【背景】

调整与控制是最容易混淆的问题,很多人不清楚为什么要调整其它因素?哪些因素要调整?哪些因素不需要调整?很多人用“逐步回归法”筛选变量,发现向前的与向后的方法,得出的结果不同;变量顺序不同,结果也不同。不知道怎么做才对。这些问题都是因为没有完全理解调整的意义,对多元回归方程不能正确解读的缘故。

【实例】

多元回归分析,目的是看危险因素(X)对结果变量(Y)作用中,有没有其它因素的作用在内,有没有把其它因素的功劳,记到了X的头上(即有没有不完全混杂)。调整的目的是,把其它因素的作用剥离出去,正确评价X对Y的作用大小。看下表中的例子:结局变量是Y2

1.先对Y2 与X1、X2、X3、X4、X5的关系逐个做单因素分析。除X1

外,其它4个X与Y2均有显著性关系。

2.再作多元回归模型,把5个X同时放入模型中,结果X1 还是不显著,

X2、X3、X5仍然显著,X4变得不显著了。

这里注意每个回归系数的变化:

?X2没变化;

?X3变化较大,从0.41变成0.28;

?X4变化也较大,从3.32变成2.30;

?X5有一点变化,但不很大。

问题是:X3的回归系数为什么会变化很大呢?

表2 结局变量Y2和各危险因素的单因素和多因素分析

单因素分析多因素分析(方程一)X1 0.30 (-0.28, 0.87) 0.311 0.11 ( -0.42, 0.65) 0.679

X2 0.47 ( 0.36, 0.59) <0.001 0.47 ( 0.36, 0.58) <0.001

X3 0.41 ( 0.13, 0.68) 0.004 0.28 ( 0.01, 0.55) 0.044

X4 3.32 ( 0.37, 6.27) 0.028 2.30 ( -0.59, 5.19) 0.119

X5 5.22 ( 2.91, 7.53) <0.001 4.81 ( 2.60, 7.02) <0.001

3.接着看表3,X1不显著,把X1从模型中剔出,得出方程二:X2 的回

归系数还是没变化;X3 也没变;X4、X5变化很小。

4.鉴于X4不显著,再把X4从模型中剔出,得方程三:X2回归系数还

是没变,X3 的回归系数从0.28升到0.36,变化很大,X5有一点变化。

方程一方程二

方程三

X1 0.11 ( -0.42, 0.65) 0.679

X2 0.47 ( 0.36, 0.58) <0.001 0.47 ( 0.36, 0.57) <0.001 0.47 ( 0.36, 0.58) <0.001 X3 0.28 ( 0.01, 0.55) 0.044 0.28 ( 0.01, 0.55) 0.046 0.36 ( 0.11, 0.61) 0.005 X4 2.30 ( -0.59, 5.19) 0.119 2.28 ( -0.60, 5.17) 0.122

X5 4.81 ( 2.60, 7.02) <0.001 4.93 ( 2.80, 7.06) <0.001 4.77 ( 2.65, 6.90) <0.001 注:β(95% CI ) p 值

表3 结局变量Y2和各危险因素的多因素分析

【解读】

(1)不论调整什么,X2的回归系数都没变化,这是为什么呢?

?是因为X2 与X1、X3、X4、X5都没有关系。

(2)X5的回归系数有变化,但不大,是为什么?

?是因为X5与其它X有相关,但关系不强。

(3)调整X4 与不调整X4,X3 的回归系数变化很大,这是为什么呢?

?是因为X3 与X4 关系较大,不调整X4,X4 的作用就加到X3身上

去了;调整了X4 ,就是把X4 的作用从X3中剥离出来,这时看到

X3 的回归系数就变小了。

(4)最后选哪个方程放在文章中呢?

?如果分析的目的,是确定X3对Y2的作用,就应该选方程二,因为

方程二中的回归系数,更确切地表达了X3对Y2的作用。而不能因

为X4 的p值不显著,就不调整X4,因为p值受样本量的影响。

【构建步骤和标准】

在分析X 对Y 的作用时,是否要调整 “C” 呢?

Y = β

0 + β1 C Y = β0 + β1 X + β2 C + β3 A 2 + …… (完整模型) Y = β0 + β1 X + β3 A 2+ ……

Y = β0 + β1 X (基本模型) Y = β0 + β1 X + β2 C

先看“C”与Y 有没有联系,用单因素分析,看“C”的P 值。

再看调整“C”与不调整“C”,X

对Y 的作用是否有变化。先运行

基本模型,记录β1 ,再在该模

型中加入“C”,看β1变化多大? 再运行一个完整的模型,即调

整所有可能的因素,然后从模

型中剔除“C”,看X 的回归系数

β1 的变化。 1 2 3 按照上述思路,比较不同的模型,观察X 的回归系数的变化,确定哪些因素要调整,要很大的工作量。而且特别要注意的是:因为可能调整因素有缺失值,导致调整的模型比不调整的模型所用的样本量小。要求比较两个模型所用的样本是一样的,否则不可比。这就需要我们先要限定分析样本,才能实现合理比较。

【软件操作】

例如,要分析易侕统计软件自带的练习数据“dome ”,研究体重指数对SBP 、DBP 的独立作用大小,操作见下图:

?选择“数据分析”—“协变量检查与筛选”

?给出研究假设中的结果变量Y ,这里如SBP 、DBP ,可以同时做多个Y (分别建模)

?危险因素X 变量,如体重指数

?作者认为年龄是固定要调整的变量,放在固定要调整的变量处。

?其它变量如是否吸烟、文化程度、被动吸烟、职业、是否饮酒是否需要调整呢?放在要检查与筛选的变量处

?点击查看结果

【结果解读】

这是输出结果(只列出了SBP部分,DBP部分略),看表头:Y是结果变量,X是危险因素,C是可能要调整的变量。按照前面的讲解,先看C与Y关系的P值。接着看在基本模型中引进C,X的回归系数的变化。如这里基本模型是:SBP=体重指数+年龄,在这个模型中,体重指数的回归系数是0.615,引进是否吸烟后,变成了0.609,变化了0.9%。再看在完整模型中剔除C,这里完整模型是SBP=体重指数+年龄+是否吸烟+文化程度+被动吸烟+职业+是否饮酒,在这个模型中体重指数的回归系数是0.710,剔除“是否吸烟”后,变成了0.721,变化了1.5%。依此类推。最后软件建议要调整EDU(文化程度)与OCCU(职业)。

协变量检查与筛选模块,一个功能是如上所述帮助我们筛选要调整的变量,另一个重要功能是检查哪些变量的调整对X的回归系数影响比较大。

【统计学方法描述】

关于协变量的筛选:分析X1对Y的独立作用,判断要不要调整X2,要看调整X2与否,X1的回归系数β1有多大变化,变化大就需要调整。一般大家接受的标准是变化不超过10%可以不调整。

例如这篇新英格兰医学杂志(影响因子55.9分)的危险因素的研究[2],其统计学方法中关于建立多元回归方程评估独立作用的描述比较经典,在写论文时可以参考。“We also adjusted for features that, when added to this model, changed the matched odds ratio by at least 10 percent.”

确定了多元回归分析的协变量,下一步需要构建多个回归方程,一般需要构建至少两个模型:

?未校正(Unadjusted)的模型

?校正(Adjusted)的模型

例如论文[3]中的表4

?选择“数据分析”—“多个回归方程”,给出研究假设中的结果变量Y,这里如SBP;危险因素X变量,如体重指数BMI

?模型一:不调整其他协变量

?模型二:调整年龄和运用“协变量检查与筛选”得出的需要调整的两个变量,调整EDU(文化程度)与OCCU(职业)

多个回归方程列出了发表论文所需要的参数,以及其它附注信息和样本量。可复制粘贴至word简单编辑后,用于发表。

【思考】

为何要构建多个模型?

有时候我们需要呈现多个多元模型,列出不同调整的模型得出的X 的作用,这又是为什么呢?是因为调整因素不同解释不同,如分析X对出生体重的影响,调整与不调整出生孕周解释就不同,因为X导致出生体重下降的通路可能有两条,一条是通过引起早产(缩短出生孕周)导致出生体重下降;二是通过阻碍生长或其它途径导致出生体重下降。调整出生孕周则是控制了第一条通路,看有没有第二条通路存在。

在分析X对Y的作用时,是否要调整“C”呢?

【常见问题和错误做法】

1.回答要不要调整“C”,先看“C”与Y有没有联系,用单因素分析,

看“C”的P值。P值小就要调整,P值大就可以不调整吗?

答案:不是的。因为P值受样本量的影响,样本量小P值就可能大,但不等于X2没有作用,样本量大P值就可能小。如果根据P值判断,就可能导致在一个大样本的研究中X2要调整,而一个小样本的研究中X2不需要调整,从而得出X1的作用大小β1可能很不一样,这显然是不科学的。判断要不要调整X2要看调整X2与否,β1有多大变化,变化大就需要调整。一般大家接受的标准是变化不超过10%可以不调整。

2.把所有可能需要调整的因素都调整了,对不对?

答案:对!但可以想象的是这样一个大而全的方程里很可能有些因素不需要调整,把它们放在方程里,模型的自由度多了,敏感性就降低了,也就是检验效率下降了。如果这个方程里X1的作用只是接近显著,这时候把那些不需要调整的变量拿掉,X1的作用就可能显著了。

3.用逐步回归法筛选变量是否合理呢?

答案:不合理!逐步回归是根据P值判断是否纳入方程的,根据对问题“1”的解释,不难理解为什么不宜用逐步回归建方程。

【思考】

正确控制混杂,评价X对Y有没有独立作用与独立作用大小,是论文是否能被接受的关键之一。可以想象,如果结论是X对Y有作用,但没有控制好其它因素的混杂作用,结论很可能是错的,也就是说X对Y本来没有作用,发现是表象,是其它因素混杂造成的,那么研究不仅没有科学贡献,反而会误导别人。

通常一篇论文里,既要呈现单因素又要呈现多因素分析结果。分析时要注意比较单因素模型得出的作用(回归系数)与多元模型得出的作用,如果差别比较大,就需要搞清楚主要是哪个(或哪几个)因素的调整导致的。

致谢:

感谢哈佛大学医学院陈常中教授对本例数据分析的指导!

参考文献:

[1]. Huybrechts, K.F., et al., Antidepressant use in pregnancy and the risk of cardiac defects. N Engl J Med, 2014. 370(25): p. 2397-407.

[2]. Kernan, W.N., et al., Phenylpropanolamine and the risk of hemorrhagic stroke. N Engl J Med, 2000. 343(25): p. 1826-32.

[3]. Towfighi, A., D. Markovic and B. Ovbiagele, Consistency of Blood Pressure Control After Ischemic Stroke: Prevalence and Prognosis. Stroke, 2014.

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定 胡三明 西南财经大学保险学院 【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。 【关键词】广义线性模型分类费率厘定 一、导论 对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。 广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。 广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。 二、广义线性模型 (一)、线性模型 一个传统的线性模型具有如下形式: ' i i y xβε =+i 其中 i y是响应变量的第i次观测, i x是协变量,表示第i 次观测数据,未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零,方差为常数的独立正态随机变量。对于一般的线性 回归模型(LM)' i i y xβε =+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布, () i E y μ=; LM2:系统要素,' i x ηβ =; LM3:连接要素,ημ =; (二)、广义线性模型 尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题: (1) 将数据分布假设为正态分布并不合理; (2) 当数据的均值被限制在一定的范围内时,传 统的线性模型就不适用了,因为线性预测值' i xβ可以取任意值; (3) 假定数据的方差对于所有观测都是一个常数并不现实。 广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分: GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布; GLM2:系统要素同LM2,即保持线性结构;

广义线性模型

广义线性模型 一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的 概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量 每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系, 得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计:通过逆矩阵相关方法求解 三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC:主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined 3.其他方法 (1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸, 它是总体均值通过一个非线性连接 函数依赖于线性预测值, 有许多广泛应用的统计模型都属于广义线性模型,其中 包括正态误差的经典性模型, 二元数据的对数和概率单位模型以及多项数据的对 数线性模型, 还有其它许多有用的统计模型,如果选择合适的连接函数和响应概 率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y ? XT? ??
其中, yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测, xi ? X ? {x1 , x2 ,?, xn } 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的 最小二乘拟合估计, ? 是均值为零,方差为常数的随机变量。 模型的几个基本假设: ? ? ? ? ? ? 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差 {? i } ~ N (0,? ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型, 是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广: ? 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型 中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。 ? 一般线性模型中,自变量的线性预测值 ? 就是因变量的估计值 ? ,而广 义线性模型中,自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分: ? 线性部分正好是一般线性模型所定义的:
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function):
?i ? g (?i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用 。在经典的线性模型中,“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立 通过对数据选定因变量和自变量, 以及选择合适的连接函数和响应概率分布, 既可以建立一个广义线性模型。例如: ? 一般线性模型 因变量:连续变量 分布:正态分布 连接函数: ? ? ? ? Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: ? ? log(
?
1? ? )
? Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型

广义线性模型

———————————————————————————————— 作者: ———————————————————————————————— 日期:

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连接 函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型,其中包 括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数据的对数 线性模型,还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率 分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2, , yn} 是因变量的第i次观测, xi X {x1, x2, , xn} 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 可以通过对Y 的最 小二乘拟合估计, 是均值为零,方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差{i} ~ N(0, ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。
广义线性模型在两个方面对一般线性模型进行了推广: 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。
一般线性模型中,自变量的线性预测值 就是因变量的估计值 ,而广义
线性模型中,自变量的线性预测值 是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分: 线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i m xmi
连接函数( link function):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的
估计值 ”与“自变量的线性预测值 ”的作用 。在经典的线性模型中,“Y
的估计值”与“自变量的线性预测”是一回事。 广义线性模型建立 通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分布,
既可以建立一个广义线性模型。例如: 一般线性模型
因变量:连续变量 分布:正态分布
连接函数:
Logistic回归模型 因变量:(0,1) 分布:二项分布 连接函数: log( )
1 Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

广义线性模型()

广义线性模型 广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。 指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。 因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。 然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。 μi=cexp(bt i), 例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为 请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。 可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 (根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。 , 例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

广义线性模型

xx线性模型 一、xx模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution: 特殊的指数族一员;在0点有很大的概率并且在非0点有合适的分布;方差与均值的p次幂成正比 4.GLM的结构: 连接函数、设计矩阵、预估变量、offset变量每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析: 无法反映变量之间的关系,GLM可以排除这类关系,得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应: 模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms: 当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3.变量估计:

通过逆矩阵相关方法求解 三、分析因子的显著性 1.chi-squared、F-statistics、AIC 等统计量 (1)偏离: 比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量: 模型的自由度定义为观测的数量减去变量的数量 Nested models: 可以利用chi-squared来检验偏离度的变化 (4)F-statistics (5)AIC: 主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined

广义多元线性模型

数据分析基础 广义多元线性回归方程的构建

【文献回顾】 这是一篇2014年发表在新英格兰医学杂志(影响因子55.8分)的论文[1],研究妊娠期是否能用抗抑郁药,结果表明妊娠初期使用抗抑郁药不显著增加新生儿心脏畸形。(CONCLUSIONS The results of this large, population-based cohort study suggested no substantial increase in the risk of cardiac malformations attributable to antidepressant use during the first trimester. ) 文章统计学方法部分开篇写到: 统计学方法里写到的独立作用的风险(absolute risk)是什么?是如何通过回归分析(Logistic-regression analysis)得出的?为什么要这样做?是怎么用软件实现的? 上述问题,将在本篇中讲解。

这里指的多元线性模型,是广义线性模型,应变量(Y)的分布类 型可以是:正态分布(gaussian)、两分类分布(binomial)、泊松分布、负二项分布等,不同的分布类型对应不同的联系函数f(Y)。 f(Y)=β0+β1*X1+β2*X2+β3*X3+β4*X4+…… 【概念】 广义线性模型有两大常用用途: 1.危险因素分析:评价某危险因素(X)对结果变量(Y)有没有独立 作用及独立作用的大小的是多少。(最常见) 2.建立预测模型:从一系列 X1、X2、… 中挑选出一个最佳预测模型 预测Y的发生。 需要注意的是用途不同,构建模型的方法完全不同,对模型的解读完全不同。很多人对此不甚理解,常常用一种逐步回归方法构 建危险因素分析的模型,对结果也不知道怎么解读,有很多混淆。 这个教程的目的旨在帮助大家理清这个问题。 【用途】 结果变量(Y)危险因素(X)效应测量统计检验 连续性, 如收缩压分类型, 如是否吸烟 吸烟者与不吸烟者收缩压的差(β) 及其标准误 H0:β=0 连续性, 如收缩压连续性, 如体重指数 BMI每增加一个单位SBP增加多少 (β)及其标准误 H0:β=0 分类型, 如是否高血压分类型, 如是否吸烟 吸烟者与不吸烟者高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 分类型, 如是否高血压连续性, 如体重指数 BMI每增加一个单位高血压发生率比 (OR)及其95% 可信区间 H0:OR=1 流行病学分析是为了确定危险因素与结果变量之间是否有联系,危险因素对结果变量的作用大小(即效应)。 表1 效应的估计和结果变量与危险因素的类型

相关文档
最新文档