常用多因素回归分析

cox回归分析

生存分析之COX回归分析 1、生存分析,就是将终点事件出现与否与对应时间结合起来分析得一种统计方法; 2、生存时间,就是从规定得观察起点到某一特定终点事件出现得时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间; 3、完全数据,观测起点到终点事件所经历得时间,上述例子即膀胱癌手术到因膀胱癌死亡得时间; 4、删失数据,因失访、研究结束终点事件未发生或患者死于规定得终点事件以外得原因而终止观察,不能确定具体生存时间得一类数据; 5、生存概率,表示某时段开始存活得个体到该时段结束仍存活得概率,p=活满某时段得人数/该时段期初有效人口数; 6、生存率,为观察起点起到研究时间点内各个时段得生存概率得累积概率,S(tk)=p1、p2、pk=S(tk-1)、pk; 7、生存曲线,以生存时间为横轴,将各个时间点得生存率连在一起得曲线图; 8、中位生存期,又称半数生存期,表示50%得个体存活得时间; 9、PH假定(等比例风险假定),某研究因素对生存得影响不随时间得改变而改变,就是COX回归模型建立得前提条件。 Cox回归分析及其SPSS操作方法概述 前面我们已经讲过生存分析及KM法得内容,详细可以回复数字26-28查瞧。但有对统计不太熟悉得“微粉”还不太明白生存分析与一般统计得区别,不知道如何区别Cox回归与Logistic回归。在我们做研究时,有时我们不仅关心某种结局就是否出现,还会关心结局出现得时间,例如肺部手术后观察五年生存率,一个有在1年之后死亡,另外一个人在在4、5后死亡,如果只瞧第5年时得结局,两者就是一样得(均死亡),但就是实际我们认为后者得治疗效果可能优于前者,即生存分析同时考虑结局与结局出现得时间,而一般分析只考虑结局。另外在队列随访时,可能有人在没有到5年时就失访了,如迁徙或者电话更改,我们不了解其结局如何,在一般得分析中这种病例无法使用,而中间失访得病例结局可能更差,如果直接扔掉,可能会产生偏倚;而用生存分析,这种病例可以给我们提供部分资料,即我们记录最后一次随访时病例得状态,失访前得资料可以用于分析。 我们先回顾一下生存分析得KM法与寿命表法(回复数字26与27可以查瞧KM法得详细内容),其共同点就是只能分析一种因素与生存率得关系,Log-Rank法也就是比较一个因素两种水平间得生存差别,如果生存 率得影响因素有很多,我们怎么避免其它混杂因素得影响呢?我们可以使用回归分析方法,但如果使用logistic回归,也就是只能观察影响因素与结局得关联,没有考虑结局发生得时间因素。Cox回归可以解决这个问题。Cox回归一般模型假设为 其中h(t,X)就是在时刻t得风险函数又可称瞬时死亡率,h(0,t)就是基线风险率,其它与logistic回归模型相同。βj大于0则x j越大,病人死亡风险越大,βj小于0则x j越大,病人死亡风险越小,βj等于0则x j 越与死亡率没有影响。Exp(β)为危险比(HR)或相对危险度(RR)。 下面以一个例子说明在SPSS中作Cox回归如何操作。

回归分析与因子分析之比较

回归分析与因子分析之比较 刘婷玉 数学与统计学院06级 【摘 要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。 【关键词】回归分析 因子分析 比较 一、 问题提出 回归分析和因子分析都是研究因变量与因子间关系的一种数据处理方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。 二、 问题分析 1、 统计模型和类型 多元线性回归模型表示方法为 i ki k i i i ki i i i k k u X b X b X b b Y n i X X X Y n u X b X b X b b Y +++++==+++++=ΛΛΛΛ221102122110,,2,1) ,,,,(得:个样本观测值 其解析表达式为:

???????+++++=+++++=+++++=n kn k n n n k k k k u X b X b X b b Y u X b X b X b b Y u X b X b X b b Y ΛΛ ΛΛΛΛΛΛΛ2211022222121021121211101 多元模型的矩阵表达式为 ??????? ??+???????? ????????? ? ?=??????? ??u u u b b b b X X X X X X X X X Y Y Y n k kn k k n n n M M M ΛΛΛM M M M 2121021222211121121111 ??????? ??=???????? ??=??????? ??=?????? ? ??=+=u u u b b b b X X X X X X X X X Y Y Y n k kn k k n n n U B X Y U XB Y M M M ΛΛΛM M M M 2121021222211121121111 一般地,设X=(x1, x2, …,xp)’为可观测的随机变量,且有 i m im i i i i e f a f a f a X +?+???+?+?+=2211μ 。在因子分析中,p 维的变量向量x 被赋予一个随机结构,x =α+Af+ε具体也可以写成以下形式: 111112211 221122222 1122m m m m p p p pm m p x a f a f a f x a f a f a f x a f a f a f μεμεμε-=++++-=++++-=++++L L L L L (1) 其中α是p 维向量,A 是p ×r 参数矩阵,f 是r 维潜变量向量,称为

cox回归结果解析

筛选变量的方法:第一步,结合临床,临床认为有关的变量均筛选出来。第二步.应用双变量的相关分析,把显著相关的变量筛选出来,保留临床意义更大的那个。第三步,应用Kaplan-Meier法对每个危险因素的两个暴露水平做生存曲线,若曲线存在交叉,则不能应用Cox生存分析(Cox生存分析也称比例风险回归,它包含一个假定,即在随访期间暴露于预后因素与非暴露的风险比例维持恒定),这类变量需应用更复杂的非比例风险回归模型,这里将不详述了。第四步,单因素分析。可应用COX生存分析的第0步结果作为单因素分析的结果。可在SPSS的Cox回归里选择任何一种前进法,在Option中选择at each step,取因子筛选第0步的Score检验结果作为单因子Cox回归分析的结果。也有文章的单因素分析对于离散型变量应用卡方检验和连续型变量应用t检验,等级资料应用双变量相关分析。 最后,将进行Cox回归分析。应用SPSS中analysis-survival-cox regression.在time一栏中选择生存时间;在state一栏中选择数据状态(在数据编码中已经介绍),在激活的define event一栏中设定single value为1。这里要强调几个小问题:1,SPSS可以支持研究者做两个或以上的变量的共同效应,需在主对话框中同时选中需研究的变量两个或两个以上,这样协变量框中的>a*b>才会被激活。2,分类变量,在这里被称为哑变量,需单击categorical,然后将分类变量选入对话框。 最后得到的结果,B为协变量的系数,Exp(B)为相对危险度。可得到比例风险模型:h(t,x)=h0(t)exp(Σβ ixi)公式1-1 预后指数也称预后得分,PI(prognostic index)= (Σβ ixi) PI=0代表危险率处于平均水平,PI<0,代表危险率低于平均水平;PI>0,代表危险率高于平均水平。由公式1-1可以求得全部病人的预后指数。将所有的预后指数做等级变换,例如分组的界点PI=-1,0,1,以PI为分类变量做COX回归,并估计生存率,便获得预后指数分类生存率,若样本量很大,或代表性比较好,可用内插法分别估计不同预后指数水平的人群的k年生存率,以及中数生存期,编制成参照表,便可用于临床,根据每个病人的PI值,预测其存活k年的概率,以及期望的生存年数。最后一段摘自方积乾主编的第二版《医学统计学与电脑试验》。如果我们能够象国外一样做大规模多中心前瞻的研究,我一定要做到最后一步。 其实这个问题关键还是在你自己,就是你为何要定义分类变量?如果变量是连续变量或者是具有等级关系的,那么一般是不定义为分类变量的,比如年龄,身高,体重等等。如果变量的数值之间没有等级关系,比如组别,我们用1表示A组,2表示B性,3表现C组,这个在分析的时候是需要定义为分类变量的,因为这个数值的大小是没有意义的。所以关键怎么选择,还是需要看楼主这几个变量所代表的具体意义。 COX回归时如果需要分析的自变量中为有序多分类,为保证结果的准确性,应将其指定为亚变量进行分析(严格的讲,两分类变量也应进行指定,但不指定时的分析结果是等价的),所以您定义为categorical后的计算结果是可信的 the final multivariate Cox regression model, xx was identified as an independent prognostic factor with an adjusted hazard ratio of 1.60 (95% confidence interval 1.07–2.41)‖,而有的文章则是这样描述―Cox regression indicated that ING4 expression is an independent prognostic factor for overall 5-year survival (Relative risk = 2.50, 95% confidence interval = 1.09–5.74, P = 0.031)‖请问这两种描述有什么区别?hazard ratio与relative risk又有什么不同?谢谢大家!

Cox回归分析—非常详细的SPSS操作介绍

患者生存状态的影响因素分析 ——生存资料的COX回归分析1、问题与数据 某研究者拟观察某新药的抗肿瘤效果,将70名肺癌患者随机分为两组,分别采用该新药和常规药物进行治疗,观察两组肺癌患者的生存情况,共随访2年。研究以死亡为结局,两种治疗方式为主要研究因素,同时考虑调整年龄和性别的影响,比较两种疗法对肺癌患者生存的影响是否有差异。变量的赋值和部分原始数据见表1和表2。 表1. 某恶性肿瘤的影响因素与赋值 表2. 两组患者的生存情况 group gender age time survival 0 1 0 22 1 0 1 1 10 1 0 1 1 64 1 0 1 1 12 1 0 1 0 17 1 1 0 0 19 1 1 1 1 4 1 1 0 1 1 2 0 1 0 0 5 0 1 1 1 27 0 2、对数据结构的分析 该研究以死亡为结局,治疗方式为主要研究因素,每个研究对象都有生存时

间(随访开始到死亡、失访或随访结束的时间),同时考虑调整年龄和性别的影响。欲了解两种疗法对肺癌患者生存的影响是否有差异,可以用Cox比例风险模型(Cox proportional-hazards model,也称为Cox回归)进行分析。 实际上,Cox回归的结局不一定是死亡,也可以是发病、妊娠、再入院等。其共同特点是,不仅考察结局是否发生,还考察结局发生的时间。 在进行Cox回归分析前,如果样本不多而变量较多,建议先通过单变量分析(KM法绘制生存曲线、Logrank检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 单因素分析后,应当考虑应该将哪些自变量纳入Cox回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。 3、SPSS分析方法 (1)数据录入SPSS

多因素分析

多因素分析 温州医学院环境与公共卫生学院叶晓蕾

概念 多因素分析是同时对观察对象的两个或两个以上的变量进行分析。 常用的统计分析方法有: 多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。

多变量资料数据格式 例号X1X2…X p Y 1X11X12…X1p Y1 2X21X22…X2p Y2 ┆┆┆…┆┆ n X n1X n2…X np Y n Y为定量变量——Linear Regression Y为二项分类变量——Binary Logistic Regression Y为多项分类变量——Multinomial Logistic Regression Y为有序分类变量——Ordinal Logistic Regression Y为生存时间与生存结局——Cox Regression

第十五章多元线性回归 (multiple linear regressoin) P.261 Y,X——直线回归 Y,X1,X2,…X m——多元回归(多重回归) 例:欲研究血压受年龄、性别、体重、性格、 职业(体力劳动或脑力劳动)、饮食、吸烟、 血脂水平等因素的影响。

β0为回归方程的常数项(constant),表示各自变量均为0时y 的平均值; m 为自变量的个数; β1、β2、βm 为偏回归系数(Partial regression coefficient )意义:如β1表示在X 2、X 3…… X m 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减β个单位)。 e 为去除m 个自变量对Y 影响后的随机误差,称残差(residual)。 e X X X Y m m +++++=ββββ 22110多元回归方程的一般形式 一、多元回归模型

统计学多元回归分析方法

多元线性回归分析 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。 1.1 回归分析基本概念 相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。 相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。 具体地说,回归分析主要解决以下几方面的问题。 (1)通过分析大量的样本数据,确定变量之间的数学关系式。

(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。 (3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。 作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。 在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。 1.2 多元线性回归 1.2.1 多元线性回归的定义 一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照

生存分析的cox回归模型案例

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survival time) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distribution function) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

回归分析与因子分析之比较

回归分析与因子分析之比较 刘婷玉数学与统计学院 06 级 【摘要】回归分析与因子分析是数理统计中常用的两种数据处理方法,本文对他们进行比较,分析了两种方法的区别与联系,各自的使用和适用范围,对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。 【关键词】回归分析因子分析比较 一、问题提出 回归分析和因子分析都是研究因变量与因子间关系的一种数据处理 方法,在模型上看,只是因子结构不一样,他们之间到底有什么内在联系,值得我们研究并加以利用。 二、问题分析 1、统计模型和类型 多元线性回归模型表示方法为 Y b0b1 X 1b2 X 2b k X k u n 个样本观测值(Y,X 1i , X 2 i ,, X ki )i 1,2, , n i 得: Y b 0b X 1 i b X 2 i b X ki u i i12k 其解析表达式为 :

Y 1 b 0 b 1 X 11 b 2 X 21 b k X Y 2 b 0 b 1 X 12 b 2 X 22 b k X k 1 u 1 k 2 u 2 Y n b b 1 X 1n b 2 X 2 n b k X kn u n 多元模型的矩阵表达式为 Y 1 1 X Y 2 1 X Y n 1 X YXB U 11 12 1 n X X X 21 22 2 n X X X k1 b 0 u 1 b 1 k 2 u 2 b 2 kn b k u n Y 1 1 X 11 X Y Y 2 1 X 12 X X Y n 1 X 1 n X b 0 u 1 b 1 U u 2 B b 2 21 22 2 n X X X k 1 k 2 kn b k u n 一般地,设 X=(x1 , x2, ?,xp) ’为可观测的随机变量,且有 X i i a i 1 f 1 a i 2 f 2 a im f m e i 。在因子分析中, p 维的变量 向量 x 被赋予一个随机结构, x = α+Af+ε具体也可以写成以下形式: x 1 a 11 f 1 a 12 f 2 a 1m f m 1 x 2 a 21 f 1 a 22 f 2 a 2 m f m 2 x p a p1 f 1 a p 2 f 2 a pm f m p (1) 其中 α是 p 维向量, A 是 p ×r 参数矩阵, f 是 r 维潜变量向量,称为

因素分析法的计算例题多因素分析法研究

因素分析法的计算例题多因素分析法研究 多因素分析法研究 WTT为大家整理的相关的多因素分析法研究资料,供大家参考选择。 多因素分析 研究多个因素间关系及具有这些因素的个体之间的一系列统计分析方法称为多元(因素)分析。主要包括: 多元线性回归(multiple linear regression) 判别分析(disoriminant analysis) 聚类分析(cluster analysis) 主成分分析(principal ponent analysis) 因子分析(factor analysis) 典型相关(canonical correlation) logistic 回归(logistic regression) Cox 回归(COX regression) 1、多元回归分析(multiple linear regression) 回归分析是定量研究因变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。研究一个因变量对几个自变量的线性依存关系时,其模型称为多元线性回归。函数方程建立有四种方法:全模型法、向前选择法、向后选择法、逐步选择法。 全模型法其数学模型为:ebbbb++++=ppxxxyL22110 式中 y 为因变量, pxxxL21, 为p个自变量,0b为常数项,pbbbL21,为待定参数,

称为偏回归系数(partial regression coefficient)。pbbbL21,表示在其它自变量固定不变的情况下,自变量Xi 每改变一 个单位时,单独引起因变量Y的平均改变量。多因素分析法研究 e为随机误差,又称残差(residual), 它是在Y的变化中不能为自变量所解释的部分 例如:1、现有20名糖尿病病人的血糖(Lmmoly/,)、胰岛素(LmUx/,1)及生长素(Lgx/,2m)的数据,讨论血糖浓度与胰岛素、生长素的依存关系,建立其多元回归方程。 逐步回归分析(stepwise regression analysis) 在预先选定的几个自变量与一个因变量关系拟合的回归中,每个自变量对因变量变化所起的作用进行显著性检验的结果,可能有些有统计学意义,有些没有统计学意义。有些研究者对所要研究的指标仅具有初步知识,并不知道哪些指标会有显著性作用,只想从众多的变量中,挑选出对因变量有显著性意义的因素。 一个较理想的回归方程,应包括所有对因变量作用有统计学意义的自变量,而不包括作用无统计学意义的自变量。建立这样一个回归方程较理想的方法之一是逐步回归分析(stepwise regression analysis)

多因素分析 案例

多因素分析案例 案例1 某医生为研究乳腺癌彩超血流显像的相关因素,检测了121例乳腺癌患者,其中血流丰富者68个,中等血流者48个,无血流者5个。选择患者的年龄、乳腺癌的大小、组织学分类、导管内癌和浸润性导管癌组织学分级及雌激素受体,孕酮受体等因素,进行了多因素logistic回归分析。结果显示,对血流程度有影响的因子,其作用从大到小依次为:肿块大小(OR=5.931),肿块分好程度(低分化OR=4.318,中分化OR=1.681),患者年龄(OR=0.949)。其余因素对血流程度无影响。 问题: 本案例中的涉及到了哪些变量?分别属于什么类型?因变量自变量分别是什么? 本案例可否用直线相关或者回归分析?为什么? 在进行多因素logistic回归前,是否应该先进行单因素分析?如何分析? 单因素logistic回归分析与多因素logistic回归分析有何区别?能否直接做多因素logistic回归分析? 得到logistic回归分析结果后,如何解释?如何应用这个结果? 案例2 某研究者观察了确诊后采取同样方案进行化疗的26例急性混合型白血病患者,欲了解某种不良染色体是否会影响患者病情的缓解,于是将治疗后120天内症状是否缓解作为结果变量y(缓解=0,未缓解=1),有无不良染色体chr(有=1,无)作为研究因素,数据收集后(详细数据见表19-5)进行一系列统计分析,请结合以下问题,对分析结果进行恰当的评价。

表19-5 急性混合型白血病患者化疗后观察数据 age bl cd chr sex t y age bl cd chr sex t y 28 0 0 1 0 3 0 48 1 0 1 1 15 0 33 1 1 1 1 120 1 48 1 0 1 0 120 1 35 0 0 1 0 7 0 48 1 0 1 0 120 1 39 0 0 1 0 5 0 49 1 0 0 0 120 1 40 0 0 1 0 16 0 54 1 1 0 0 120 0 42 0 0 1 0 2 0 55 0 1 0 1 12 0 42 1 1 0 1 120 1 57 1 1 0 1 116 0 43 0 1 1 1 120 1 60 1 1 0 1 109 0 44 0 0 1 0 4 0 61 0 1 1 0 40 0 44 0 0 1 0 19 0 62 0 0 1 0 16 0 44 0 1 1 0 120 1 62 0 1 1 0 118 0 45 1 0 0 0 108 0 63 1 1 0 0 120 1 47 0 0 1 0 18 0 74 0 0 1 0 7 0 (1)按照有无不良染色体分组比较缓解率,考虑到例数较小,采用Fisher精确概率法,得到P值为0.667,此时的结论如何? (2)考虑到有无不良染色体并非研究人员可以随机分配的处理,所以比较组之间其它影响患乾缓解的因素不一定均衡,因而需要考虑平衡其他可能的影响因素的作用。于是该研究者进一步查阅了相关文献,追加记录了患者的年龄age(岁)、骨髓原幼细胞数分组bl (大于等于50%=1,小于50%=0)、CD34表达式cd(阳性=1,阴性=0)、性别sex(男=1,女=0)这几个变量(数据见表19-5),采用多因素logistic模型分析,经逐步法近α=0.10水准得到表19-6中的结果。此时的结论又如何? 表19-6 急性混合型白血病患者化疗后观察数据的逐步logistic回归分析结果 回归系数标准误X2 自由度P值RR Bl 常数项-1.872 0.760 6.073 1 0.014 0.154 综合上述分析过程,你对此项研究的设计、资料收集及统计分析方法的选择有何评论? 案例3 某研究者为探讨帕金森病(PD)与吸烟的关系,采用以人群为基础的病例-对照研究,调查某市PD病例共114例,以及对照205例(性别、民族及居住于与病例相匹配)。采用非条件logistic回归分析,结果见表18-12。请根据所提供信息,分析该研究中存在的主要统计学缺陷。

上海房价影响因素的多元线性回归分析

上海房价影响因素的多元线性回归分析 1:研究目的和意义 我国房地产市场从20世纪90年代开始建立到如今已经颇具规模,对我国的经济增长产生了很大的影响,甚至成为了国民经济的支柱型产业。但是近年来,房价的飞速发展又不得不引起我们的重视,在促进经济增长的同时,带来的一系列结构性问题将对房地产行业的健康发展甚至国民经济的可持续发展带来影响。因此研究商品房价格的影响因素,有助于科学的把握房地产市场的发展规律,对整个国民经济都具有很大的意义。 2:研究内容和方法 本文主要以上海为中国房地产市场的代表城市进行分析,通过对1999年至2007年的相关经济数据整理建立起多元线性回归模型。 从理论上来讲,房价的波动主要受宏观经济影响,包括地区生产总值,城镇人均可支配收入,建设成本,城市人口密度,货币政策,土地价格以及房地产开发投资额等指标。这里主要选取商品房平均售价作为因变量,城镇人均可支配收入,城市人口密度,以及房地产开发投资额作为自变量来进行分析,通过多元回归方法来了解商品房价格的影响因素 3:多元回归模型的建立及数据分析 3.1:多元线性回归模型的建立

数据来源:上海统计年鉴 国研网整理 设定三个自变量指标分别为:城镇人均可支配收入1x ,城市人口密度2x ,房地产开发投资额3x ,商品房平均售价y 作为因变量,并建立如下的多元线性回归模型: 其中0β,1β,2β,3β分别为未知参数, ε为剩余残差,与三个自变量无关。服从N(0, 2σ). 3.2:回归模型的检验 (一)模型拟合度检验 见下表二分析结果: 表二:模型拟合度检验 由上表可以看出,其R 值和R Square 值都很接近于1,所以其模型拟合度较好。 (二)方差分析显著性F 检验 见下表三方差分析表: 表三:方差分析表 由上表可以看到F 值为72.325,SIG 值为0.000,显然小于0.05,说明因变量分别与自变量存在真实的线性关系,显著性检验通过。 (三)变量显著性t 检验 见下表三相关系数表: 表四:Coefficients 表 由表知,只有城镇人均可支配收入的SIG 值小于0.05,但是其VIF 值却大于10,另外发现城市人口密度以及房地产开发投资额和商品房均价呈负相关,显然在经济实际上不合理。综合判断,自变量间存在多重共线性。通过相关性检验观察变量间的的相关系数均很接近于1(见下表五),说明确实存在较强的共线性。 表五:变量间的相关系数 3.3:多重共线性问题的解决以及回归模型修正 多重共线性的解决一般可以从数据处理和统计方法这两方面入手。 数据处理方面可以通过增加样本量来解决,但是由于房地产市场从90年代末才逐步发展,相关统计数据有限。所以我们通过采用逐步回归(stepwise )统计方法来对回归进行修正。 通过逐步回归后发现,只有城镇人均可支配收入与商品房销售均价表现了良好的正相关性,并且通过了相关的检验。分别如下表所示:综合SIG 值,F 值,VIF 值都符合检验通过的标准。 表六 方差分析 表七 t 检验 但是从经济意义上来看,房价与房地产开发投资额应该会呈一定的正相关关系,只是由于样本数据太少,或者相关政策的不稳定性导致其检验不显著。而城市人口密度的不显著反而可以理解。因为上海随着其的经济发展,确实会吸引很多外

COX回归模型的样本含量的计算方法及软件实现_徐英

收稿日期:2007-10-20 通讯作者:骆福添 *中山大学公共卫生学院卫生统计与流行病学系 The Optimum Analysis with Queuing Theory Model in Hospital Management Han Xinhuan ,e t al (Department o f mathematics and computer ,Nanjing Med ical University ,Nanjing 210029)A bstract This ar ticle analy sed queuing theo ry model and defined suitable medical resoume fo r outpatient services in o rder to receive be st benefit .It o ffered reference that the hospital g overnors improve medical serv -ice with queuing theo ry . Key words queuing theo ry ;random mo del ;hospital manag ement 文章编号:1004-4337(2008)01-0018-02 中图分类号:R195.1 文献标识码:A ·医学数学模型探讨· COX 回归模型的样本含量的计算方法及软件实现 徐 英 骆福添* (广东药学院卫生统计学教研室 广州510310) 摘 要: 目前生存分析中COX 回归模型到底需要多少样本量往往靠经验法来估计。旨在介绍并推广生存分析中COX 回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。 关键词: 生存分析; COX 回归模型; 样本量; 统计软件 CO X 回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。但是,简单的忽略这部分数据,往往会造成信息的损失。如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。1 公式介绍 以往,对于CO X 回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10~15倍的阳性结局事件。1983年,Schoenfeld 在Bio me trics 杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]: D =(Z 1-α+Z β)2[P (1-P )lo g Δ)2 ] -1 这里,D 是指发生阳性结局的总人数,P 是指分配到第一 治疗组人数所占的比例。lo g Δ是指风险比的对数。该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。 然而,在实际的工作当中,变量之间有时并不能满足独立性。因此,2000年,H sieh 和L avo ri 在Contro lled Clinical T ri -als 上将Schoenfeld 的计算公式进行了扩展[3],现介绍如下: N =(Z 1-α/2+Z 1-β)2 P (1-R 2)σ2B 2 等号左边,N 表示所需要的样本含量。 等号右边Z 1-α/2,Z β表示给定检验水准和检验功效时的z 界值;P 表示整个研究期间阳性结局事件的发生率;B 表示对 数风险比,即lo g Δ;σ2 表示感兴趣的研究因素X 1的方差,这 里假定X 1服从正态分布,对于非正态分布的X 1,如二项分布,可通过p (1-p )进行估计,这里,p 表示X 1取“0”或“1”的比例。与Scho enfeld 的计算公式不同的是,该公式引入了“方差膨胀因子”(V IF ),即1/(1-R 2)。R 2表示X 1对其他协变量作回归分析时的确定系数,取值范围0~1,当取值为“0”时, · 18·Journal o f M athematical M edicine Vo l .21 No .1 2008

cox回归分析

生存分析之COX回归分析 1.生存分析,是将终点事件出现与否与对应时间结合起来分析的一种统计方法; 2.生存时间,是从规定的观察起点到某一特定终点事件出现的时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间; 3.完全数据,观测起点到终点事件所经历的时间,上述例子即膀胱癌手术到因膀胱癌死亡的时间; 4.删失数据,因失访、研究结束终点事件未发生或患者死于规定的终点事件以外的原因而终止观察,不能确定具体生存时间的一类数据; 5.生存概率,表示某时段开始存活的个体到该时段结束仍存活的概率,p=活满某时段的人数/该时段期初有效人口数; 6.生存率,为观察起点起到研究时间点内各个时段的生存概率的累积概率,S(tk)=p1.p2.pk=S(tk-1).pk; 7.生存曲线,以生存时间为横轴,将各个时间点的生存率连在一起的曲线图; 8.中位生存期,又称半数生存期,表示50%的个体存活的时间; 9.PH假定(等比例风险假定),某研究因素对生存的影响不随时间的改变而改变,是COX回归模型建立的前提条件。 1. Cox回归分析及其SPSS操作方法概述 前面我们已经讲过生存分析及KM法的内容,详细可以回复数字26-28查看。但有对统计不太熟悉的“微粉”还不太明白生存分析与一般统计的区别,不知道如何区别Cox回归与Logistic回归。在我们做研究时,有时我们不仅关心某种结局是否出现,还会关心结局出现的时间,例如肺部手术后观察五年生存率,一个有在1年之后死亡,另外一个人在在4.5后死亡,如果只看第5年时的结局,两者是一样的(均死亡),但是实际我们认为后者的治疗效果可能优于前者,即生存分析同时考虑结局和结局出现的时间,而一般分析只考虑结局。另外在队列随访时,可能有人在没有到5年时就失访了,如迁徙或者电话更改,我们不了解其结局如何,在一般的分析中这种病例无法使用,而中间失访的病例结局可能更差,如果直接扔掉,可能会产生偏倚;而用生存分析,这种病例可以给我们提供部分资料,即我们记录最后一次随访时病例的状态,失访前的资料可以用于分析。 我们先回顾一下生存分析的KM法和寿命表法(回复数字26和27可以查看KM法的详细内容),其共同点是只能分析一种因素与生存率的关系,Log-Rank法也是比较一个因素两种水平间的生存差别,如果生存率的影响因素有很多,我们怎么避免其它混杂因素的影响呢?我们可以使用回归分析方法,但如果使用logistic回归,也是只能观察影响因素与结局的关联,没有考虑结局发生的时间因素。Cox回归可以解决这个问题。Cox回归一般模型假设为 其中h(t,X)是在时刻t的风险函数又可称瞬时死亡率,h(0,t)是基线风险率,其它与logistic回归模型相同。βj大于0则x j越大,病人死亡风险越大,βj小于0则x j越大,病人死亡风险越小,βj等于0则x j越与死亡率没有影响。Exp(β)为危险比(HR)或相对危险度(RR)。 下面以一个例子说明在SPSS中作Cox回归如何操作。

第十七章多因素回归分析简介

第十七章多因素回归分析的Stata实现 例17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表17-4。请根据研究问题作统计分析。 表17-4 三种避孕药使用情况下的年龄(X,岁)与血糖水平(Y,mg%) 现服药者曾服药者从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考虑以下总体均数的情况。 解:Stata数据如下:

Stata命令如下: reg y x g1 g2 结果: g1代表曾服药者和未服药者的比较,p=0.773,说明曾服药者和未服药者血糖平均水平没有差别。g2代表现服药者和未服药者的比较,p=0.260,说明现服药者和未服药者血糖平均水平没有差别。 接着比较曾服药者和现服药者: test g1= g2 结果: P=0.1252,曾服药者和现服药者血糖平均水平没有差别。

例17-5为了研究影响肥胖者瘦素(Leptin)的主要危险因素,某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等,并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、是否患糖尿病(X4,患糖尿病为1,不患糖尿病为0)和是否患高血压(X5,患高血压为1,不患高血压为0),应变量为瘦素(Y,ng/ml)。为了说明的方便,这里仅从500名肥胖就诊者中随机取30例,具体数据如表17-11所示,试用逐步线性回归分析寻找主要的影响因素。 表17-11 例17-5的数据 Stata数据如下: X1X2X3X4X5Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4

生存分析的cox回归模型案例——spss

生存分析的cox回归模型案例——spss

————————————————————————————————作者: ————————————————————————————————日期: ?

一、生存分析基本概念 1、事件(Event) 指研究中规定的生存研究的终点,在研究开始之前就已经制定好。根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。 2、生存时间(Survivaltime) 指从某一起点到事件发生所经过的时间。生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。 3、删失(Sensoring) 指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。 4、生存函数(Survival distributionfunction) 又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。? 二、生存分析的方法 1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。 2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。 下面用一个例子来说明SPSS中Cox回归模型的操作方法。 例题 要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:

相关文档
最新文档