logistic回归分析影响公共交通工具的因素

logistic回归分析影响公共交通工具的因素
logistic回归分析影响公共交通工具的因素

logistic

回归分析影响公共交通工具的因素

一.绪论

鉴于交通工具是我们出行中必不可少的一部分,而随着科技的发展与进步,交通方式愈加趋向于多元化,人们可以选择的交通工具也多种多样,新的交通工具带来便利的同时,也不可避免的给我们带来了一些问题。不同社会地位的人所选择的交通工具的原因与其本身的内在因素以及外部条件相关。不同的年龄,性别,收入都是影响人们交通方式的重要因素。

应用Logistic 回归的原理和计算方法,并利用在公共交通调查数据在一次关于公共交通的社会调查中,年龄,月收入,性别与是乘公共汽车上下班还是骑自行车上下班的资料,采用Logistic 回归方法,进行假设检验,对影响的因素进行分析。建立Logistic 回归模型,更加明确因变量与自变量之间的关系。

二.Logistic 回归理论

logistic 回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更

为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic 回归。

由于Y 取值非0即1,如设Y 取1的概率为P,则它取0的概率为Q=1-P 。

第i 个观察对象的发生概率比数(odds)为i i Q P /称为发生比,是发生概率与不发生概率的比。发生概率取对数称为LOGIT 变换。

k k x x x p

p

itp ββββ++++=-== 221101log

0log log 回归系数的解释,β,i 表示xi 改变一个单位时,logitP 的平均变化量。 相对危险度:RR=P1/P2 比数 :Odds=P/(1-P)

比数比 :OR=()[]()[]

22111//1/P P P P -- 对比数比取自然对数得到关系式:

)()(//ln 111lk ik k l i i i i i x x x x Q P Q P -++-=??

?

???ββ

β的意义是在其他自变量固定不变的情况下,自变量X 的水平没改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量X 的水平每增加一个测量单位时所引起的比数比为增加前的

βe 倍。

Logit 回归模型实质是求一种概率的估计,将某种概率与一个线性模型联系起来。

三.实例 3.1原始数据

因变量y=1表示乘坐公共汽车,y=0表示骑自行车。自变量x1是年龄,作为连续变量;x2是月收入,x3是性别,x3=1表示男性,x3=0表示女性,调查对象为工薪族群体。

表1 公共交通社会调查

序号 年龄x1 月收入x2 性别x3 交通y 1 18 850 0 0 2 21 1200 0 0 3 23 850 0 1 4 23 950 0 1 5 28 1200 0 1 6 31 850 0 0 7 36 1500 0 1 8 42 1000 0 1 9 46 950 0 1 10 48 1200 0 0 11 55 1800 0 1 12 56 2100 0 1 13 58 1800 0 1 14 18 850 1 0 15 20 1000 1 0

16 25 1200 1 0

17 27 1300 1 0

18 28 1500 1 0

19 30 950 1 1

20 32 1000 1 0

21 33 1800 1 0

22 33 1000 1 0

23 38 1200 1 0 34 41 1500 1 0

25 45 1800 1 1

26 48 1000 1 0

27 52 1500 1 1

28 56 1800 1 1

3.2程序与分析

3.2.1程序

data sasa;

input n x1 x2 x3 y;

datalines;

1 18 850 0 0

2 21 1200 0 0

3 23 850 0 1

4 23 950 0 1

5 28 1200 0 1

6 31 850 0 0

7 36 1500 0 1

8 42 1000 0 1

9 46 950 0 1

10 48 1200 0 0

11 55 1800 0 1

12 56 2100 0 1

13 58 1800 0 1

14 18 850 1 0

15 20 1000 1 0

16 25 1200 1 0

17 27 1300 1 0

18 28 1500 1 0

19 30 950 1 1

20 32 1000 1 0

21 33 1800 1 0

22 33 1000 1 0

23 38 1200 1 0

24 41 1500 1 0

25 45 1800 1 1

26 48 1000 1 0

27 52 1500 1 1

28 56 1800 1 1

proc logistic data=sasa desending;

model y=x1 x2 x3/selection=stepwise;

Run;

3.2.2 运行结果分析

3.2.2.1输入数据信息

Logistic 回归方程log(odds) 默认的形式是处理那个变量值比较小的,由运行结果可以看得出,因变量y取值的排列顺序是从大到小,所以第一个可能概率模型为y=1。

3.2.2.2引入变量

给出了自变量进入模型的次序。先是截距项 Step 0 了,step 1 x3第一个进入模型,附带了很多评估它对因变量预测能力的指标。-2 Log L 和 Score 用来检测自变量是否显著。-2 Log L 中的L 就是 Likelihood Ratio,它的 p 值是 0.0108,Score 的p 值是 0.0125,wald的p值为0.0173,都小于0.05,故x3是一个很显著的解释变量。AIC和SC两个信息量标准用来比较不同的模型,它们数值越小,模型变现就越好,step2 x1变量进入模型后的情况,模型的情况变化不大,step2 x1变量移除模型后的情况比step2的情况好,AIC 和 SC 的值变小了,-2 Log L 和 Score 对应的 p 值也更小。

3.2.2.3模型的总体检验

由运行结果可以看出,p<0.05,所以模型有较好的拟合效果。

3.2.2.4参数检验以及几个描述性统计量、参数OR 值,以及95%置信区间

给出了模型参数的估计,据此可以写出改回归方程的形式是

log(p/(1-p))=0.8109-2.1102*x3。 概率为 )

31102.28109.0ex p(1)

31102.28109.0ex p(x x p +++=

X3为性别,结果显示其回归系数b=-2.1102,P 值为0.0173,表明在控制其他因素不变的情况下,性别对使用公共交通工具有负面影响。

OR(X3)=0.121,表示消除其他影响后,男性乘坐公共汽车是女性的0.121倍,女性乘坐公共汽车的人多

95%置信区间为[0.021,0.688]

四.结论

二分类logistic 回归法分析公共交通社会调查,我们发现乘坐公共汽车与

年龄,月收入关系不显著,女性乘坐公共汽车的人数多于男性,男性骑自行车的人数多于女性,于此看出,男性群体普遍热爱运动,女性大众也应多骑自行车,有利于身体健康。

第18章 Logistic回归思考与练习参考答案

第18章 Logistic 回归 思考与练习参考答案 一、最佳选择题 1. Logistic 回归与多重线性回归比较,( A )。 A .logistic 回归的因变量为二分类变量 B .多重线性回归的因变量为二分类变量 C .logistic 回归和多重线性回归的因变量都可为二分类变量 D .logistic 回归的自变量必须是二分类变量 E .多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为( E )。 A .二分类变量 B .多分类有序变量 C .多分类无序变量 D .连续型定量变量 E .A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为( E )。 A .>β0等价于OR >1 B .>β0等价于OR <1 C .β=0等价于OR =1 D .β<0等价于OR <1 E .A 、C 、D 均正确 4. Logistic 回归可用于( E )。 A.影响因素分析 B .校正混杂因素 C .预测 D .仅有A 和C E .A 、B 、C 均可 5. Logistic 回归中自变量如为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用( D )。 A .软件自动筛选的前进法 B .软件自动筛选的后退法 C .软件自动筛选的逐步法 D .应将几个哑变量作为一个因素,整体进出回归方程 E .A 、B 、C 均可 二、思考题 1. 为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,并用logistic 回归方程筛选影响因素。试问上述问题采用logistic 回归是否妥当?

Logistic回归分析简介

Logistic回归分析简介 Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2.Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍 研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ②LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍 为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观 察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等 级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数 法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离 散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级 变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量 变换; ④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型 程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变 量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计 量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选 择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald 统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔 除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

二分类Logistic回归的详细SPSS操作

SPSS操作:二分类Logistic回归 作者:张耀文 1、问题与数据 某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析? 表1. 肺癌危险因素分析研究的变量与赋值 表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析 该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD 病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。 在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。 表3. 病例组和对照组暴露因素的单因素比较 病例组(n=85)对照组(n=259) χ2 /t统计量P 性别,男(%)56 (65.9) 126 (48.6) 7.629 <0.01 年龄(岁),x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI,n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史,n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟,n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。 此时,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,

logistic回归分析案例

1. 数据制备(栅格数据) (1) 宝塔区基底图层.tif (2) 居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。 在 environment settings ------ p rocessing extent ------ snap raster (选中基底图层),保证栅格数据 像元无偏移,且行列的数量一致。 化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块,获得logistic 回归分析的数据集。 (1) 将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式,并将文件 放在CLUE-S 模型所在的文件夹中。 (2) 打开FileCo nvert V2软件,按下图勾选,填写"file list "内容,点击start con version , 3 田F1 曰 It:. (3)栅格数据转为 ASCII 码,生成txt 文档。 匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。 祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*£LD|i4I# ■ Q电兀列心£i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬£ 淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂£]T (2)logistic回归分析 按图设置参数因变量、自变量;由于x3属于分类变量,点击分类按钮,按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl¥ g: ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■;? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l£j v-IIHH M4Q J0W PW回沐神to 型 rwa: wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞:幽 11013 1 Qm Sft?t 121JJ V s? 014*」; 11 H?iKa; H013 5 *旳 ti a IM■ KK MS V;941 ti Q144T f 7W filwvjcfic OH

logistic回归方程

Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2. Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ② LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;

④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。 ② C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。C p无法用SPSS 直接计算,可能需要手工。1964年CL Mallows提出: Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。 ③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。

Logistic回归分析报告结果解读分析

Logistic 回归分析报告结果解读分析 Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1. Logistic 回归的用法 一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2. 用Logistic回归估计危险度 所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的

胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(risk ratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如,这样就表示,男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题,以女性作为参照,男性患胃癌的OR是。如果以男性作为参照,算出的OR将会是(1/,表示女性发生胃癌的风险是男性的倍,或者说,是男性的%。撇开了参照组,相对危险度就没有意义了。

图文举例详细讲解Logistic曲线的回归分析

Logistic曲线的回归分析 例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如 表1.所示。用转化为线性方程的方法估计其logistic曲线预测模型。设最大值k为300(cm)。 表1.玉米高度与时间(生长周期)的关系 时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm 10.671212.752297.4620.851316.5523112.7 31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271 67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2 107.732183.8931180.8119.91 3.1基本绘图操作 在Excel中输入时间x与高度y的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S型曲线,符合logistic曲线。采用转化为线性方程的方法求解模型。 3.2Logistic曲线方程及线性化 Logistic曲线方程为: y 1 k at me(12) (1)将数据线性化及成图 转化为线性方程为: y'aat 01 (13 ) 其中,y'ln(k/y1),a 0lnm,a1a 具体操作为: 向excel表格中输入y’数据。

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(riskratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如,这样就表示,男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题,以女性作为参照,男性患

如何用SPSS做logistic回归分析

如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。 (一)数据准备和SPSS选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic (Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

第十七章多因素回归分析简介

第十七章多因素回归分析的Stata实现 例17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表17-4。请根据研究问题作统计分析。 表17-4 三种避孕药使用情况下的年龄(X,岁)与血糖水平(Y,mg%) 现服药者曾服药者从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考虑以下总体均数的情况。 解:Stata数据如下:

Stata命令如下: reg y x g1 g2 结果: g1代表曾服药者和未服药者的比较,p=0.773,说明曾服药者和未服药者血糖平均水平没有差别。g2代表现服药者和未服药者的比较,p=0.260,说明现服药者和未服药者血糖平均水平没有差别。 接着比较曾服药者和现服药者: test g1= g2 结果: P=0.1252,曾服药者和现服药者血糖平均水平没有差别。

例17-5为了研究影响肥胖者瘦素(Leptin)的主要危险因素,某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等,并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(X1,岁)、体重指数(X2,kg/m2)、总胆固醇(X3,mmol/L)、是否患糖尿病(X4,患糖尿病为1,不患糖尿病为0)和是否患高血压(X5,患高血压为1,不患高血压为0),应变量为瘦素(Y,ng/ml)。为了说明的方便,这里仅从500名肥胖就诊者中随机取30例,具体数据如表17-11所示,试用逐步线性回归分析寻找主要的影响因素。 表17-11 例17-5的数据 Stata数据如下: X1X2X3X4X5Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4

图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析 例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。用转化为线性方程的方法估计其logistic 曲线预测模型。设最大值k 为300(cm )。 表1. 玉米高度与时间(生长周期)的关系 时间(生长周期) 高度/cm 时间(生长周期) 高度 /cm 时间(生长周期) 高度/cm 1 2 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.91 12 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.8 3.1 基本绘图操作 在Excel 中输入时间x 与高度y 的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S 型曲线,符合logistic 曲线。采用转化为线性方程的方法求解模型。 3.2 Logistic 曲线方程及线性化 Logistic 曲线方程为: 1at k y me -= + (12) (1) 将数据线性化及成图 转化为线性方程为: 01'y a a t =+ (13) 其中,'ln(/1)y k y =-,0ln a m =,1a a =- 具体操作为: 向excel 表格中输入y ’数据。

如何用spss17.0进行二元和多元logistic回归分析

如何用spss17.0 进行二元和多元logistic 回归分析一、二元logistic 回归分析 二元logistic 回归分析的前提为因变量是可以转化为0、1 的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes 或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic 回归分析。 (一)数据准备和SPSS 选项设置 第一步,原始数据的转化:如图1-1 所示,其中脑梗塞可以分为ICAS、ECAS 和NCAS 三种,但现在我们仅考虑性别和年龄与ICAS 的关系,因此将分组数据ICAS、ECAS 和NCAS 转化为1、0 分类,是ICAS 赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0 置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框:沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic(Binary Logistic)” 的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。 如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

图1-2 图1-3 在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

第十七章多因素回归分析的Stata实现

第十七章多因素回归分析的Stata实现 本章使用的Stata命令: 多因素回归regress depvar [indepvars] 逐步回归stepwise [, options ] : command Logistic回归logistic depvar indepvars [weight] 生存时间数据设定stset timevar [weight] [, failure(failvar[==numlist])] Cox回归stcox [varlist] 例17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表17-4。请根据研究问题作统计分析。 表17-4 三种避孕药使用情况下的年龄(,岁)与血糖水 平(,mg%) 现服药者曾服药者从未服药者 201202412628135 211222613032137 231242713234138 231262913135137 241252913435139 241273013637144

本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考虑以下总体均数的情况。 解:Stata数据如下: x y g1g2 2012001 2112201 2312401 2312601 2412501 2412701 2412610 2613010 2713210 2913110 2913410 3013610 2813500 3213700 3413800 3513700 3513900 3714400 Stata命令如下: reg y x g1 g2 结果: Source | SS df MS Number

(整理)利用SAS宏程序进行单因素Logistic回归分析.

利用SAS宏程序进行单因素Logistic回归分析 在做单因素logistic回归时,如果有十几个自变量,每个自变量都运行一遍程序,然后把sas结果黏贴到word里再修改,最后合并生成一个汇总的数据,无疑是件很麻烦的事情,所以我编了一段程序,可以自动的汇总生成报表,省了很多事啊!欢迎大家共同交流 宏程序如下: %macro log1(data,yy,xx,num); /*data=分析数据集,yy=应变量,xx=自变量,num=自变量个数%do i=1 %to # %let var_=%sysfunc(scan(&xx,&i,’ ‘)); ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2; proc logistic data=&data desc ; model &yy=&var_; run; data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run; data &var_ (drop=effect df);merge &var_.1 &var_.2;run; proc delete data=&var_.1 &var_.2;run; %end; data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run; %mend; 测试一下: %log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13); 效果显示如下,(sas9.2自动生成html格式结果,stype选择journal)

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析 一、概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。 因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 下面学习一下Odds、OR、RR的概念: 在病例对照研究中,可以画出下列的四格表: ------------------------------------------------------ 暴露因素病例对照 ----------------------------------------------------- 暴露 a b 非暴露 c d ----------------------------------------------- Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为: odds1 = (a/(a+c))/(c(a+c)) = a/c, 对照组的暴露比值为: odds2 = (b/(b+d))/(d/(b+d)) = b/d OR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc 换一种角度,暴露组的疾病发生比值: odds1 = (a/(a+b))/(b(a+b)) = a/b 非暴露组的疾病发生比值: odds2 = (c/(c+d))/(d/(c+d)) = c/d OR = odds1/odds2 = ad/bc 与之前的结果一致。 OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。 关联强度大致如下: ------------------------------------------------------ OR值联系强度 ------------------------------------------------------ 0.9-1.0 1.0-1.1 无 0.7-0.8 1.2-1.4 弱(前者为负关联,后者为正关联) 0.4-0.6 1.5-2.9 中等(同上) 0.1-0.3 3.0-9.0 强(同上) <0.1 10.0以上很强(同上) ------------------------------------------------------

多元线性回归与logistic回归

第十一章 多元线性回归与logistic 回归 一、教学大纲要求 (一)掌握内容 1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。 2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P 值下结论。 4.logistic 回归模型结构:模型结构、发病概率比数、比数比。 5.logistic 回归参数估计方法。 6.logistic 回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容 常用统计软件(SPSS 及SAS )多元线性回归分析方法:数据准备、操作步骤与结果输出。 (三)了解内容 标准化偏回归系数的解释意义。 二、教学内容精要 (一) 多元线性回归分析的概念 将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系,称为多元线形回归(multiple linear regression ),简称多元回归(multiple regression ) 基本形式: 01122?k k Y b b X b X b X =+++???+ 式中Y ?为各自变量取某定值条件下应变量均数的估计值,1X ,2X ,…,k X 为自变量,k 为自变量个数,0b 为回归方程常数项,也称为截距,其意义同直线回归,1b ,2b ,…, k b 称为偏回归系数(partial regression coefficient ),j b 表示在除j X 以外的自变量固定条件下,j X 每改变一个单位后Y 的平均改变量。 (二) 多元线性回归的分析步骤 Y ?是与一组自变量1X ,2X ,…,k X 相对应的变量Y 的平均估计值。 多元回归方程中的回归系数1b ,2b ,…, k b 可用最小二乘法求得,也就是求出能使估计 值Y ?和实际观察值Y 的残差平方和22)?(∑∑-=Y Y e i 为最小值的一组回归系数1b ,2b ,…, k b 值。根据以上要求,用数学方法可以得出求回归系数1b ,2b ,…, k b 的下列正规方程组 (normal equation ):

相关文档
最新文档