logistic回归分析影响公共交通工具的因素

logistic

回归分析影响公共交通工具的因素

一．绪论

鉴于交通工具是我们出行中必不可少的一部分，而随着科技的发展与进步，交通方式愈加趋向于多元化，人们可以选择的交通工具也多种多样，新的交通工具带来便利的同时，也不可避免的给我们带来了一些问题。不同社会地位的人所选择的交通工具的原因与其本身的内在因素以及外部条件相关。不同的年龄，性别，收入都是影响人们交通方式的重要因素。

应用Logistic 回归的原理和计算方法，并利用在公共交通调查数据在一次关于公共交通的社会调查中，年龄，月收入，性别与是乘公共汽车上下班还是骑自行车上下班的资料，采用Logistic 回归方法，进行假设检验，对影响的因素进行分析。建立Logistic 回归模型，更加明确因变量与自变量之间的关系。

二．Logistic 回归理论

logistic 回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更

为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic 回归。

由于Y 取值非0即1，如设Y 取1的概率为P,则它取0的概率为Q=1-P 。

第i 个观察对象的发生概率比数（odds)为i i Q P /称为发生比，是发生概率与不发生概率的比。发生概率取对数称为LOGIT 变换。

k k x x x p

itp ββββ++++=-== 221101log

0log log 回归系数的解释，β，i 表示xi 改变一个单位时，logitP 的平均变化量。相对危险度：RR=P1/P2 比数：Odds=P/(1-P)

比数比：OR=()[]()[]

22111//1/P P P P -- 对比数比取自然对数得到关系式：

)()(//ln 111lk ik k l i i i i i x x x x Q P Q P -++-=??

???ββ

β的意义是在其他自变量固定不变的情况下，自变量X 的水平没改变一个测量单位时所引起的比数比的自然对数改变量。或者说，在其他自变量固定不变的情况下，当自变量X 的水平每增加一个测量单位时所引起的比数比为增加前的

βe 倍。

Logit 回归模型实质是求一种概率的估计，将某种概率与一个线性模型联系起来。

三．实例 3.1原始数据

因变量y=1表示乘坐公共汽车，y=0表示骑自行车。自变量x1是年龄，作为连续变量；x2是月收入，x3是性别，x3=1表示男性，x3=0表示女性，调查对象为工薪族群体。

表1 公共交通社会调查

序号年龄x1 月收入x2 性别x3 交通y 1 18 850 0 0 2 21 1200 0 0 3 23 850 0 1 4 23 950 0 1 5 28 1200 0 1 6 31 850 0 0 7 36 1500 0 1 8 42 1000 0 1 9 46 950 0 1 10 48 1200 0 0 11 55 1800 0 1 12 56 2100 0 1 13 58 1800 0 1 14 18 850 1 0 15 20 1000 1 0

16 25 1200 1 0

17 27 1300 1 0

18 28 1500 1 0

19 30 950 1 1

20 32 1000 1 0

21 33 1800 1 0

22 33 1000 1 0

23 38 1200 1 0 34 41 1500 1 0

25 45 1800 1 1

26 48 1000 1 0

27 52 1500 1 1

28 56 1800 1 1

3.2程序与分析

3.2.1程序

data sasa;

input n x1 x2 x3 y;

datalines;

1 18 850 0 0

2 21 1200 0 0

3 23 850 0 1

4 23 950 0 1

5 28 1200 0 1

6 31 850 0 0

7 36 1500 0 1

8 42 1000 0 1

9 46 950 0 1

10 48 1200 0 0

11 55 1800 0 1

12 56 2100 0 1

13 58 1800 0 1

14 18 850 1 0

15 20 1000 1 0

16 25 1200 1 0

17 27 1300 1 0

18 28 1500 1 0

19 30 950 1 1

20 32 1000 1 0

21 33 1800 1 0

22 33 1000 1 0

23 38 1200 1 0

24 41 1500 1 0

25 45 1800 1 1

26 48 1000 1 0

27 52 1500 1 1

28 56 1800 1 1

；

proc logistic data=sasa desending;

model y=x1 x2 x3/selection=stepwise;

Run;

3.2.2 运行结果分析

3.2.2.1输入数据信息

Logistic 回归方程log(odds) 默认的形式是处理那个变量值比较小的，由运行结果可以看得出，因变量y取值的排列顺序是从大到小，所以第一个可能概率模型为y=1。

3.2.2.2引入变量

给出了自变量进入模型的次序。先是截距项 Step 0 了,step 1 x3第一个进入模型，附带了很多评估它对因变量预测能力的指标。-2 Log L 和 Score 用来检测自变量是否显著。-2 Log L 中的L 就是 Likelihood Ratio，它的 p 值是 0.0108,Score 的p 值是 0.0125，wald的p值为0.0173，都小于0.05，故x3是一个很显著的解释变量。AIC和SC两个信息量标准用来比较不同的模型，它们数值越小，模型变现就越好，step2 x1变量进入模型后的情况,模型的情况变化不大，step2 x1变量移除模型后的情况比step2的情况好，AIC 和 SC 的值变小了，-2 Log L 和 Score 对应的 p 值也更小。

3.2.2.3模型的总体检验

由运行结果可以看出，p<0.05，所以模型有较好的拟合效果。

3.2.2.4参数检验以及几个描述性统计量、参数OR 值，以及95%置信区间

给出了模型参数的估计，据此可以写出改回归方程的形式是

log(p/(1-p))=0.8109-2.1102*x3。概率为 )

31102.28109.0ex p(1)

31102.28109.0ex p(x x p +++=

X3为性别，结果显示其回归系数b=-2.1102，P 值为0.0173，表明在控制其他因素不变的情况下，性别对使用公共交通工具有负面影响。

OR(X3)=0.121,表示消除其他影响后，男性乘坐公共汽车是女性的0.121倍，女性乘坐公共汽车的人多

95%置信区间为[0.021,0.688]

四．结论

二分类logistic 回归法分析公共交通社会调查，我们发现乘坐公共汽车与

年龄，月收入关系不显著，女性乘坐公共汽车的人数多于男性，男性骑自行车的人数多于女性，于此看出，男性群体普遍热爱运动，女性大众也应多骑自行车，有利于身体健康。

第18章 Logistic回归思考与练习参考答案

第18章 Logistic 回归思考与练习参考答案一、最佳选择题 1. Logistic 回归与多重线性回归比较，（ A ）。 A ．logistic 回归的因变量为二分类变量 B ．多重线性回归的因变量为二分类变量 C ．logistic 回归和多重线性回归的因变量都可为二分类变量 D ．logistic 回归的自变量必须是二分类变量 E ．多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为（ E ）。 A ．二分类变量 B ．多分类有序变量 C ．多分类无序变量 D ．连续型定量变量 E ．A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为（ E ）。 A ．>β0等价于OR ＞1 B ．>β0等价于OR ＜1 C ．β＝0等价于OR ＝1 D ．β＜0等价于OR ＜1 E ．A 、C 、D 均正确 4. Logistic 回归可用于（ E ）。Ａ．影响因素分析 B ．校正混杂因素 C ．预测 D ．仅有A 和C E ．A 、B 、C 均可 5. Logistic 回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛选时可用（ D ）。 A ．软件自动筛选的前进法 B ．软件自动筛选的后退法 C ．软件自动筛选的逐步法 D ．应将几个哑变量作为一个因素，整体进出回归方程 E ．A 、B 、C 均可二、思考题 1. 为研究低龄青少年吸烟的外在因素，研究者采用整群抽样，在某中心城区和远城区的初中学校，各选择初一年级一个班的全部学生进行调查，并用logistic 回归方程筛选影响因素。试问上述问题采用logistic 回归是否妥当？

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald 统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫，睡意连连，头不断往下掉，拿出耳机，听下歌曲，缓解我这严重的睡意吧！今天来分析二元Logistic回归的结果分析结果如下： 1：在“案例处理汇总”中可以看出：选定的案例489个，未选定的案例361个，这个结果是根据设定的validate = 1得到的，在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替，在“分类变量编码”中教育水平分为5类，如果选中“为完成高中，高中，大专，大学等，其中的任何一个，那么就取值为 1，未选中的为0，如果四个都未被选中，那么就是”研究生“ 频率分别代表了处在某个教育水平的个数，总和应该为489个

1：在“分类表”中可以看出：预测有360个是“否”（未违约）有129个是“是”（违约） 2：在“方程中的变量”表中可以看出：最初是对“常数项”记性赋值，B为 -1.026，标准误差为：0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近，是因为我对数据进行的向下舍入的关系，所以数据会稍微偏小， B和Exp(B) 是对数关系，将B进行对数抓换后，可以得到：Exp(B) = e^-1.026 = 0.358, 其中自由度为1， sig为0.000，非常显著

1：从“不在方程中的变量”可以看出，最初模型，只有“常数项”被纳入了模型，其它变量都不在最初模型表中分别给出了，得分，df , Sig三个值, 而其中得分（Score)计算公式如下：（公式中（Xi- Xˉ) 少了一个平方）下面来举例说明这个计算过程：(“年龄”自变量的得分为例）从“分类表”中可以看出：有129人违约，违约记为“1”则违约总和为 129，选定案例总和为489 那么： yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以：∑(Xi-xˉ)2 = 30074.9979

二分类Logistic回归的详细SPSS操作

SPSS操作：二分类Logistic回归作者：张耀文 1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD 病史）。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。表3. 病例组和对照组暴露因素的单因素比较病例组（n=85）对照组(n=259) χ2 /t统计量P 性别，男（%）56 (65.9) 126 (48.6) 7.629 <0.01 年龄（岁），x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI，n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史，n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟，n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，

logistic回归分析案例

1. 数据制备（栅格数据）（1）宝塔区基底图层.tif （2）居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。在 environment settings ------ p rocessing extent ------ snap raster （选中基底图层），保证栅格数据像元无偏移，且行列的数量一致。化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块，获得logistic 回归分析的数据集。（1）将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式，并将文件放在CLUE-S 模型所在的文件夹中。（2）打开FileCo nvert V2软件，按下图勾选，填写"file list "内容，点击start con version ， 3 田F1 曰 It:. （3）栅格数据转为 ASCII 码，生成txt 文档。匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*￡LD|i4I# ■ Q电兀列心￡i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬￡淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂￡]T (2)logistic回归分析按图设置参数因变量、自变量；由于x3属于分类变量，点击分类按钮，按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl￥ g： ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■；? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l￡j v-IIHH M4Q J0W PW回沐神to 型 rwa： wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞：幽 11013 1 Qm Sft?t 121JJ V s? 014*」； 11 H?iKa； H013 5 *旳 ti a IM■ KK MS V；941 ti Q144T f 7W filwvjcfic OH