(整理)利用SAS宏程序进行单因素Logistic回归分析.

利用SAS宏程序进行单因素Logistic回归分析

在做单因素logistic回归时，如果有十几个自变量，每个自变量都运行一遍程序，然后把sas结果黏贴到word里再修改，最后合并生成一个汇总的数据，无疑是件很麻烦的事情，所以我编了一段程序，可以自动的汇总生成报表，省了很多事啊！欢迎大家共同交流

宏程序如下：

%macro log1(data,yy,xx,num); /*data=分析数据集，yy=应变量，xx=自变量，num=自变量个数%do i=1 %to #

%let var_=%sysfunc(scan(&xx,&i,’ ‘));

ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2;

proc logistic data=&data desc ;

model &yy=&var_; run;

data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run;

data &var_ (drop=effect df);merge &var_.1 &var_.2;run;

proc delete data=&var_.1 &var_.2;run;

%end;

data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run;

%mend;

测试一下：

%log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13);

效果显示如下，（sas9.2自动生成html格式结果，stype选择journal）

以上程序注意，logistic回归增加了desc选项，表示取2的概率。需求不一样的朋友请自行修改。

第18章 Logistic回归思考与练习参考答案

第18章 Logistic 回归思考与练习参考答案一、最佳选择题 1. Logistic 回归与多重线性回归比较，（ A ）。 A ．logistic 回归的因变量为二分类变量 B ．多重线性回归的因变量为二分类变量 C ．logistic 回归和多重线性回归的因变量都可为二分类变量 D ．logistic 回归的自变量必须是二分类变量 E ．多重线性回归的自变量必须是二分类变量 2. Logistic 回归适用于因变量为（ E ）。 A ．二分类变量 B ．多分类有序变量 C ．多分类无序变量 D ．连续型定量变量 E ．A 、B 、C 均可 3. Logistic 回归系数与优势比OR 的关系为（ E ）。 A ．>β0等价于OR ＞1 B ．>β0等价于OR ＜1 C ．β＝0等价于OR ＝1 D ．β＜0等价于OR ＜1 E ．A 、C 、D 均正确 4. Logistic 回归可用于（ E ）。Ａ．影响因素分析 B ．校正混杂因素 C ．预测 D ．仅有A 和C E ．A 、B 、C 均可 5. Logistic 回归中自变量如为多分类变量，宜将其按哑变量处理，与其他变量进行变量筛选时可用（ D ）。 A ．软件自动筛选的前进法 B ．软件自动筛选的后退法 C ．软件自动筛选的逐步法 D ．应将几个哑变量作为一个因素，整体进出回归方程 E ．A 、B 、C 均可二、思考题 1. 为研究低龄青少年吸烟的外在因素，研究者采用整群抽样，在某中心城区和远城区的初中学校，各选择初一年级一个班的全部学生进行调查，并用logistic 回归方程筛选影响因素。试问上述问题采用logistic 回归是否妥当？

二分类Logistic回归的详细SPSS操作

SPSS操作：二分类Logistic回归作者：张耀文 1、问题与数据某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系，开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组，选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息：性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析？表1. 肺癌危险因素分析研究的变量与赋值表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析该设计中，因变量为二分类，自变量（病例对照研究中称为暴露因素）有二分类变量（性别、BMI和是否吸烟）、连续变量（年龄）和有序多分类变量（COPD 病史）。要探讨二分类因变量与自变量之间的关系，应采用二分类Logistic回归模型进行分析。在进行二分类Logistic回归（包括其它Logistic回归）分析前，如果样本不多而变量较多，建议先通过单变量分析（t检验、卡方检验等）考察所有自变量与因变量之间的关系，筛掉一些可能无意义的变量，再进行多因素分析，这样可以保证结果更加可靠。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，确定自变量进入方程的形式，这样才能有效的进行分析。本例中单变量分析的结果见表3（常作为研究报告或论文中的表1）。表3. 病例组和对照组暴露因素的单因素比较病例组（n=85）对照组(n=259) χ2 /t统计量P 性别，男（%）56 (65.9) 126 (48.6) 7.629 <0.01 年龄（岁），x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI，n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史，n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟，n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中，病例组和对照组之间的差异有统计学意义的自变量包括：性别、COPD病史和是否吸烟。此时，应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下，建议纳入的变量有：1）单因素分析差异有统计学意义的变量（此时，最好将P值放宽一些，比如0.1或0.15等，避免漏掉一些重要因素）；2）单因素分析时，

logistic回归方程

Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。 1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2． Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ② LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换；

④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量(Wald统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项；两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立(也是模型本身的要求)，不必研究交互作用，最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5．回归方程拟合优劣的判断（为线性回归方程判断依据，可用于logistic回归分析）①决定系数(R2)和校正决定系数( )，可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加，所以需要校正；校正决定系数( )越大，方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在logistic回归中不适合。 ② C p选择法：选择C p最接近p或p＋1的方程（不同学者解释不同）。C p无法用SPSS 直接计算，可能需要手工。1964年CL Mallows提出： Cp接近（p+1）的模型为最佳，其中p为方程中自变量的个数，m为自变量总个数。 ③ AIC准则：1973年由日本学者赤池提出AIC计算准则，AIC越小拟合的方程越好。

Logistic回归分析报告结果解读分析

Logistic回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如，若探讨胃癌的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群有不同的临床表现和生活方式等，因变量就为有或无胃癌，即“是”或“否”，为二分类变量，自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量，也可以为分类变量。通过Logistic 回归分析，就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处，但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量；Logistic回归的因变量为二分类变量或多分类变量，但二分类变量更常用，也更加容易解释。回归的用法一般而言，Logistic回归有两大用途，首先是寻找危险因素，如上文的例子，找出与胃癌相关的危险因素；其次是用于预测，我们可以根据建立的Logistic 回归模型，预测在不同的自变量情况下，发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度所谓相对危险度(risk ratio，RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似，常用来表示相对于某一人群，另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同，通过Logistic回归可以求出危险度的具体数值，例如，这样就表示，男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题，以女性作为参照，男性患胃癌的OR是。如果以男性作为参照，算出的OR将会是(1/，表示女性发生胃癌的风险是男性的倍，或者说，是男性的％。撇开了参照组，相对危险度就没有意义了。

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如，若探讨胃癌的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群有不同的临床表现和生活方式等，因变量就为有或无胃癌，即“是”或“否”，为二分类变量，自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量，也可以为分类变量。通过Logistic回归分析，就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处，但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量；Logistic回归的因变量为二分类变量或多分类变量，但二分类变量更常用，也更加容易解释。回归的用法一般而言，Logistic回归有两大用途，首先是寻找危险因素，如上文的例子，找出与胃癌相关的危险因素；其次是用于预测，我们可以根据建立的Logistic回归模型，预测在不同的自变量情况下，发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度所谓相对危险度(riskratio，RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似，常用来表示相对于某一人群，另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同，通过Logistic回归可以求出危险度的具体数值，例如，这样就表示，男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题，以女性作为参照，男性患

Logistic回归分析简介

Logistic回归分析简介 Logistic回归：实际上属于判别分析，因拥有很差的判别效率而不常用。 1．应用范围： ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2．Logistic回归的分类： ①按因变量的资料类型分：二分类多分类其中二分较为常用 ②按研究方法分：条件Logistic回归非条件Logistic回归两者针对的资料类型不一样，后者针对成组研究，前者针对配对或配伍研究。 3．Logistic回归的应用条件是： ①独立性。各观测对象间是相互独立的； ②LogitP与自变量是线性关系； ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍（以10倍为宜），不过随着统计技术和软件的发展，样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析，此时要求分析变量不能太多，且变量分类不能太多； ④当队列资料进行logistic回归分析时，观察时间应该相同，否则需考虑观察时间的影响（建议用Poisson回归）。 4．拟和logistic回归方程的步骤： ①对每一个变量进行量化，并进行单因素分析； ②数据的离散化，对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散，或是按照四分、五分位数法来确定等级，也可采用聚类方法将计量资料聚为二类或多类，变为离散变量。

③对性质相近的一些自变量进行部分多因素分析，并探讨各自变量（等级变量，数值变量）纳入模型时的适宜尺度，及对自变量进行必要的变量变换； ④在单变量分析和相关自变量分析的基础上，对P≤α（常取0.2，0.15或 0.3）的变量，以及专业上认为重要的变量进行多因素的逐步筛选；模型程序每拟合一个模型将给出多个指标值，供用户判断模型优劣和筛选变量。可以采用双向筛选技术：a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量)，用户确定P值临界值如：0.05、0.1或0.2，选择统计量显著且最大的变量进入模型；b剔除变量的选择用Z统计量 (Wald统计量)，用户确定其P值显著性水平，当变量不显者，从模型中予以剔除。这样，选入和剔除反复循环，直至无变量选入，也无变量删除为止，选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定，一般地，当纳入模型的变量偏多，可提高选入界值或降低剔除标准，反之，则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果，这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上，考虑有无必要纳入变量的交互作用项；两变量间的交互作用为一级交互作用，可推广到二级或多级交互作用，但在实际应用中，各变量最好相互独立(也是模型本身的要求)，不必研究交互作用，最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5．回归方程拟合优劣的判断（为线性回归方程判断依据，可用于logistic回归分析） ①决定系数(R2)和校正决定系数( )，可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加，所以需要校正；校正决定系数()越大，方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标，表示的是因变量的变动中由模型中自变量所解释的百分比，并不涉及预测值与观测值之间差别的问题，因此在logistic回归中不适合。 ②C p选择法：选择C p最接近p或p＋1的方程（不同学者解释不同）。C p 无法用SPSS直接计算，可能需要手工。1964年CL Mallows提出：

第十七章多因素回归分析简介

第十七章多因素回归分析的Stata实现例17-4 某研究者为了研究某种避孕药对人体血糖的影响，分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关，所以该研究者不仅测定了这18位对象的血糖，而且也记录了这18位对象的年龄，具体资料见表17－4。请根据研究问题作统计分析。表17-4 三种避孕药使用情况下的年龄（X，岁）与血糖水平(Y，mg％) 现服药者曾服药者从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同，因此首先考虑以下总体均数的情况。解：Stata数据如下：

Stata命令如下： reg y x g1 g2 结果： g1代表曾服药者和未服药者的比较，p=0.773，说明曾服药者和未服药者血糖平均水平没有差别。g2代表现服药者和未服药者的比较，p=0.260，说明现服药者和未服药者血糖平均水平没有差别。接着比较曾服药者和现服药者： test g1= g2 结果： P=0.1252，曾服药者和现服药者血糖平均水平没有差别。

例17-5为了研究影响肥胖者瘦素（Leptin）的主要危险因素，某研究者调查了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等，并用逐步线性回归模型分析影响瘦素的主要因素。为了简化问题，仅取自变量为年龄（X1，岁）、体重指数(X2，kg/m2)、总胆固醇(X3，mmol/L)、是否患糖尿病（X4，患糖尿病为1，不患糖尿病为0）和是否患高血压（X5，患高血压为1，不患高血压为0），应变量为瘦素（Y，ng/ml）。为了说明的方便，这里仅从500名肥胖就诊者中随机取30例，具体数据如表17-11所示，试用逐步线性回归分析寻找主要的影响因素。表17-11 例17-5的数据 Stata数据如下： X1X2X3X4X5Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4

如何用spss17.0进行二元和多元logistic回归分析

如何用spss17.0 进行二元和多元logistic 回归分析一、二元logistic 回归分析二元logistic 回归分析的前提为因变量是可以转化为0、1 的二分变量，如：死亡或者生存，男性或者女性，有或无，Yes 或No，是或否的情况。下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic 回归分析。（一）数据准备和SPSS 选项设置第一步，原始数据的转化：如图1-1 所示，其中脑梗塞可以分为ICAS、ECAS 和NCAS 三种，但现在我们仅考虑性别和年龄与ICAS 的关系，因此将分组数据ICAS、ECAS 和NCAS 转化为1、0 分类，是ICAS 赋值为1，否赋值为0。年龄为数值变量，可直接输入到spss中，而性别需要转化为（1、0）分类变量输入到spss当中，假设男性为1，女性为0，但在后续分析中系统会将1，0 置换（下面还会介绍），因此为方便期间我们这里先将男女赋值置换，即男性为“0”，女性为“1”。图1-1 第二步：打开“二值Logistic 回归分析”对话框：沿着主菜单的“分析（Analyze）→回归（Regression）→二元logistic（Binary Logistic）” 的路径（图1-2）打开二值Logistic 回归分析选项框（图1-3）。如图1-3左侧对话框中有许多变量，但在单因素方差分析中与ICAS显著相关的为性别、年龄、有无高血压，有无糖尿病等（P<0.05），因此我们这里选择以性别和年龄为例进行分析。

图1-2 图1-3 在图1-3中，因为我们要分析性别和年龄与ICAS的相关程度，因此将ICAS选入因变量（Dependent）中，而将性别和年龄选入协变量（Covariates）框中，在协变量下方的“方法（Method）”一栏中，共有七个选项。采用第一种方法，即系统默认的强迫回归方法（进入“Enter”）。接下来我们将对分类（Categorical），保存（Save），选项（Options）按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中，因为性别为二分类变量，因此将其选入分类协变量中，参考类别为在分析中是以最小数值“0（第一个）”作为参考，还是将最大数值“1（最后一个）”作为参考，这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项，其中“exp（B）的CI（X）”一定要勾选，这个就是输出的OR和CI值，后面的95%为系统默认，不需要更改。

第十七章多因素回归分析的Stata实现

第十七章多因素回归分析的Stata实现本章使用的Stata命令：多因素回归regress depvar [indepvars] 逐步回归stepwise [, options ] : command Logistic回归logistic depvar indepvars [weight] 生存时间数据设定stset timevar [weight] [, failure(failvar[==numlist])] Cox回归stcox [varlist] 例17-4 某研究者为了研究某种避孕药对人体血糖的影响，分别在正在使用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕药的人群中各随机抽取6人。考虑到血糖可能与年龄有关，所以该研究者不仅测定了这18位对象的血糖，而且也记录了这18位对象的年龄，具体资料见表17－4。请根据研究问题作统计分析。表17-4 三种避孕药使用情况下的年龄（，岁）与血糖水平(，mg％) 现服药者曾服药者从未服药者 201202412628135 211222613032137 231242713234138 231262913135137 241252913435139 241273013637144

本研究的问题是比较三种用药情况下的血糖平均水平是否不同，因此首先考虑以下总体均数的情况。解：Stata数据如下： x y g1g2 2012001 2112201 2312401 2312601 2412501 2412701 2412610 2613010 2713210 2913110 2913410 3013610 2813500 3213700 3413800 3513700 3513900 3714400 Stata命令如下： reg y x g1 g2 结果： Source | SS df MS Number

(整理)利用SAS宏程序进行单因素Logistic回归分析.

利用SAS宏程序进行单因素Logistic回归分析在做单因素logistic回归时，如果有十几个自变量，每个自变量都运行一遍程序，然后把sas结果黏贴到word里再修改，最后合并生成一个汇总的数据，无疑是件很麻烦的事情，所以我编了一段程序，可以自动的汇总生成报表，省了很多事啊！欢迎大家共同交流宏程序如下： %macro log1(data,yy,xx,num); /*data=分析数据集，yy=应变量，xx=自变量，num=自变量个数%do i=1 %to # %let var_=%sysfunc(scan(&xx,&i,’ ‘)); ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2; proc logistic data=&data desc ; model &yy=&var_; run; data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run; data &var_ (drop=effect df);merge &var_.1 &var_.2;run; proc delete data=&var_.1 &var_.2;run; %end; data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run; %mend; 测试一下： %log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13); 效果显示如下，（sas9.2自动生成html格式结果，stype选择journal）

多元线性回归与logistic回归

第十一章多元线性回归与logistic 回归一、教学大纲要求（一）掌握内容 1．多元线性回归分析的概念：多元线性回归、偏回归系数、残差。 2．多元线性回归的分析步骤：多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。 3．多元线性回归分析中的假设检验：建立假设、计算检验统计量、确定P 值下结论。 4．logistic 回归模型结构：模型结构、发病概率比数、比数比。 5．logistic 回归参数估计方法。 6．logistic 回归筛选自变量：似然比检验统计量的计算公式；筛选自变量的方法。（二）熟悉内容常用统计软件（SPSS 及SAS ）多元线性回归分析方法：数据准备、操作步骤与结果输出。（三）了解内容标准化偏回归系数的解释意义。二、教学内容精要 (一) 多元线性回归分析的概念将直线回归分析方法加以推广，用回归方程定量地刻画一个应变量Y 与多个自变量X 间的线形依存关系，称为多元线形回归（multiple linear regression ），简称多元回归（multiple regression ）基本形式： 01122?k k Y b b X b X b X =+++???+ 式中Y ?为各自变量取某定值条件下应变量均数的估计值，1X ，2X ，…，k X 为自变量，k 为自变量个数，0b 为回归方程常数项，也称为截距，其意义同直线回归，1b ，2b ，…, k b 称为偏回归系数（partial regression coefficient ），j b 表示在除j X 以外的自变量固定条件下，j X 每改变一个单位后Y 的平均改变量。 (二) 多元线性回归的分析步骤 Y ?是与一组自变量1X ，2X ，…，k X 相对应的变量Y 的平均估计值。多元回归方程中的回归系数1b ，2b ，…, k b 可用最小二乘法求得，也就是求出能使估计值Y ?和实际观察值Y 的残差平方和22)?(∑∑-=Y Y e i 为最小值的一组回归系数1b ，2b ，…, k b 值。根据以上要求，用数学方法可以得出求回归系数1b ，2b ，…, k b 的下列正规方程组（normal equation ）：

如何用SPSS做logistic回归分析解读

如何用spss17.0进行二元和多元logistic回归分析一、二元logistic回归分析二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量，如：死亡或者生存，男性或者女性，有或无，Yes或No，是或否的情况。下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。（一）数据准备和SPSS选项设置第一步，原始数据的转化：如图1-1所示，其中脑梗塞可以分为ICAS、ECAS和NCAS三种，但现在我们仅考虑性别和年龄与ICAS的关系，因此将分组数据ICAS、ECAS和NCAS转化为1、0分类，是ICAS赋值为1，否赋值为0。年龄为数值变量，可直接输入到spss中，而性别需要转化为（1、0）分类变量输入到spss当中，假设男性为1，女性为0，但在后续分析中系统会将1，0置换（下面还会介绍），因此为方便期间我们这里先将男女赋值置换，即男性为“0”，女性为“1”。图1-1 第二步：打开“二值Logistic 回归分析”对话框：沿着主菜单的“分析（Analyze）→回归（Regression）→二元logistic （Binary Logistic）”的路径（图1-2）打开二值Logistic 回归分析选项框（图1-3）。

如图1-3左侧对话框中有许多变量，但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压，有无糖尿病等（P<0.05），因此我们这里选择以性别和年龄为例进行分析。

在图1-3中，因为我们要分析性别和年龄与ICAS的相关程度，因此将ICAS选入因变量（Dependent）中，而将性别和年龄选入协变量（Covariates）框中，在协变量下方的“方法（Method）”一栏中，共有七个选项。采用第一种方法，即系统默认的强迫回归方法（进入“Enter”）。接下来我们将对分类（Categorical），保存（Save），选项（Options）按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中，因为性别为二分类变量，因此将其选入分类协变量中，参考类别为在分析中是以最小数值“0（第一个）”作为参考，还是将最大数值“1（最后一个）”作为参考，这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项，其中“exp(B)的CI(X)”一定要勾选，这个就是输出的OR和CI值，后面的95%为系统默认，不需要更改。

多项分类Logistic回归分析的功能与意义 (1)

多项分类Logistic回归分析的功能与意义我们经常会遇到因变量有多个取值而且无大小顺序的情况，比如职业、婚姻情况等等，这时一般的线性回归分析无法准确地刻画变量之间的因果关系，需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。例子：下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度（由轻到重共3级）与年龄、性别（1代表男性，2代表女性）之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例，研究银行客户贷款是否违约（拖欠）的问题，数据如下所示：上面的数据是大约700个申请贷款的客户，我们需要进行随机抽样，来进行二元Logistic 回归分析，上图中的“0”表示没有拖欠贷款，“1”表示拖欠贷款，接下来，步骤如下： 1：设置随机抽样的随机种子，如下图所示：选择“设置起点”选择“固定值”即可，本人感觉200万的容量已经足够了，就采用的默认值，点击确定，返回原界面、

2：进行“转换”—计算变量“生成一个变量（validate)，进入如下界面：在数字表达式中，输入公式：rv.bernoulli（0.7），这个表达式的意思为：返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功，那么就为1，失败的话，就为"0" 为了保持数据分析的有效性，对于样本中“违约”变量取缺失值的部分，validate变量也取缺失值，所以，需要设置一个“选择条件” 点击“如果”按钮，进入如下界面：

[整理]二分类与多分类Logistic回归模型.

二分类Logistic 回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料，那么，能否用类似于线性回归的模型来对这种资料进行分析呢？答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的Logistic 回归模型。第一节模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料，如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析，相信大家并不陌生，当要考察的影响因素较少，且也为分类变量时，分析者常用列联表(contingency Table)的形式对这种资料进行整理，并使用2 χ检验来进行分析，汉存在分类的混杂因素时，还可应用Mantel-Haenszel 2 χ检验进行统计学检验，这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性，首先，它虽然可以控制若干个因素的作用，但无法描述其作用大小及方向，更不能考察各因素间是否存在交互任用；其次，该方法对样本含量的要求较大，当控制的分层因素较多时，单元格被划分的越来越细，列联表的格子中频数可能很小甚至为0，将导致检验结果的不可靠。最后， 2χ检验无法对连续性自变量的影响进行分析，而这将大大限制其应用范围，无疑是其致使的缺陷。那么，能否建立类似于线性回归的模型，对这种数据加以分析？以最简单的二分类因变量为例来加以探讨，为了讨论方便，常定义出现阳性结果时反应变量取值为1，反之则取值为0 。例如当领导层有女性职员、下雨、痊愈时反应变量1y =，而没有女性职员、未下雨、未痊愈时反应变量0y =。记出现阳性结果的频率为反应变量(1)P y =。首先，回顾一下标准的线性回归模型： 11m m Y x x αββ=+++ 如果对分类变量直接拟合，则实质上拟合的是发生概率，参照前面线性回归方程，很自然地会想到是否可以建立下面形式的回归模型： 11m m P x x αββ=+++ 显然，该模型可以描述当各自变量变化时，因变量的发生概率会怎样变化，可以满足分析的基本要求。实际上，统计学家们最早也在朝这一方向努力，并考虑到最小二乘法拟合时遇到的各种问题，对计算方法进行了改进，最终提出了加权最小二乘法来对该模型进行拟合，至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计，为什么现在又放弃了这种做法呢？原因在于有以下两个问题是这种分析思路所无法解决的：（1）取值区间：上述模型右侧的取值范围，或者说应用上述模型进行预报的范围为整个实数集(,)-∞+∞，而模型的左边的取值范围为01P ≤≤，二者并不相符。模型本身不能

如何用spss17.0进行二元和多元logistic回归分析

如何用spss17.0进行二元和多元logistic 回归分析一、二元logistic 回归分析二元logistic 回归分析的前提为因变量是可以转化为0、1的二分变量，如：死亡或者生存，男性或者女性，有或无，Yes 或No ，是或否的情况。下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic 回归分析。（一）数据准备和SPSS 选项设置第一步，原始数据的转化：如图1-1所示，其中脑梗塞可以分为ICAS 、ECAS 和NCAS 三种，但现在我们仅考虑性别和年龄与ICAS 的关系，因此将分组数据ICAS 、ECAS 和NCAS 转化为1、0分类，是ICAS 赋值为1，否赋值为0。年龄为数值变量，可直接输入到spss 中，而性别需要转化为（1、0）分类变量输入到spss 当中，假设男性为1，女性为0，但在后续分析中系统会将1，0置换（下面还会介绍），因此为方便期间我们这里先将男女赋值置换，即男性为“0”，女性为“1”。第二步：打开“二值Logistic 回归分析”对话框：沿着主菜单的“分析（Analyze ）→回归（Regression ）→二元logistic （Binary Logistic ）”的路径（图1-2）打开二值Logistic 回归分析选项框（图1-3）。如图1-3左侧对话框中有许多变量，但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压，有无糖尿病等（P<0.05），因此我们这里选择以性别和年龄为例进行分析。图 1-1

在图1-3中，因为我们要分析性别和年龄与ICAS 的相关程度，因此将ICAS 选入因变量（Dependent ）中，而将性别和年龄选入协变量（Covariates ）框中，在协变量下方的“方法（Method ）”一栏中，共有七个选项。采用第一种方法，即系统默认的强迫回归方法（进入“Enter ”）。接下来我们将对分类（Categorical ），保存（Save ），选项（Options ）按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中，因为性别为二分类变量，因此将其选入分类协变量中，参考类别为在分析中是以最小数值“0（第一个）”作为参考，还是将最大数值“1（最后一个）”作为参考，这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项，其中“exp(B)的CI(X)”一定要勾选，这个就是输出的OR 和CI 值，后面的95%为系统默认，不需要更改。图 1-2 图1-3