第二十章Logistic回归分析 第13章介绍的多重线性回归研究一个正态随机因变量Y与一组自变量X=(X, X2,X。)的数量关系。其应用的前提条件是:Y与X呈线性关系:各个体观测资料 彼此独立:各X处的Y呈正态分布:不同X处Y的方差相等。医学中还常研究二分类因变 量(如患病与未患病、阳性与阴性等)或多分类因变量Y与一组自变量(X,X2,X,) 的关系,线性回归分析方法就无能为力。logistic回归分析则是处理该类资料的有效方法。 本章将主要介绍二分类因变量的og空tc回归分析,对于多分类因变量的logistic回归分析 方法,请参考有关专著。 第一节ogtc回归模型 一、logistic回归模型 例20-1为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。 体质指数BM≥25判为“超重或肥胖”,BM<25为“正常”;收缩压≥140mmg 和(或)舒张压≥90mmg判为“高血压”。整理后资料见表20-1。记样本患病率为P,是 相应总体概率π的估计值:自变量X为体质指数,赋值为1与0,X=1表示“超重或肥胖”, X=0表示“正常”:因变量Y为是否患病,Y=1表示“患病”,Y=0表示“未患病”。 表20-1不同体质指数组高血压患病* 体质指数(X)调查人数患病(Y=1)未患病(Y-0)患病率(%) 正常 (X-0)6792 1331 5461 19.60 超重或肥胖(X-1)4148 1656 2492 39.92 合计 109402987 7953 27.30 该研究旨在建立高血压志病率与体质指数间的数量关系模型,估计超重与肥胖对高血压 患病的风险。由于因变量Y为二分类变量,不满足线性回归分析条件,首先对π进行数据
第二十章 Logistic 回归分析 第 13 章介绍的多重线性回归研究一个正态随机因变量 Y 与一组自变量 X =( X1 , X2 ,..., X p )的数量关系。其应用的前提条件是: Y 与 X 呈线性关系;各个体观测资料 彼此独立;各 X 处的 Y 呈正态分布;不同 X 处 Y 的方差相等。医学中还常研究二分类因变 量(如患病与未患病、阳性与阴性等)或多分类因变量 Y 与一组自变量( X1,X2 ,...,X p ) 的关系,线性回归分析方法就无能为力。 logistic 回归分析则是处理该类资料的有效方法。 本章将主要介绍二分类因变量的 logistic 回归分析,对于多分类因变量的 logistic 回归分析 方法,请参考有关专著。 第一节 logistic 回归模型 一、 logistic 回归模型 例20-1 为探讨超重和肥胖对高血压病的影响,2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进行高血压普查,同时收集了身高、体重等相关信息。 体质指数 BMI 25 判为“超重或肥胖”, BMI 25 为“正常”;收缩压≥140 mmHg 和(或)舒张压≥90 mmHg 判为“高血压”。整理后资料见表20-1。记样本患病率为 P ,是 相应总体概率 的估计值;自变量 X 为体质指数,赋值为1与0,X = 1 表示“超重或肥胖”, X = 0 表示“正常” ;因变量 Y 为是否患病, Y = 1 表示“患病”,Y = 0 表示“未患病”。 表20-1 不同体质指数组高血压患病率 体质指数( X ) 调查人数 患病( Y =1) 未患病( Y =0) 患病率(%) 正常 ( X =0) 6792 1331 5461 19.60 超重或肥胖( X =1) 4148 1656 2492 39.92 合计 10940 2987 7953 27.30 该研究旨在建立高血压患病率与体质指数间的数量关系模型,估计超重与肥胖对高血压 患病的风险。由于因变量 Y 为二分类变量,不满足线性回归分析条件,首先对 进行数据
变换: g)-N子2Na 这个变换将取值在0-1间的π值转换为值域在(-0,+0)的og1(π)值。 现在,建立ogi(π)与X的线性模型。 logi(π)=B。+Bx (20-1a) 或 nOdd)=B。+x (20-1b) 或 (20-1c) 变换式(201c),得 e4m π (20-2) e(B+m) 求解π,得 π=1+e (20-3) =1+e讽*西 (20-4) 因为(20-3)和(20-4)式的右端在数学上属于0g5tic函数,所以式(20-1a)、(20-1b) (20-3)与(204)均称为单个自变量的0g5stic回归模型。 若自变量扩展到P个,X=(X1,X2,X。),则多个自变量的logs回归模 型为 log(π)=B。+月X1+.+BX。 (20-5a) 或 M(Ods)=B。+BX1+.+p,Xp (20-5b) 会)=A+BX++B,X, (20-5c) e+++BeXp) π= 1+e%+6++mxp) 20.5d 1 π=1+eA+A++可 (20-5e)
变换: ) ln( ) 1 log it( ) ln( = Odds − = 这个变换将取值在 0-1 间的 值转换为值域在(- ,+ )的 log it( ) 值。 现在,建立 log it( ) 与 X 的线性模型。 log it() = 0 + X (20-1a) 或 ln(Odds) = 0 + X (20-1b) 或 X = + − 0 ) 1 ln( (20-1c) 变换式(20-1 c),得 ( ) 0 1 X e + = − (20-2) 求解 ,得 ( ) ( ) 0 0 1 X X e e + + + = (20-3) 或 ( ) 0 1 1 X e − + + = (20-4) 因为(20-3)和(20-4)式的右端在数学上属于 logistic 函数,所以式(20-1a)、(20-1 b)、 (20-3)与(20-4)均称为单个自变量的 logistic 回归模型。 若自变量扩展到 P 个, X = ( X1, X2 ,..., X p ),则多个自变量的 logistic 回归模 型为 X p X p log it( ) = 0 + 1 1 ++ (20-5 a) 或 Odds = 0 + 1X1 ++ p X p ln( ) (20-5 b) 或 X p X p = + + + − ) 0 1 1 1 ln( (20-5c) 或 ( ) ( ) 0 1 1 0 1 1 1 P P P P X X X X e e + + + + + + + = (20-5d) 或 ( ) 0 1 1 1 1 X P XP e − + + + + = (20-5e)
其中,B。为常数项(截距),B、B2、···B。为回归系数。 二、模型参数的意义 类似线性回归,B。表示模型中所有自变量均为0时,og(π)的值:回归系数B,表示 在控制其他自变量时,自变量X,变化一个单位所引起og(π)的改变量。 根据模型式(20-1b),我们有优势的表达式 Odds =e) 例20-1中,“超重或肥胖”组(X=1)志高血压的优势为 Odds,=eA+BM=e民+Bm, “正常”组(X=0)患高血压的优势为 Oddso=e)e, 两组的优势比(odds ratio,OR)为 OR=odds oddso ea=em 一般地,根据多个自变量的logistic回归模型,在其他变量取值不变的情形下,与变量 X,的二个水平C,与C2(C2>C,)相对应的事件的优势比为 OR=e(C-G) (20-6) 当X,的二个水平相差1个单位时,OR=e,h(OR,)=B,: 可见,0gtc回归模型的参数B,就是在其他变量取值不变的情形下,X,增加1个单 位后与增加前相比较,事件的优势比。 1g5c回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及 现况研究。研究中,当变量X,的回归系数B,>0时,X,增加1个单位后与增加前相比, 事件的优势比OR,>1,表明与X,相应的因素为危险因素:B<0时,X,增加1个单位 后与增加前相比,事件的优势比OR,<1,表明与X,相应的因素为保护因素:B,=0,X, 增加1个单位后与增加前相比,事件的优势比OR,=1,表明与X,相应的因素对结果变量
其中, 0 为常数项(截距), 1、 2、... P 为回归系数。 二、模型参数的意义 类似线性回归, 0 表示模型中所有自变量均为0时, log it( ) 的值;回归系数 j 表示 在控制其他自变量时,自变量 X j 变化一个单位所引起 log it( ) 的改变量。 根据模型式(20-1b),我们有优势的表达式 ( ) 0 X Odds e + = 例 20-1 中, “超重或肥胖”组( X = 1 )患高血压的优势为 ( 1) ( ) 1 0+ 0+ Odds = e = e , “正常”组( X = 0 )患高血压的优势为 0 0 ( 0) 0 Odds = e = e + , 两组的优势比(odds ratio, OR) 为 e e e odds odds OR = = = + 0 0 ( ) 0 1 一般地,根据多个自变量的 logistic 回归模型,在其他变量取值不变的情形下,与变量 X j 的二个水平 C1 与 C2 ( C2 C1 )相对应的事件的优势比为 ( ) j C2 C1 OR e − = (20-6) 当 X j 的二个水平相差 1 个单位时, j OR e j = ,ln( ) OR j = j 。 可见, logistic 回归模型的参数 j 就是在其他变量取值不变的情形下,X j 增加 1 个单 位后与增加前相比较,事件的优势比。 logistic 回归分析广泛用于流行病学中前瞻性的队列研究、回顾性的病例-对照研究以及 现况研究。研究中,当变量 X j 的回归系数 j 0 时, X j 增加 1 个单位后与增加前相比, 事件的优势比 OR j 1,表明与 X j 相应的因素为危险因素; j 0 时, X j 增加 1 个单位 后与增加前相比,事件的优势比 OR j 1,表明与 X j 相应的因素为保护因素; j = 0 ,X j 增加 1 个单位后与增加前相比,事件的优势比 OR j = 1,表明与 X j 相应的因素对结果变量
不起作用。 第二节logistic回归的参数估计及假设检验 一、1 ogistic回归的参数估计 logs心回归模型中的参数R。、B,、B2、···Bp需要通过样本资料,按照一定方 法进行估计,估计量记为,、b、b,、···b。·参数估计方法有多种,极大似然估计 (Maximum likelihood estimate,MLE)最为常用,其基本思想是选择能有最大概率 获得当前样木的参数值作为参数的估计值。 假设n例观察对象彼此独立,其自变量为X=(X,X;,X),因变量为Y(0-1 变量),i=1,2,n。对于第i个体,给定X时,出现观察结果y(0或1)的概率为: 1 1 PK)=+ea'L- +e*时*4] 若y,=1,这个概率就是第一个方括号:若Y=0,这个概率就是第二个方括号。 对于n个独立个体,给定自变量X时,出现当前观察结果Y,(1=1,2,n)的概率 为上述n个概率的乘积 PX,2,yX,X2,.X")=Π 1 1 +e**5]- +e4] 称为似然函数(ikehood function),记为L。求解B,B,B,P。,使似然函数L达到极 大,或使似然函数的对数nL达到极大,这样得到的解记为b,b,b2,.,b。,称为参数 B,B,B2,.,B。的极大似然估计值。 二、假设检验和回归系数的区间估计 1.假设检验 由样本估计参数,并建立了logistic回归方程后,参数的估计值b,≠0(广=1,2.p)
不起作用。 第二节 logistic 回归的参数估计及假设检验 一、 logistic 回归的参数估计 logistic 回归模型中的参数 0 、 1、 2、... P 需要通过样本资料,按照一定方 法进行估计,估计量记为 0 b 、 1 b 、 2 b 、... p b 。参数估计方法有多种,极大似然估计 ( Maximum likelihood estimate, MLE )最为常用,其基本思想是选择能有最大概率 获得当前样本的参数值作为参数的估计值。 假设 n 例观察对象彼此独立,其自变量为 = i X ( i X1 , i X 2 ,..., i X p ),因变量为 Yi (0-1 变量),i =1,2, ,n 。对于第 i 个体,给定 i X 时,出现观察结果 Yi (0或1)的概率为: i i P p i i i P p i Y X X Y X X i i e e P Y X − − + + + − + + + + − + = 1 ( ) ( ) ] 1 1 ] [1 1 1 ( ) [ 0 1 1 0 1 1 , 若 Yi =1 ,这个概率就是第一个方括号;若 Yi = 0 ,这个概率就是第二个方括号。 对于 n 个独立个体,给定自变量 i X 时,出现当前观察结果 Yi ( i =1,2, ,n )的概率 为上述 n 个概率的乘积 = − − + + + − + + + + − + = n i Y X X Y X X n n i i P p i i i P p i e e P Y Y Y X X X 1 1 ( ) ( ) 1 2 1 2 ] 1 1 ] [1 1 1 ( , , , , , ) [ 0 1 1 0 1 1 称为似然函数(likelihood function),记为 L 。求解 p , , , , 0 1 2 ,使似然函数 L 达到极 大,或使似然函数的对数 ln L 达到极大,这样得到的解记为 b b b bp , , , , 0 1 2 ,称为参数 p , , , , 0 1 2 的极大似然估计值。 二、假设检验和回归系数的区间估计 1. 假设检验 由样本估计参数,并建立了 logistic 回归方程后,参数的估计值 bj 0 ( j =1,2 . p )
并不一定意味者参数阝,≠0,也不一定意味着回归方程就成立,还需通过假设检验才能 作出推断。 与l0g5sc回归分析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量 与自变量之间的关系能否用所建立的回归方程来表示:二是检验单个回归系数是否为0,即 检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和Wld检验。 (I)似然比检验(ikelihood ratio test) 似然比检验常用于对整个模型的检验,检验的假设为 H。:所有自变量的总体回归系数均为0 H,:自变量的总体回归系数不全为0 假设模型A含有p个自变量,相应的达到极大的对数似然函数值记为山L。:模型B是 在模型A的P个自变量基础上新加入一个或几个自变量,自变量个数变为I,其相应的达到 极大的对数似然函数值记为山L·通过比较模型A与模型B的极大似然函数值,构建似然 比检验统计量G, G=2(In L-In Lo) (20-7) 如果说,极大对数似然函数值nL。和nL分别度量p个自变量和I个自变量模型“似然” 的程度,那么,统计量G度量的则是增加1-P个自变量后,模型“似然”程度的增量。 可以证明,在H。成立的条件下,如果样本量较大,G近似地服从自由度为1-P的x2分 布,(20-7)亦常记为x2-2nL1-nL)。 (2)Wald检验(Wald test) Wald检验可用于对单个回归系数的检验,检验的假设为 Ho:B,=0 H1:B,≠0 Wald检验统计量为
并不一定意味着参数 j 0 ,也不一定意味着回归方程就成立,还需通过假设检验才能 作出推断。 与 logistic 回归分析有关的假设检验包括两个内容:一是检验整个模型,即检验因变量 与自变量之间的关系能否用所建立的回归方程来表示;二是检验单个回归系数是否为 0,即 检验单个自变量对因变量的影响是否存在。最常用的检验方法有似然比检验和 Wald 检验。 (1)似然比检验( likelihood ratio test ) 似然比检验常用于对整个模型的检验,检验的假设为 H0 :所有自变量的总体回归系数均为 0 H1 :自变量的总体回归系数不全为 0 假设模型 A 含有 p 个自变量,相应的达到极大的对数似然函数值记为 0 ln L ;模型 B 是 在模型 A 的 p 个自变量基础上新加入一个或几个自变量,自变量个数变为 l ,其相应的达到 极大的对数似然函数值记为 1 ln L 。通过比较模型 A 与模型 B 的极大似然函数值,构建似然 比检验统计量 G , 2(ln ln ) G = L1 − L0 (20-7) 如果说,极大对数似然函数值 0 lnL 和 1 ln L 分别度量 p 个自变量和 l 个自变量模型“似然” 的程度,那么,统计量 G 度量的则是增加 l − p 个自变量后,模型“似然”程度的增量。 可以证明,在 H0 成立的条件下,如果样本量较大, G 近似地服从自由度为 l − p 的 2 分 布,(20-7)亦常记为 2(ln ln ) 1 0 2 = L − L 。 (2) Wald 检验( Wald test ) Wald 检验可用于对单个回归系数的检验,检验的假设为 H0 : j = 0 H1: j 0 Wald 检验统计量为