然后对事件发生概率p进行罗吉特变换以后,就能将lgtp以自变量和回归系 数进行线性表达。 在 logistic回归中,由于我们假设的是事件发生的概率与自变量之间的关系 服从 logistic函数分布。这样一来,就有效地将回归因变量的值域限制在0至1 之间,并随自变量组合值z的变化而连续变化 大体来说,从p到 logit p经历了两步变换过程,我们来分析一下这两步变 换的意义何在 第一步:p转换成』= 用传统回归解释概率模型时,直接用∑bx来近似表示概率p。由于p的值 应该限于0至1之间,而z=∑bx在值域方面却没有这种限制,就产生了矛盾。 解决这一问题的方法是改造p,将其转换成发生比Q。p与之间的函数关系曲 线图(图6-2)表现出:(1)虽然进行了一次非线性转换,但是p与2仍然存在一致 g甲P/(1-p) P 图6-2事件概率与发生比之间的关系 性变化对应关系,即a是p的单调增函数。换句话说就是,p值的任何一点增加 都导致Ω值的增加。当然它们之间并不是正比关系,我们且称之为正向关系。这 种关系十分便利于理解和分析 logistic回归结果。(2)对应p的实际值域,发生比 作为其函数,它的值肯定是正的,但它没有上限。当p接近于1时,比值趋向无 穷。也就是说,我们如果停留在这一步便意味着因变量在正数部分自由取值已无 问題,但负数部分仍然是禁区。因此,还要设法改变负数部分的限制。 187
第二步:将Q转换成ln?。 解决非负的限制可以采用自然对数,对应Ω的正数值域,ln』2的取值可以 是正负无穷之间的任何实数(见图6-3)。并且,这一步转换中,Ω与lna2之间 也保持着正向对应变化关系。 2=p/(1-P) 图6-3发生比与 logit之间的关系 通过上面两步转换,将p改造成 logit p,再将其作为回归因变量来理解就 不再有任何值域方面的限制了。图64表示了p与 logit p之间的数量关系。p 在0至1之间取值时,对应的 logit p值则是从负无穷到正无穷变化,并且两者 之间有正向关系。 logit p 图6-4事件概率与logp之间的关系 188
四、 logistic回归系数的意义 gistic回归系数的理解和阐释可以从下面两个方面来进行 1.以lgtp方程的线性表达式来解释回归系数 方程 logit p=Σbx与一般的多元线性回归方程在形式上相同,是线性表达 式。方程右侧各项自变量的作用体现在回归系数b;上。各自变量的总影响是由 常数项与各项自变量及相应偏回归系数之积的迭加形成的。这种形式使得我们能 够以类似常规多元回归方程的形式来理解和阐释它。 但是应该注意, logistic回归方程的系数b;测量的是自变量x;的变化对连续 变量gitp的作用,而不是对离散的观测变量y的期望值y=p的作用。此外, logit p根本不能直接观察,而且它的测量单位也无法确定。于是 logit p应用了 统计规范来确定其测量标准,以 logistic随机变量的分布函数的标准差1.8138 (即r/3)作为测量单位 在多元线性回归中,回归系数b,测量了自变量x;对因变量估计值的作用 因为是线性模型,b,可以表示x,每一个单位的变化对因变量估计值的影响。但 是在 logistic回归中,尽管 logit p与每个x;之间是线性关系,而我们真正的兴趣 所在p与每个x却不是线性关系,这意味着x;变化对p的作用就不太容易直接 了当地得到确切的解释。比如有一个 logistic回归方程: logit p=a+b11+b2x2+ b3I3 各个自变量x:对 logit p的作用方向可以通过其偏回归系数b,值的正负符号得以 体现。当b为正值,说明x;值增加一个单位的变化可使 logit p值产生变化量为 b;的提高。当b;为负值,x;值增加一个单位的变化会导致 logit p值产生变化量 为b,的降低。 然而,当我们想进一步了解x,一个单位的变化会对事件发生概率有什么作 用吋,就需要从上述 logistic回归方程的转换方程来分析,有 p=11+exp[-(a+b1x1+b2x2+b3x3)] t exp 上式中,当b值越大(就整个数轴而言,包括所有正负数),有z值越大 且exp(-x)越小,且p值越接近1。因为在这个 logistic函数中,1是最大值。 189