是有的,而且不只一种。最常用的曲线是 logistic曲线,此外还有一种被经常使 用的是对正态分布曲线进行积分的概率曲线。当然还有一些其他类似的曲线,但 是由于使用起来不太方便,它们的应用就不太普遍。在本章中,我们主要介绍应 用 logistic曲线进行的问归分析。由于其在实际求解时有很多优越性,所以 logis- tic回归的应用最为普遍。 1. logistic I函数及其性质 logistic函数(罗吉斯蒂函数)又称增长函数。此函数曾于1838年由比利时 学者维尔玉斯特(PF. Verhulst)第一次提出,后湮没失传。1920年,美国学者 珀尔和利德( Robert b. Pearl and Lowell J.Reed)在研究果蝇的繁殖中,重新发 现这个函数,并开始在人口估计和预测中推广应用,并引起广泛注意。① logistic函数的原型为②: P=(.-(a+ bt) 其中,t为时间,P为时间t上的人口数,L为P的最大极限值,a和b分 别是有关参数。作为人口预测函数,P永远取正值(>0)。根据我们非线性概率 模型的要求,需将P换成概率p=p(y=1),还要将上限L改为1。于是,概 率的值域就被限制在(0,1)之间的合理范围内。上限p=1和下限p=0都是 水平渐近线,实际上无论参数和自变量值如何变化,函数值都不会达到上限点或 下限点。此外,由于我们未必一定要用时间作为自变量,因此我们将t改为x以 泛指任意一个自变量,其值域也没有任何限制。于是,就得到了 logistic概率函 数。下面我们通过几个 logistic函数的曲线(图6-1-1、6-1-2、6-1-3 6-1-4),来熟悉一下这一函数的性质和有关参数的作用。 logistic的概率函数定义为: 1+exp[ -(a+bx) 它也可以改写成如下形式 1+ expl b(-a/b (2 C Henry S Shryock, Jacob S Siegel and Associates(1976) The Methods and Material of Demography. Academic press:215-216.刘铮主编:《人口学辞典》,1版,239~241页,北 京,人民出版社,1986 ②下面式中exp[u]表示自然对数底的指数函数,即e。下同
这样一来,式(2)就突出了两个有用的参数。第一个是b,第二个是 a/b。从图61中几个不同的 logistic曲线的比较可以看出 第一,当b是正数时, logistic函数随x值的增加而单调增加(图6-1 和图6-1-4);当b是负数时, logistic函数随x值的增加而单调减小(图6 1—1和图6-1-3)。因此b反映了自变量x与概率函数之间的对应关系。类似 于在多元线性回归分析中通过回归系数的符号来判断自变量的作用方向,在lo gistIc概率函数中b也表示自变量的作用方向 第二,一a/b实际上是曲线的中心,在这一点上概率函数整好取值0.5,达 到概率函数值区间的一半。函数以拐点(-ab,0.5)为中心对称,在这一点 上曲线的变化率最大,而距离这一点越远,曲线的变化率越小,在趋近函数的上 限或下限时,曲线的变化率接近于零。 第三,当b的绝对值越大,曲线在中段上升或下降的速度越快。这意味着主 要变化部分被压缩在x轴上对应拐点的附近范围里。比如图61-1与图6 1-3中x轴的标度相同,两条曲线的拐点也相同,但是图6-1-3中参数b的绝 对值比图6-1-2中参数b的绝对值大(0.2:0.1),于是主要的变化部分显然拥 挤得多。而图6-1-4中b的绝对值小于图61-2中b的绝对值(0.02:0.1),于 是整个曲线的主要变化在x轴上中心点周围很大的的范围中缓慢完成,曲线拉得很 开(请注意图6-1-4中x轴的标度与图61-2不同图示区间要大得多 但是,注意在 logistic概率函数中b的解释与线性回归中回归系数的解释有 很大的不同。由于是非线性函数,曲线上各点的斜率是变化的。 a=10.b=-0.,-a/b=100 1.0 P=1/〔l+exp(-) 0.5 0.2 5060708090100110120130140150
/b=50 p=1/〔1 0.3 0.2 0.0 0120130140150 图6-1-2 0,b=-0.2,-a/b=100 0.6 0 1/〔+exp(-x) 708090100110120130140150 图6-1-3 以上我们在 logistic概率函数中只引入了一个自变量,其实我们完全可以引 入多个自变量以完成多元分析。 为了取得一般化,我们将多元线性组合a+b1x1+b2x2+…+bxk以∑bx 表示,其中常数项a用b表示,x0恒等于1。然后为了推导的进一步简明,再 令z=∑bx1。于是, logistic概率函数可以表示为
a=-10,b=0.02,-a/b=500 0.5 p=l/〔l+exp(-z) 03 .2 300340380420460500540580620660700 图6-1-4 图6-1 logistic概率函数曲线及各参数的性质 如果将上式中右侧一项的分子和分母同乘一个exp(z),有 p exp 这也是 logistic概率函数的一个常用表达式之一。 2. logistic回归模型因变量的不同形式 为了在上述 logistic概率函数基础上将回归方程的自变量线性组合部分Z= ∑b,x;单独挪到等式的一边,使等式可以表达为自变量的线性形式,进行以下 系列转换 p[ p+ p* exp(z)=exp (z) p=exp(z)-p* exp (z) p=(1-p) exp(z) ex p ∑bx;) (4) 最后对等式两边取对数,得到了概率的函数与自变量之间的线性表达式
∑b 其实这就是说,事件概率以自变量的非线性表达可以转换为事件概率的函数 用自变量来线性表达。在上述线性表达式中,我们对于有关事件概率的各种函数 作以下命名和定义。 事件发生的概率-p=p(y=1) 事件不发生的概率=1-p=1-p(y=1)=p(y=0) 发生比(ods) 上式中的发生比,又称为相对风险( relative risk),它是事件发生的概率与 不发生的概率之比。根据式(4),发生比与自变量之间的关系为 2=exp(x)=exp(∑b;x;) (6) 还要定义 对数发生比( log odds)=ln 对数发生比实际上也是事件发生概率p的一个特定函数,当我们需要分析 这个特定函数分别与Ω和p的直接联系时,我们又将这个特定函数称为p的岁 吉特变换,并标志为 logit p=InQ=In [,p (8) p 所谓lgit,意思是“罗吉斯蒂概率单位”,即英文 logistic probability unit存 头取尾的缩写, logit p可以称为“p的罗吉斯蒂概率单位”或简称为“罗吉特 p"。并且,任意一个变量q的转换函数ln都称为 logit q 这个 logit p一方面表达出它是事件发生概率p的一种转换单位,由式(8) 表达;另一方面它作为回归的因变量就可以使自己与自变量之间的依存关系保持 传统回归中的模式。将式(8)与式(5)组合起来,我们有 logit p=∑b (9) 以上证明了,我们可以以 logistic函数形式p=1/[+exp(-∑bx,)],先 根据实际观测案例的事件发生情况及其各自变量的观测值求解各偏回归系数b, 再利用 logistic函数的已知数学性质对于 logistic回归的参数估计进行统计推断。 D前面曾提到正态分布的累积概率曲线也是一种较为常用的非线性概率函数,它被称为 probit模型。 probit即代表“概率单位"( probablity unit),SPSs软件也可以进行pbt回归分析