删截。① 关于右删截就介绍这些,下面我们讨论左删截。左删截的一个典型例子是关 于艾滋病的研究。我们假设一个研究项目要研究艾滋病人的死亡时间,然而一些 艾滋病人在研究开始以前就死亡了,我们只知道他们已经死亡了,但并不知道他 们什么时候死亡的。这就是左删截的一种情况。又比如在一个关于新婚妇女生育 率的研究中,我们知道某个妇女在研究开始以前就生了孩子,但又不知道具体是 什么时候生的。另外,还有可能发生部分左删截观察( partially left censored ob servation)的问题。比方说,在对新婚妇女怀孕情况的研究中,我们得知一个妇 女在研究阶段中怀了孕,但不知道她什么时候结的婚(即风险期开始时点)。这 就是说,我们知道一个案例有事件发生但不知道这个案例从什么时候开始经历此 事件(怀孕)的风险。这种情况也被称为“未知开端的间隔( uninitialized inter val)”g 另一个问题是如何把握各种不同类型的删截情况。读者现在应该了解删截的 复杂性了。但是从实际研究的角度来看,我们在社会科学分析中最经常遇到的是 右删截,并且大多数还是第一类右删截,这些情况可以很容易地采用统计估计来 解决。例如,考虑到右删截经常意味着在统计估计(最大似然估计或部分似然估 计)中,我们需要弄清删截的观察案例对于似然函数有什么作用。这通常在右删 截的情况下能徹到。但是,在左删截发生的情况下,我们通常需要制定某些假设 条件。处理左删截的大多数方法都有一些局限性,并且常常不是理想的解决方 法。有时,没有一个好软件能完成估计,所以研究人员还得自己编写估计程序。 对于初学者来说,了解右删截就可以解决大多数社会科学的实际问题了。特别是 当读者能够学会像SPSS、SAS和 STATA这样的流行于社会科学研究的计算机 软件中的一种时,所要做的就是在模型中定义在哪些变量上用哪些数值表示删截 案例。 4.一些统计关系 为了对不同风险模型的统计讨论作准备,我们先要以统计形式介绍一些重要 函数,并揭示它们之间的关系。这些函数包括:风险函数( hazard function)、生 D JA Allison, Paul. not dated(n d). Lecture Notes on Event History Analysis. Deparment of Sociology, University of Pe )tJE Allison, Paul. not dated(n d). Lecture Notes on Event History Analysis. Deparment of Sociology, University of pennsylvania 390
存函数( survival function)、概率密度函数( probability density function)、分布函 数( distribution function)。了解并熟悉这些函数可以帮助我们理解本章介绍的事 件史分析,并有利于将来更深入的学习。 具有概率论基础知识的大部分读者熟悉密度函数(用f(t)表示)和分布函数 (用F(t)表示)。我们将f(t)解释为在时点t上的概率密度,将F(t)解释为在时 点t之前事件发生的概率。我们现在介绍风险函数和生存函数。 T是用来表示事件发生时间的随机变量。然后我们定义 P(t,s)=Pr(t<T<sT≥t) 为当事件尚未发生时其将于时点t和时点s之间发生的概率 风险函数(或风险率)定义为,当s趋近于t时P(t,s)/(s-t)的商的极 限,即 h(t)=lim P(t, s 生存函数S(t)定义为事件发生于时点t以后的概率。 我们可以从数学上说明这四个概念——即风险函数、生存函数、概率密度函 数和分布函数(又称累积分布函数,即 cumulative distribution function)是等价 的 这就是说,要是我们知道这四个函数中的一个,就可以推导出其他所有函 数。然而所有的事件史分析的统计模型都倾向于使用风险函数h(t)而不用其他 的函数,这是因为其使用上的方便和易于解释。一旦我们开始介绍各种统计模 型,读者就会明白这一点。 下面几个公式十分有用。根据概率论,我们有: F(t)=Pr(Tst)= f(y)dy=[f(y)dy 注意,在事件史分析模型中,随机变量T只能取非负值。此外,如果 F(t)可求导,那么F(t)的一阶导数就等于f(t)。而且根据定义我们有: S(t)=1-F(t),h(t) f(t)f(t) 按照概率论,后一个公式就是一个事件在时间t之前不发生而在时间t发生 的条件概率。其他公式的解释不太明显,但它们都可以进行数学推导 f(t)=h(t)exp,-fh(y)dy], F(t)=1-exp[-n(y)dy 让我们用一个简单的例子来熟悉一下上面的有关公式。假设随机变量T有 指数分布,我们就可以知道 391
其中b是一常数。那么,累积分布函数F(t)为 F(t)=If(y)dy=expl 由此,我们还能推导S(t): S(t)=1-F(t)=exp\、b 最后,我们还可以推导出风险函数h(t): f(o b b 通过推导我们得以知道,指数分布的风险函数在所有时间t上是一个常数。 后面,我们还会涉及这种分布。 5.估计生存函数的 Kaplan-Meyer方法 在操作分析时,最好先检查一下根据实际数据计算的分布形态,然后再决定 拟合哪种理论分布类型。要是我们的目的是为数据寻找一种模型,事先检查生存 分布及其图形可以给我们一些选择分布模型的根据。 Kaplan-Meyer方法经常被用来估计并画出估计的生存函数。这是一种非参 数方法,就是说它用不着对理论分布作出任何假设。用t1<12<…<tn代表n 个案例的生存时间,然后用 Kaplan-meyer法对其生存函数s(t)的估计如下 s(t)=∏ r≤tn1-r+1 其中r从所有正整数中取那些t≤t的且t,为无删截的。当所有观察都无删 截,r的值就是连续的整数列,否则r的取值就不是连续的。 用一个简单例子①来说明如何应用这一方法。我们有10名肿瘤患者的康复 情况的资料。有6名患者在不同时间上(分别为3、6.5、6.5、10、12、15个 月)旧病复发;1名患者在8.4个月以后失去了联系;还有3名患者在研究结束 时仍处于康复之中(其康复期已经分别为4、5.7和10个月)。用 Kaplan-Meyer 方法估计生存函数的方法如下面计算表(表12-1)所示。 ①参见Mlr,R.G.1981. Survival Analysis. New York, Wiley 392
下面介绍以SPSs软件取得生存函数的 Kaplan- Meyer估计的操作步骤。实际 上,这个关于康复期的例子中,有两个变量。第一个便是每个案例的康复期,可 以定义其变量名为 REMISSN。另一个变量是标志案例康复期是否有删截,给定 变量名为 EVENT。疾病复发是要研究的事件,于是尚在康复期中的案例和失去 联系的案例都属于删截案例,即计算表中打上“+”号的案例应赋值0,表示事 件没有发生,而没有 号的案例应赋值1,表示疾病复发的。 表12-1 Kaplan-Meyer生存函数估计计算表 康复期序号 r(n-r)/(n-r+1) 生存比例 9/10 9/10=.900 4+ 6/7 (910)×(67)=.771 6.5 (9/10)×(67)x(5/6)=.643 8.4 6 3/4 (9/10)×(67)×(5/6)×(3/4)=.482 10.0 12.0 1/2 (9/10)×(67)×(56)×(34)×(1/2)=,241 0 0 表中康复期数据中注“+”号者为删截的观察案例 采用0.643作为保守性的估计 主:夲书所附磁盘提供这套数据的 SPSS系统数据文件,文件名为T121.SMV 在读入数据之后,激活“ Statistics”并选择¨ Survival'”。在“ Surviva!”功能 部分,再继续选择“ Kaplan- Mever"',然后我们必须做两项设定:“Time”(时间) 和¨ Status¨(状况)。时间指至事仵发生时的持续期间、或至删截时的期间.对 于上例来说,时间即定义为康复期 REMISSN。状况是关于删截案例的另一种表 达形式。虚拟变量F\ENT标志是否旧病复发,将变量 EVENT用光标拉至 Status”方框之下,并点击 Define event键打开对话窗口,在 Single value-栏 中指定事件发生(即未删截)的编码为1。输出生存表和生存时间平均值、中位 数是SPSS的默认状态,如需要输出生存函数图,还需点击窗口右下角的 Options 键,打开输出选项窗口,并在 Plots一栏选择 Survival然后,点击 Continue返 393
回。现在,进行 Kaplan-Meyer估计的准备就做好了,只要点击“OK”命令,估 计过程就开始了。 SPSS软件的默认状态将产生生存比例表,它能表示在每一时点的生存比例 并能输出平均生存时间和中位生存时间,本例的这两个统计值分别为10.1和 10.0。要是观察案例数很少(如少于100),产生生存比例表就没有问题。但是 如果有大量的观察案例,一般不再计算生存表(将 Options窗口中 Statistics栏目 中的 Survival table一项的“×”取消),只输出 Kaplan-Meyer法估计的生存时 间平均值和生存函数图。因为其生存表的计算相当繁琐,其结果也将长得难以把 握 下面是SPSS输出的本例生存比例计算表(见表12-2)。随后的图12-1是 使用SPSS软件画出的 Kaplan- Meyer法生存函数估计的图形。图中的线即生存曲 线。并请注意,其估计的生存时间中位数大约为10个月。 表12—2 SPSS输出的生存比例计算表 Survival analysis for REMISSN Cumulative Number Ti Status urvival Error Events 3.0 yes 9000 0949 1 5.7 345 6.5 1679 8.4 6789 10,0 4821 1877 9876543210 12,0 yes 2411 1946 15.0 0000 0000 Number of Cases: 10 Censored (40.00%) Events:6 Survival Time Standard Error 95% Confidence Interval Mean 10.1 13.1) Median 10.0 2.6 (5.0,15.0) 394