杜会学系列教村 第十二章 事件史分析 本章将对事件史分析的基本概念和模型进行非技术性的介绍。具体地说,首 先我们将讨论什么是事件历史分析。然后介绍几种广泛使用的事件历史分析的模 型,特别要着重介绍的是离散时间的kgit模型和Oox比例风险模型( Cox pro portional hazards model)。我们将用1988年中国千分之二生育节育抽样调查的数 据来示范如何使用这两种模型,并在本章后面强调一些应该注意的问题。本章的 附录中提供了使用SPSS软件数据处理和估计的步骤。 什么是事件史分析 近年来,事件史分析方法在社会科学研究领域中越来越流行。使用这种方法 的研究论文发表得越来越多,并且介绍事件史分析技术的社会科学方法的教材也 越来越多,由此大大提高了这种方法的普及程度。首先,事件史分析有很多特点 优于传统的统计分析方法,如OLS方法(常规最小二乘法方法,即 ordinary least uare approach)。其次,社会科学研究人员能够得到越米越多的事件史类型的数 据资料
根据山口( Yamaguchi)的定义①,事件历史分析是研究“事件发生的方式 和相关因素”。社会学家和人口学家研究的许多问题都可以被认为是一些事件 结婚,同居,离婚,出生,死亡,迁移,求职和升迁。事件历史分析的主要目的 是研究某一事件发生的方式和它的决定因素。我们也会经常饶有兴趣地研究不同 事件之间的联系及先后顺序。比如说,一些研究者会对同居与离婚之间的关系进 行研究。由于通常在事件史类型数据中包含着相关事件的明确时间顺序,因此事 件的因果关系就能够被确定地揭示出来。 但是,事件历史分析技术绝不仅仅局限于社会科学。事实上,这些技术早已 在生物医学研究和工程研究中(如检测产品)得到发展和运用,只不过叫法有所 不同而已。在生物医学研究领域(例如一位癌症患者能活多久),人们把它称为 生存分析”。类似地,在工程研究领域(例如研究一个灯泡的寿命,或一个弹簧 在不同压力作用下能够经历多长时间不折断),人们通常用“失败的统计分析 ( statistical failure analysis)这一术语。尽管所用术语不同,但从统计分析的角度 看.其实质是相同的。 1.传统OLS回归模型的局限性 很大程度上讲,事件历史分析在许多方面都优越于人们所熟悉的回归模型。 让我们首先来看一个例子,研究初婚发生的时间。根据传统的回归方法,研究这 一-问题时要估算下列回归模型 初婚年龄=f(教育程度,性别,经济收入,……)+c 这从本质上讲是把初婚年龄作为某些特征如教育程度、性别、经济收人和其他- 些因素的函数。这里“e”代表误差项( errors),通常被假定为正态分布 其实这种模型有许多问题。第一个问题是,那些尚未结婚的人不能被纳入这 模型,因此这部分人的信息就被浪费了。而这种情况可以纳入事件史分析模 型,它们被称之为刪截( censoring),即指删截了那些尚未发生所研究事件的人。 传统OLS回归方法的另外一个更为严重问题是,如果当结过婚的人与未结 婚的人之间存在着系统性差别,那么OLS回归的估计就会存在偏差。比如,如 果结婚的人都比未结婚的人有更好的经济状况,那么我们估计的经济状况方面如 工资或收入的影响就是有偏的。 ①参见 Yamaguchi,Kan,191 Event History analysis, Applied Social Science Research Methods series Volume 28. Newbury Park, CA: Sage Publications. Inc
上述模型往往还把当前同居的人当作未婚的人。这是值得推敲的。在西方社 会如美国,同居现象极为普遍。比如,美国从1980年到1984年之间结婚的人中 有40%有过婚前同居的经历。①并且,同居现象在90年代更为流行了。因此, 将同居与未婚(单身)相提并论是不对的。在事件史分析框架中,这一问题可以 归结为竟争风险模型。不过由于本章篇幅所限,不讨论竞争风险模型的建立。 OS回归的另一个问题是,不能很好地处理随着时间变化的解释变量 (time- varying explanatory variables)。假定我们根据个人收入来衡量一个人的经济 能力,有人也许在26岁时一年挣1万美元,而在30岁时年薪为2万美元,也许 正在这时他才准备结婚(或者有财力去结婚)。在OLS框架中,也许解决这个问 题的一个方法是建立许多收入变量,以衡量一个人在不同年龄上的不同收入。但 是,每个人旳初婚时间是不同的,因此婚后的个人收入对于研究结婚年龄没有意 义。正如我们所看到的,即使仅有一个随时间变化的解释变量,事情也会变得非 常复杂。 总而言之,在传统的OLS回归框架中,对于随时间变化的解释变量并没有 一个很好的解决办法 因此,事件史分析的一个优点就在于它可以令人满意地解决这两个问题,即 删截和随时间变化的解释变量的问题 2.事件史分析概述 如果读者对于生命表技术比较熟悉的话,那么从生命表的角度来考虑,会有 助于对事件历史分析的理解。事实上生命表技术与事件历史分析之间有着内在的 联系。而两者之间的联系可以从考克斯( David cox)关于比例风险模型的论文 题目中看出◎,其论文题目为“回归模型与生命表”。在生命表中,我们的兴趣 是考察一个在阶段初始活着的人生存到某一年龄的概率。①在一定假设条件下, Cherlin, Andrew. 1991. Marriage, Divorce, Remarriage. Revised and enlarge d ed i on.Cambridge, Harvard University Press e. Namboodiri, Krishnan and C M. Suchindran 1987 Life Table Tcchniques and Their ③参见Cox, David r.1972.“ Regression Models and Lifc tables." Journal of roval s tical Sxicty B34: 187--220 a L Namboodiri, Krishnan. 1991. Demographic Analysis: A Stochastic Approach. New York: Academic Press. Inc
最后能推导出年龄别生存(或死亡)的概率。如果我们把年龄看成自变量,那么 生存(或死亡)就是因变量。生命表分析的一个局限在于很难包括许多自变量 主要是因为计算工作太复杂。例如,如果要硏究在控制教育变量的条件下,死亡 概率如何随职业而变化,那么计算工作将会非常令人厌倦。 生命表方法主要是在事件(如死亡)发生的确切时间不详、只知道在一定间 隔(如一岁年龄间隔)内事件发生(如死亡)的数量和不发生的数量(如生存 时才使用的方法。①而通常在事件史分析框架中要解决的却是某一事件的实际发 生时间,比如结婚的时间和开始参加工作的时间等等 与生命表分析类似,事件史分析也专门研究年龄、性别和其他一些理论推导 的有关变量如何对生存(或经历某一事件)的概率产生影响。但是,事件史分析 可以根据需要轻而易举地包含许多自变量。在事件史分析中这些自变量被称之为 协变量( covariates) 在详细讨论事件历史分析模型之前,我们先来介绍一些基本概念。一个重要 的概念是风险集( risk set),它表示一批在不同时点上经历某一事件风险的人 例如,在研究初婚年龄时,1997年的风险集是指当年年龄在15岁及15岁以上 未婚的人。通常情况下,我们对年龄组进行一些限制,因为我们认为年龄在15 岁以下的少儿不应该包括在结婚的风险集中。 第二个概念是离散时间与连续时间。这涉及到时间的单位。如果时间单位很 大,就可以称为离散时间。如果时间单位小,则称之为连续时间。实际操作中通 常的原则是当时间单位为一年或更长的话,就将其作为离散时间对待。如果单位 是月、星期或甚至更小的单位如日或小时,我们就把它作为连续时间来对待 旦决定了是离散时间或是连续时间,我们就可以运用相应的离散或连续时间模型 了 第三个重要的概念是持续期(spel)l。持续期指从开始观察的时点到事件发 生的时点之间、或是到尚未经历事件的人被删截的时点之间的间隔。例如,如果 位已婚女子婚后经过很长时间才初育,我们可以说这位女子有很长持续期(在 结婚与生育之间的长时间间隔)。相反,如果一位女子在婚后头10个月就生育 那么她的持续期就短(或短的生育间隔)。 最后一个重要概念是风险率( hazard rate)。对于离散时间模型,风险率可以 解释为在特定时间某一特定的人发生某一事件的概率,当然前提是这个特定的人 nL Kalbfleisch, John D) and Ross L. Prentice. 1980. Statistical Analysis of Fail Data. New York: John Wiley sons
在那个时间有可能经历这一事件(属于风险集)。对于连续时间模型,风险率可 以解释为每一件事发生的瞬时概率密度。 3.删截的类型 如前所述,事件史分析的一个优点是在于它能够处理删截。尽管我们已经介 绍了删截的主要概念是指那些在观察结束时事件尚未发生的案例,但是实际上删 截的概念十分复杂。删截可以分成两大类:右删截和左删截。如果用T代表随 机变量,我们可用下面的方式来定义右删截和左删截。当我们只知道T是大于 某一常数C而不知道大多少时,我们就定义这一关于T的观察是右删截。注意, 这就是说我们不知道T的实际发生时点。与此相反,当我们只知道T小于某 常数C而不知道小多少的时候,我们定义这一关于T的观察是左删截。同样 这意味着我们也不知道T的实际发生时点。右删截的典型例子是关于初次性交 发生时间的调查。如果我们在1997年举行一次高校学生调查,询问他们第一次 性交的时间时,肯定有很多人还从未有过这种经历。那么,这些案例观察属于右 删截,因为我们知道T>C(C即调查时间,T>C代表事件发生于观察结束以 后)。 右删截在社会科学研究中极为普遍。实际上,我们还可以进而区分不同类型 的右删截。比如经常提到有第一类和第二类删截。上述例子就属于第一类删截, 即在调查时案例尚未经历所研究的事件。第二类删截的情况是指,在持续观察中 我们已经获得预定数量的案例经历了所研究的事件,观察就结束了。比如,我们 要研究敬老院中人口的死亡,并且研究设计要求观察要进行到全部住院老人的 50%死亡。对于这一特定研究设计(这种情况在社会科学中不太普遍),那些在 观察终止时尚且生存的案例就属于第二类删截。考克斯(Cox)和奥克斯 ( Oakes)认为第二类删截是“在工业寿命检测中经济实惠的一种有用技术”。 另外一种删截机制(右删截)可能发生于随机删截。当案例的删截时间是个 随机变量时,就会发生随机删截。其实,第一类删截就是随机删截的一种特殊情 况。许多人都知道,在美国著名的几所大学的社会学系中攻读博士学位的学生中 有许多人在中途就退出了。随机删截意味着在某一时间t被删截的一个案例并 不提供这一案例取得博士学位时间的任何信息。要是研究生退出博士学位项目 人们总是认为他们没有能力完成博土学位学习,我们就不能认为这些学生是随机 ①参见Cox, David r. and David Oakes.1984. Analysis of Survival Data. New Yor rk: Cha man and Hall, p5 389