对数线性模型 2.交互表单元频数的对数线性模型化 如前所述,对数线性模型的优越性之一是它具有综合分析多元交互表的功 效。这一功效来自于它能够以一个通用的数学方程来表达交互表的任一交互单元 (cel)的频数。下面,我们示范如何将表7-1的观测频数定义为对数线性模型 第一步,先定义表内各单元中的频数为n(i为行,j为列)有 212 21=186 =214 第二步,对表7—1中每一个单元中的频数nn取自然对数(n[nn]),并在 右边和下边的边缘单元计算行和列上对数频数的平均值。最后,表右下角单元中 要计算总平均值,对列平均值再取均值、或对行平均值再取均值、或直接从交互 单元的频数对数计算均值都可以得到同样的结果。根据表7—1计算得到的频数 对数交互表如表7—2所示。 表 例1的对数频数交互表 频数对数 B.初育孩子的性别 1.男孩2.女孩 行平均值 1.领证 5.356 5.030 5.193 A 2.未领证5.226 5.366 5.296 是否领取独生子女证一列平均值 总均值:5.2445 第三步,定义对数线性模型为 n 1+pA(i)+{4B(j)+AB( 这一方程的意义为,对数频数lnn1是由代表若干效应项的参数(p)所 决定的。注意,在这一方程中,左侧是频数所取的对数,而右侧则是各项效应参 数的线性表达式,所以称为对数线性模型。 如果公式的左侧直接采用交互频数,右侧则为相应参数的指数项的乘积 即 =eXpL+1A(i)+1B()-4B() 或表达为 Xp LFA( p LAB() uABC) 对应项的意义为:
交互频数=总平均数×因素A分布效应×因素B分布效应×交互效应 公式(2)所对应的是频数表(即表7-1),而公式(1)则对应的是对数频 数表(即表7—2)。在这两个公式之间可以相互换算。如果以对数频数来表达 有 公式(1) i-u t AA(i; + ABU)+ Aab(i 对应项的意义是 对数频数=总平均数+因素A分布作用+因素B分布作用+交互作用 (期望对数频数)+交互作用 所谓期望对数频数就是在无交互作用时的对数频数。 通过取对数从公式(2)得到公式(1),各种效应项相乘的关系被转换成相 加的关系,使得各项效应独立化了。这一转换十分有利于对各项效应的分析工 作。公式(1)中已经包括了对应表7-2的所有对数频数的影响效应:p为常数 效应,相当于回归方程中的常数项。pA()为A因素效应。B()为B因素效应, 因素效应在对数线性模型分析中又被称为主效应或边际效应(main/ marginal ef fect)。pAB()为A和B两因素的交互效应( interaction effect)。虽然,所分析的 是一个最简单的交互表,但是它的对数线性方程已经显示了这一分析技术的基本 性质。对于更复杂的交互表所建立的对数线性模型,无非是方程中再多一些因素 效应项、多一些交互效应项。各项数目的一般规律是:多元交互频数表涉及多少 个因素,对数线性模型中就会有多少项因素效应项;而交互效应项的总数则为所 有因素各阶组合数之和。例1中只有2个因素,因此因素效应有2项,只有一个 2阶交互效应项。如果对三因素的模型建立对数线性模型,其中将有3个因素效 应项,2阶交互项有G=3!/[2!(3-2)!]=3项,3阶交互项有C=1项。 上述对数线性模型的方程有一个限制条件,为: gA()=B(=二AB( (3) 这个限制条件的意义是,模型中每一项效应的各类(以下标i或j或其他维 的关别下标)参数之和等于0由这一限制条件引申的意义是,如果每项效应中 只有一类的参数未知,那么它可以根据已知的其他各类参数推算出来。这条性质 在实际分析中经常用到,具体作法将在后面讨论 根据所定义的对数线性模型的各项效应参数的公式表达,可以看出它们的具 体意义如下: 其中I和J为对应和j的类型项目数,例1中有I=2,J=2。从式中可以 看出,主效应μ是交互表各单元中频数对数的合计除以交互单元数合计,实际上
就是频数对数的总平均值。 A因素效应的计算公式为 pA(2)=(∑n[nz]们) 注意上式中分数是交互表行平均值。实际上A因素效应是行平均值与总平均值 之间的差。 B因素效应的计算公式为 HBG)=(∑n[n]/)- 式中分数是交互表列平均值。所以,B因素效应是列平均值与总平均值之间的 差 最后,A因素和B因素之间交互效应的计算公式为 HAB()=ln[n]-A(1)-1B()-p 它表示在去除所有其他分布效应之后两个因素之间的净关联。 通过上述各项效应的具体定义,可以知道对数线性模型实际上是按如下原则 描述频数分布的。 根据公式(2),如果各因素效应和交互效应都为0,那么交互表中各频数是 常数,即样本案例是完全均匀分布于各交互单元中的。所以,常数效应就是交互 单元频数平均值效应,只受样本规模和交互单元数的影响。 主效应B()和μA()是各因素内部类别频数分布特征的反映,它将在平均频 数的基础上“补差”,以反映自身类别频数差异。如果模型中所有交互效应都等 于0,我们将会看到,虽然每行(列)频数不同,但行(列)频数分布比例却是 相同的,都等于原来分类变量的类别分布比例。以表7—3提供的观测频率交互 表为例,如果两个因素之间真的不存在关联,那么对应男孩的领证或未领证的比 例(现分别为53.3%和46.7%)都将等于样本中的男孩比例(52.0%),而领证 一行中生男孩的领证比例(现为58.1%)和生女孩的领证比例(现为41.9%) 都将等于样本的领证比例47.7%。 表7-3 例1观测频数比例交互表 B.初育孩子的性别丁 列比例(%) 「1.男孩「2.女孩 行平均 行比例(%) 1.领证 53.3 41.7 58.1 41.9 47.7 A 2.未领证46.7 58.3 是否领取独生子女证 46.5 53.5 列平均 52.0 合计:100.0
如果交互效应不等于0,则表明行和列都不能仅仅分别按因素类别分布,还 要加上另外的分布差异。这些差异便来自于因素之间的相关。也就是说,交互表 内部各单元频数在所在行(列)频数中的比例是由各种联合条件决定的,不一定 要正好等于行(列)的边际分布。比如表7—3中相对于行领证比例平均值(即 全列频数占总数比例47.7%),交互单元中生了男孩领证的偏多(58.1%),生 了女孩领证的偏少(41.9)。正是交互效应作用的存在使得联合分布比例偏离了 边际分布比例①。 现在我们回过头来讨论每一项中各类参数之间的关系。根据式(3),对于每 项主效应A(或BG分别有I类和J类,它们的自由度分别为-1和J-1 这就是说,如果确定了μA(;中的Ⅰ-1个,那么最后的一个参数也就同时确定 了。因为这一项主效应的各个参数的合计必须等于0。因此,计算最后一个参数 的公式可以确定如下 A(1)=0-∑PA()= :1A( (4 同理,最后一个B因素参数g(也可以通过已知的J-1个mB值计算出来。 对于例1,主效应pA(或B()各有两类。那么问题就更简单了,只要已知 其中的一个,另一个参数实际上是已知参数的相反数(只变化符号)。 在I×J交互表中对于交互效应实际上只有(I-1)(J-1)个自由度。比 如,在例1的2×2表中,对应4个交互单元有4个交互效应参数,其自由度等 亍1。那么只要有一个μAB(得到,其他各项也就确定了。这些交互项之间存在 的数量关系为: AB(11)AB(12)=HAB(21)=AB(22) 就此,我们已经对对数线性模型及其参数的设定有了基本的了解。下面我们 用SPSs对例1进行对数线性模型分析得到的有关输出部分来具体介绍参数估计 值的实际意义。有关SPSS操作将放在后面介绍。 3.对数线性模型参数估计值的理解 对数线性模型的参数中,常数项的意义为在频数均匀分布时各交互单元的频 ①用概率论的术语来表达,交互效应对应着条件概率,即在一个事件出现的条件下另 事件出现的概率,比如事件A发生条件下事件B发生的概率记为P(B丨A)。用P(AB) 表示事件A和B同时发生的联合概率,P(A)表示事件A发生的概率,于是联合概率与事 件概率及条件概率之间的关系为:P(AB)=P(A)P(B|A)=P(B)P(A|B)。但 是对数线性模型中的交互效应参数不是以概率为基础,而是以发生比为基础来表达的。 223
数值,因此它肯定取正值。SPSS分析不输出,而输出其他对应各交互单元的 参数HA()、pB()、HAB(n),分别表示主效应和交互效应。当它们的值大于0时 是正效应,其作用将使对应的频数增加。当它们的值小于0时为负效应,作用将 使频数减少。 下面我们根据SPSS输出的参数估计值,结合例1的情况来加以实际意义的 阐释表7-4。 SPSS分层模型输出的例1饱和模型参数估计 Estimates for Parameters TAKE SEX Parameter Coeff SId. err Z-Value ower 95 CI Upper 95 CI 36 03649 3.19540 04508 .18811 TAKE Parameter Coeff z- Value Lower 95 CI Upper 95 CI 0511746232 03649 -1.40250 12269 02034 SEX Parameter Z-Value Lower 95 CI Upper 95 CI 0464797530 03649 1.27383 02504 1800 SPSS分层模型( Hierarchical Model)输出的对数线性模型参数估计列在Es timates for Parameters的标题之下。第一项便是对于交互效应的估计,由于在数 据中定义因素A的变量名为TAKE、因素B的变量名为SEX,在应用分层模型 时,会自动生成所有可能的交互项,交互项的名称自动按原变量名相乘形式提 供,并且各项效应只按照自由度提供必要的参数估计。比如,例1有4个交互单 元,应该有4个对应交互效应估计,但是因为该项效应的自由度等于1,只提供 了其中的一项。另外,在默认状态下,SPSS将最后一类作为参照类,不输出其 参数,所以这里提供的TAKE*SEX估计,是因素A中第一类与因素B中第 类的交互效应,即AB(1)=0.117。根据前面的讨论,可以求出AB(12)= 0.117,AB(2)=-0.117,AB(2)=0.117。 实际上,我们研究交互表主要不是关心频数本身,而是关心变量之间的关 系。变量之间的关系可以从交互效应上反映出来。 比如,例1模型估计中,pAB(1)=pA(2)都是正值,它们分别表明