分组无案例的情况。 多元方差分析是在一定假设条件下进行的。只有这些假设条件得到满足,多 元方差分析才可能得到适当的应用。这些条件中包括 (1)案例来自随机抽样 每一分组的案例都是从对应该分组的总体中随机抽样得到的。这就是说案例 观测值之间是相互独立的。通常在横贯总体中的抽样基本上可以保证这个条件的 满足。而观测案例来自于时间序列资料时,则较容易产生案例之间发生序列相 关。但是,对于这一假设条件的满足情况很难通过统计手段来检验,主要是根据 经验判断。 (2)各因变量为正态分布且方差相等 对应所有因变量的那些总体必须为正态分布,并且每个分组的因变量分布具 有相同的方差。当各分组的样本规模比较接近时,比如最大一组的案例数不超过 最小一组案例数的1.5倍时,违反了这个假设条件影响也不太大。当分组规模差 别很大时,可以采用一些统计手段来检查各分组的方差是否相同,如SPSS多元 方差分析可提供的单组检验有 Cochran’ sC test、 Bartlett-box test,整体检验有 Box’ s M test然而,有的检验(如Box’ s test)又对于是否正态分布非常敏 感,所以在检验之前,还需要对于各因变量的分布是否正态进行检验。SPSS方 差分析能够提供图形供用户审阅变量是否为正态分布,如枝叶图(stem- and-leaf plot)、正态图( normal plot)、去趋向正态图( detrended normal plot)等 (3)各因变量之间为多元正态分布 作为多元方差分析的特别之处,它还要求各因变量分布之间具有特定关系 这种关系是通过联合分布的形式所描述的。每个单独的变量是正态分布并不能保 证它们的联合分布是正态分布。多元方差分析要求这些正态分布之间的联合分布 必须是多元正态分布。但是,这一条假设实际上很难得到验证 上述三个假设条件的前两个同样也是一元方差分析所要求的假设条件。但是 在实际应用中,这些假设条件的满足并不是十分严格。只有出现了非常特别的案 例时(异常值, outlier),才造成分析结果失去有效性。SPS可以输出案例在各 因变量上的数值与标准差的散点图,可供观察是否有异常值存在。 例题数据及三个分析模型 下面通过对一套数据资料建立不同模型来示范多元方差分析。 所用的数据资料是一套虚构的抽样调查数据(见表8-1)。案例是调查得到
表8-1 本章多元方差分析例题的数据 INC EDU NAT RUR 234567890 222 73 76 234 76 333333 序号仅为标注各案例而设,于分析无关,可不输入。 注:本书所附数据磁盘中的相应数据文件名为T81SAV 的24个社区的数据资料,包括两个间距测度等级变量和两个名义测度等级变量。 间距测度等级变量将作为多元方差分析模型的因变量,一个是人均收入水平(变 量名为INC,即 Income),另一个是15岁以上人口中具有小学毕业文化程度的 人所占比例(变量名为EDU,即 Education)。人均收入水平代表了社区的经济
发展水平,小学及以上文化程度的人口比例代表了社会发展水平。作为分组标志 的两个名义测度变量之一是民族(变量名为NAT,即 Nationality)。这一自变量 值编码从1至3,分别代表三个不同民族。每个民族有8个社区案例。另一个分 组名义变量是城乡地区类型(变量名为RUR,即 Rural),编码值1代表农村、2 代表城市 例题数据将采用三个模型进行同时考虑收入和教育两方面的多元方差分析 第一模型:对民族进行多元方差分析(单因素二元模型) 第二模型:对民族、城乡交互分组进行含交互影响的多元方差分析(双因素 二元饱和模型 第三模型:对民族、城乡交互分组进行无交互影响的多元方差分析(双因素 二元非饱和模型) 根据不同模型来介绍有关SPSS多元方差分析的操作步骤、统计结果输出及 模型分析结果的解释工作。毎个模型的分析作为一节。并且,我们将在得到第 模型的统计分析之后,专门设一节利用图示的方法形象地描述多元方差分析的原 理及其与一元方差分析的区别所在。 四、第一模型:单因素二元模型 第一模型的研究目的是通过样本数据检验这三个民族在社会经济发展上是否 存在显著差异。我们用多元方差分析的无差异假设可以将这个问题表达为 「INC3 EDU1」LEDU2」EDU3 其中下标1,2,3分别表示三个民族。这个无差异假设表示三个民族在经济 和社会两项指标上相等。注意这里是同时通过两个方面来检查是否存在民族差 异。在后面的结果中,将会看到同时对社会、经济两方面的检验结果与分别进行 两次一元方差分析所得的结果很不相同。 因为这一模型只有一个分组变量和两个因变量,所以它属于单因素二元模 1.PSS多元方差分析中单因素模型及其他检查的设置 将数据输入SPSS数据窗口(或打开已经存在的SPSS数据文件以后),用光 标拉开 Statistic(统计)菜单,然后选择 ANOVA Models(方差分析),继而选择
Multivariate Anova(多元方差分析)一项。于是视屏上会出现该程序的对话窗 在该窗口中左侧一栏为工作数据中可选的变量名称。用光标选择INC和 EDU,然后通过点击窗口中最上面一个向右的箭头键将其移入 Dependent Vari- abes(因变量)栏。 然后,用类似的方式再选择变量NAT,并将其移入中间的 Factor(因素, 即名义测度的分组自变量)一栏。一旦有新变量移入此栏,便会自动在变量名之 后出现[??]记号,这是用来定义该分组变量值域的。此时,需要点击该栏之 下的 Define range键,即会出现一个新的对话小窗口。在 Minimun一栏指示该 变量的最小值1;再在 Maximum一栏指示该变量的最大值3。注意在运行前必须 保证各分组变量值是连贯的整数值。如果分组变量中存在着超出指示值域的情 况,那么这些案例将会被排除出将进行的多元方差分析。在定义了分组变量的值 域以后,点击小窗口右侧的 Continue键继续后面的步骤。 如果只是需要取得多元方差分析的检验结果,那么现在只要在 Multivariate ANOVA窗口中点击右上角的OK键即能够得到。这时,SPSS按默认状态对所 定义的因变量和自变量来进行多元方差分析。上述命令产生的分析中默认状态包 括 只输出多元方差分析检验和一元方差分析检验两个统计结果。 不输出其他参数估计。 兴在分解总偏差平方和时釆用回归法,即每一项效应都相对模型中的所有 其他效应做调整 *在进行检验所有效应时,是用解释方差(即代表组间差异的方差)与组内 方差与残差的合计方差(这里的残差指模型的交互效应部分的方差)相比 而得的。 最后一项是关于自变量之间或自变量与协变量之间交互效应的规定,因本 章例题没有涉及协变量,所以与此项无关。 如果还需要更多的输出结果,那么还可以通过该窗口下面的三个窗口改变 SPSS多元方差分析程序的默认状态来取得。但是如不需要,不要随意改变默认 值,否则得到的统计结果可能与所需要的统计口径发生不一致 为了检查所用数据是否具备多元方差分析所要求的性质并符合其假设条件, 较多用到的检验包括:第一,检验因变量是否正态分布;第二,因变量是否具有 相同方差;第三,因变量之间是否有足够的相关。如果需要上述检验,可用光标 点击多元方差分析视窗中右下角的“ Options…”键,打开相应对话窗口。如需 265
上述第一项检查,选择该窗口中部 Diagnostics栏目中的 Residual plot一项。如 需要上述第二项,可选择同栏目中的 Homogeneity tests如需要上述第三项检 验,可选择该窗口的左下部分 Error matrices栏目中的 Correlation一项。 2.第一模型分析输出的结果及讨论 例题的第一模型中分组变量只有一个,因此只有主效应,没有交互效应,所 以残差项等于0。多元方差检验是按照SPSS方差检验的默认状态进行的、而实 际上是组间方差与组内方差相比的检验。 应用SPSS对上述例题进行多元方差分析所得到的输出包括以虚线分开的两 部分分析结果。第一部分是多元方差分析假设检验结果( Multivariate Test of Significance),第二部分是一元方差分析假设检验结果( Univariate F-tests) 多元方差分析假设检验结果中提供了以四种不同方法对自变量NAT在两个 因变量INC和FIU上的解释作用的检验。这一检验是同时完成的。所谓解释作 用以组间均方差代表,未解释部分以组内均方差代表。上述四种检验方法中包 括:Fili检验、 Hotelling检验、 Wilks检验和Roy检验(在SPSS中只给出Roy 统计量值,不进行检验)ε其中,wlks检验得到的F检验值是精确值,其他三 种检验得到的F值是近似值。这四种统计量一般取得十分相近的检验结果 般来说,我们希望所应用的方法在多元方差分析假设条件出现某种违反程度的情 况下其检验依然不受太大影响,并且能够保持最大的统计检验功效( power of statistical test,即在无差异假设实际上为不真实时正确地拒绝它的概率)。 在一般情况下,Pli检验的显著水平值比其他检验得到的α稍高,说明这 种方法在接受无差异假设时相对较为保险,并且它在样夲规模很小、各分组规模 不等、或分布的方差不等时使用的效果也较好。Wlks检验也具有不太受违反假 设条件影响、统计检验功效较强旳特点。然而,在足以确信所有假设条件能够得 到严格遵守且因变量能够由一维效应所代表时,Roy检验可以具有最强的检验功 效。但是,它的计算值不能直接换算成某种已知分布的统计量,所以在SS多 元方差分析报告中只提供计算值,没有提供换算的F检验值及其显著水平 般采用经验方法来评价Roy值,如果Roy值小于0.1,便认为其不显著。 检验功效的大小取决于几个因素,包括显著水平α的确定、效应规模(ef fect size,即各分组平均值之间的差异)以及各分组的样本规模。一般情况下 研究人员对于显著水平和效应规模没有什么选择的余地,所以通常采用扩大各分 组样本的规模的办法来增强检验的功效。在实际研究中,一般希望检验功效的概 率能够维持在08以上。如果各分组的样本规模少于50,对于维持上述检验功