常用的手段。如果一个变量的分布呈严重偏态,便会影响它与其他正态分布的 变量之间的简单相关程度。比如,经济水平和收入水平往往具有这种偏态特 为了保证上述关系假设,要求模型中的所有观测变量为间距测度等级。典型 相关分析与一般的相关分析、回归分析一样,要求所有的变量为间距测度等级 并且要求实际取值范围较宽。但是,它也可以容纳由序次等级测度或名义等级测 度的变量按照一定形式所形成的虚拟变量。 此外,典型相关分析还要求各组内的观测变量之间不能有高度的多重共线 性,否则将不能产生典型变式,以至不能进行典型相关分析。 在使用随机抽样数据进行典型相关分析时,为了推断样本数据分析所得到的 典型相关关系不是由于抽样误差而产生,以便有把握确认它在总体中也存在,就 必须对得到的典型相关关系进行统计显著性检验。 典型相关分析方法是一种多元分析方法,因此它的检验也是多元检验 ( Multivariate test)。多元假设涉及多个典型相关系数的同时检验,它的形式 是 cr=0 其中,cr表示总体中对应的典型相关系数,下标表示该典型相关系数的序 数。上述无关假设的意义是,总体中对应的典型相关系数都是0,即总体中两个 变量组在各维度上都是不相关的。与一般统计检验相同,我们通常事先设定一个 显著水平标准,即α=0.05,然后检查典型相关得到的实际检验显著水平值。如 果实际显著水平大于等于设定标准,就不能拒绝上述关于总体中的无关假设。这 意味着,我们不能排除样本中计算得到的非0的典型相关系数是由于抽样误差所 造成的可能性。因此,后续分析工作就没有意义了。如果实际显著水平值小于设 定标准,则意味着我们能够以很大的把握(置信度大于0.95)肯定总体中存在 不为0的典型相关系数,从而肯定了总体中典型相关的存在。 关于具体检验指标和操作过程,我们将在后面详细介绍。 上述多元检验必须在一定的假设条件下才是有效的。这些假设条件包括 (1)观测变量中所有单变量为正态分布和多变量之间联合分布为多元正态分 布。虽然典型相关分析对于这个假设条件并不太严格,但是变量在正态分布情况 下,可以获得较高的相关系数。多元正态分布对于统计检验的有效性具有十分重 要的意义,然而实际中很难检验多变量之间是否呈多元正态分布。 (2)误差的方差齐性( homoscedasticity),即形成典型变式时的误差项的分 布方差相等。 312
应用SPSS软件进行典型相关分析 非常遗憾的是,SPSS第6版没有提供单独的菜单化命令来进行典型相关分 析。但是,使用SPSS软件时可以通过另外两种方法来完成典型相关分析工作 第一种方法:SPSS程序命令文件中附有一个编好的命令程序可以调用,能够 进行典型相关分析。它可以提供主要的典型相关分析统计结果,只是没有更多的 备选命令来调用其他的结果。它所采用的典型相关统计检验是卡方检验,而不是 像其他统计软件那样(如SAS)提供的是近似F检验,而后者的检验更为精确。 另外,此种方法不提供典型相关系数的平方以及特征根等指标。但是这种方 法与下面介绍的另一种方法相比也有一些优点。首先,它能够自动提供第一组 内、第二组内以及第一组与第二组之间各观测变量之间的相关矩阵。其次,它能 够提供两组所形成的典型变量各自与另一组观测变量之间的交叉负载。第三,它 还能将产生的典型变量值自动附加到原来的工作数据中去。这一点,对于学习和 更好地应用典型相关分析的读者来说是十分重要的。 第二种方法,是在SPSS软件中 MANOVA菜单程序部分中来运行典型相关 分析,它的主要不足是不能直接产生典型变量值。另外,它也不提供各组典型变 式与另一组观测变量之间的交叉负载。然而,它的执行过程完全是利用现成菜单 中命令选择,可以避免直接键入命令时可能产生的输入错误。并且,它能提供 些第_种方法所没有的统计结果,如多种多元F检验、典型相关系数平方、特 征根等。 这里将结合本章第六节的例题介绍有关SPSS典型相关分析的操作。 1.使用SPSS附带的典型相关分析命令程序进行分析 在SPSS中应用附带的典型相关程序命令进行分析的操作步骤如下 (1)准备工作 SPSS附带的典型相关分析程序是以 SYNTAX命令直接编写的文件。它的文 件名为:CAN(ORR.SPS。在运行典型相关分析以前,应该先检查一下它是否存 在于 SPSSWIN子目录中(后面我们将假设这个子目录在C盘根目录下)。现在, 我们假设已经将所分析的数据文件事先准备好了。于是,在SPSS中打开该数据 文件,将所有数据调入SPSS的工作文件窗口。 (2)调用 CANCORR程序 打开 SYNTAX窗口,输入调用上述命令程序及定义典型相关分析变量组的 313
命令 INCLUDE ' C:\ SPSSWIN\ CANCORR SPS CANCORR SETI= /SET2 上面为需要输入的两个命令,每个命令用英文句点表示结束。第一句命令是 调用 CANCORR.SPS命令程序。第二句命令是开始执行这个命令程序,并定义 典型相关分析中的变量组。本章例题中有五个变量,变量名分别为x1,x2,x3, x4和x5。第二个命令中SET1=之后需给出第一组中包括的变量。本例中第 组有两个变量,每个变量名之间以空格分开。注意第二个命令到此并未结束,所 以此处没有句点。SET2=之前空一格是为了表示这里是本命令中的一项子命 令,之后需要给出第二组中包括的三个变量。注意不要忽略“〃”线,也不要误 打为“\"。由于是直接输入SPSS命令,最好严格按照上述格式输入。如果在 研究中各组变量数与例子中不同,可以仿照上述形式自行加减,但一定要确保变 量名与工作文件中的变量名相同。 (3)执行程序 用光标选择这些命令,使其被阴影覆盖,再将光标双点击 SYNTAX视窗左 上部的RUN键,即可得到所有典型相关分析结果。 上述命令在执行中,先将工作数据记入一个暂存文件,其文件名为 CC TMP1.SAV,并将其打开变成新的工作文件。注意,该文件名中有连续两 个下划线,以避免与其他文件名相同。在完成典型相关分析以后,该命令程序会 自动形成两对(4个)新的典型变量。第一对变量分别被命名为SLCV1 和S2CV,意为第一组(set1)的第一个典型变量(cvl)和第二组的第一个 典型变量。其他典型变量SlCV2和S2-CV2也是以同样形式标注分组 属性及其序号的。这些典型变量连同原来的观测变量将被自动存入另一个暂存文 件CC-TMP2.SAV。可通过命令打开此文件使用典型变量,并最好将此文件 另取文件名存为一个永久性文件,因为在下一次运行 CANCORR命令时,又会 产生两个新的暂存文件将此覆盖。 2.用SPSs中 MANOVA菜单进行典型相关分析 (1)选择相应菜单 打开要进行分析的数据文件以后,选择 STATISTICS,再选择 ANOVA 314
Models一项,拉开方差分析子菜单,然后再选择 Multivariate…项,打开这个 菜单,然后按以下几个步骤来操作。 (2)定义两个变量组 在 Multivariate anova菜单中的左上方变量栏目中,选择所定义的因变量 组的变量,并用光标点击本栏目右侧的方向键将所有因变量移至该菜单右上方的 因变量( Dependent)栏目中去 然后再回到变量栏目中,选择所有自变量,并移至右下方协变量( Covari ates,因为在多元方差分析中间距测度等级的自变量被称为协变量)栏目中去。 如果在典型相关分析研究时并无因果联系的设想,那么只要将两组变量分别 选择移入这两个不同栏目即可。因为典型相关分析实际上是双向分析,所以只要 变量分组恰当,都能够得到所有的统计结果。 (3)定义模型 在定义变量组的工作完成以后,用光标打开 Multivariate anova窗口最下 方的中间一个标注着“ Model”的钮所联系的命令窗口。先改选窗口上方右侧 Custom-项,用光标点击其旁边的圆圈,使之变黑。然后,拉下这两个栏目之 间的 Build Term(s)的小窗口,并选择其中 Main effects-项。然后再选择左上 方栏目中的协变量并通过方向钮全部移入右侧的Modl栏目之中。 (4)定义输出项目 仍然是在Mdl窗口中,最下方中间有一个标有 Display的钮所联系的窗口。 用光标选择其中的四项输出结果,即:1) Multivariate tests;2) Eigenvalue;3 Dimension Reduction;4) Discriminant Analysis。其中,第一项是要求输出多元检 验结果,第二项是要求输出特征值、典型相关系数及其平方等指标,第三项要求 输出递减维度检验结果,第四项是要求输出典型相关分析的其他统计结果。所谓 选择这四项,即用光标点击这四项旁边的小圆圈,使之变黑,并且保证其他各项 处于未选择状态,即旁边小圆圈中的黑点被取消,否则程序将会输出许多于典型 相关分析无用的结果。输出项目定义完毕以后,用光标点击该窗口的右上侧的 Continue钮,回到 Multivariate anova窗口。 (5)执行 第四步,点击 Multivariate Anova窗口右上侧的OK钮,开始执行已经定 义好的典型相关分析。如果希望保留该项分析的所有设定命令,也可以点击 Paste钮,将所有命令粘贴到SPSS的 SYNTAX窗口中去,并存成单独的命令文 件。要执行这些命令就选择这些命令并点击Run。 315
3.关于两种操作方法可能取得某些统计指标的不同结果的讨论 需要提示的是,SPSS的两种方法所得到对应典型系数、负载经常出现数值 相等而符号相反的情况。这种不一致并不是程序设计错误,而是因为两种方法对 典型变式定义不同所造成的。由于所得典型变式只是观测变量的线性组合,所以 对变式乘以一个任意常数并不改变其统计性质,也不会对典型相关分析的最终结 果产生本质的影响。所以,当两种方法产生的数值相同、符号相反的情况时,即 意味着对应的典型变式之间相差一个负的乘数。换句话说就是,两组观测变量的 最初典型变式之间实际存在着负相关时,就需要将其中一个变式乘以-1使这 对变式之间的典型相关成为正值。于是,当一种方法选择将左侧变式的权数全部 改变符号时,另一种方法却选择将右侧变式全部改变符号。也就是说,在本来两 个变式之间为负相关时,为了以正数形式提供典型相关,必须将其中一个变式改 换为反面描述。如果两种方法的改换选择不同,我们就看到了两种方法得到的典 型系数、负载出现数值相等、符号相反的情况。其实,这种表面上的不一致并没 有改变两种方法的统计结果本质上的一致性。并且,这种表面上的不一致如果发 生,那么两种方法在对典型函数中两个变式所对应的所有典型系数和负载都会出 现上述情况,而交叉负载则不会出现上述情况(由于用 MANOVA方法做时,不 提供交叉负载,所以实际上也无法比较)。上述问题在使用同一种方法然而将不 同组定义为第一组(或因变量组)时也可能会产生。此外,在采用不同软件进行 典型相关分析时,这种情况也会发生于SPSS结果与其他软件(如SAS)结果之 间。其实,在表面上的不一致中仍然存在着正负号变化的一致。如果了解这种表 面不一致的原因以后,研究人员也就用不着再感到奇怪了。 实际上,本章例题在用SS的两种不同方法进行分析时就会发生上述现象 总而言之,SPSS的两种进行典型相关分析的方法各有所长。因此,应该说 sPSS典型相关分析程序的用户友善化程度不如其他可以从菜单调用的分析程序。 尽管如此,大家仍然可以根据情况采用SPSS提供的这两种方法之一进行分析。 有时可以将两种方法平行使用,各取所长也不失为一种策略。比如用命令程序得 到典型系数、负载与交叉负载、典型变量值;而对于其他一些统计结果则采用 MANOⅴA方法得到,比如典型相关系数平方、特征根、多元检验,这些结果没 有符号问题,不必担心与命令程序的结果发生不一致。 四、典型相关分析的统计指标 在后面各统计指标的介绍中,我们将同时注明SPSS提供的两种方法能否提