杜会学系列教材 第十章 典型相关分析 典型相关分析( canonical correlation analysis)是近年来开始普及的一种新型 多元统计分析方法。典型相关分析源于荷泰林(H. Hotelling)于1936年在《生 物统计》期刊上发表的一篇论文《两组变式之间的关系》①。他所提出的方法经 过多年的应用及发展,逐渐达到完善,在70年代臻于成熟。由于典型相关分析 涉及较大量的矩阵计算,它的应用在早期曾受到相当的限制。但当代计算机技术 及其软件的迅速发展,弥补了应用典型相关分析中的困难,因此它的应用开始走 向普及化。 典型相关分析是进行两组变量之间相关的分析技术,因而是一种更一般性的 方法,具有较强的分析能力。典型相关模型的相关函数等号两侧都有不只一个的 变量。相比之下,简单相关模型或简单回归模型在函数等号两侧都只有一个变 量;而多元相关模型则是一侧有多个自变量、另一侧只有一个因变量。因此它们 都可以视为典型相关分析的特殊形式。 典型相关分析的用途很广。当研究人员面临两组多变量数据并希望研究两组 ①参见 Hotelling,H.(1936) Relations between two sets of variates.Bom 377 307
变量之间的关系时,就可能用到典型相关分析。这里所要强调的是,典型相关分 析不是分别对其中一个变量组的每个变量做与另一组的多个变量之间的多元相关 或多元回归,因为这样做以后,仍然不能得到两个变量组之间的整体相关的信 息,因为自变量之间也存在着相关,多个多元相关或回归的结果是不能简单迭加 在一起的。而典型相关分析则是将各组变量都作为整体来对待,因此它所描述的 是两个变量组之间的整体的相关形式,而不是关于两个变量组中变量的相关。实 际研究当中,注重变量组之间关系的情况是很多的。比如,研究个人及其家庭的 社会经济状况与本人在某些方面的表现之间的联系,其中社会经济状况可以是多 方面的,本人的表现也可以从多个方面来测量。又比如,在有关专题的KAP调 查(即关于知识、态度和实际行动的调查)以后,我们可能将知识和态度变量作 为一组变量,将实际行动作为另一组变量,研究知识和态度与实际行动之间的联 系。又比如,典型相关分析还可以用来分析试验研究中产生的两组变量,即试验 前各方面的测量记录与试验后各方面的测量记录之间的联系。还有,典型相关分 析还可以用于对应关系研究,如夫妻之间、代际之间、干群之间、供求之间所存 在着的两组多变量之间关系的研究。 与相关分析类似,典型相关分析中本来也不设自变量(组)或因变量(组), 而是称第一变量组和第二变量组。但研究人员实际上可能有隐含的因果假设,即 某一组代表自变量,另一组代表因变量。比如,我们在分析中实际上把上述研究 中的社会经济状况、知识和态度、试验前测试结果作为自变量(或控制变量,在 模型中控制变量属于自变量范畴),把本人表现、实际行动和试验后测试结果作 为因变量。典型相关分析中习惯上将自变量和因变量分别称为预测变量( predic tor variables)和标准变量( criterion variable)。在有隐含的或明确的因果联系假 设时,我们将会更多地把研究精力集中于一个方向的作用上。在完全没有内在因 果联系假设时,我们便需要进行双向的分析。在典型相关分析中对两组的分析是 对称的,即分析结果是双向的,无论怎样定义第一变量组和第二变量组,只要组 内的变量不变,就能够得到同样的分析结果。 、典型相关分析思路的简介 由于本章的主旨是介绍利用SPSS软件来进行典型相关分析,因此本章不再 详细介绍它的数学证明及其计算过程,而是注重介绍它的分析思路以及有关主要 概念、指标的理解和应用。 我们先用一个图示(图10-1)来说明典型相关分析的思路和工作步骤。 08
设有两组观测变量,通过权数与观测变量对应相乘、然后将各项累加,分别 对每一组先建立一个线性组合,称典型变式( canonical variate、或组合 omposite)。每一个典型变式的值又构成一个新的典型变量。典型变式和典型变 量是一个事物的两个侧面,典型变式表达观测变量与典型变量之间的关系形式 典型变量更关注数值。后面的讨论中将混合使用这两种称谓。 yp 「2 CI_I y2 CV22 xs 交量分组1 变量分组2 原始观测变量 y1,y2 1,x2,文 通过典型系数 a0,a1,a2 组合成典型函数 Cv」d CV2_d 其中d=min(k1,k2) 求系数解的条件 按顺序d使cv1与cv2取得最大相关。 图101典型相关分析示意图 解出的这两个典型变式(量)之间的简单相关就是典型相关。但是在两个观 测变量组之间的典型相关并不是一个,而是表现在多维方面,其维度取决于两个 原始变量组的变量数目。每个维度上的典型相关系数是按一定顺序成对地建立两 个变量组的典型变式后逐步求解的
典型相关分析建立第一对典型变量的原则,是尽量使所建的两个典型变量之 间的相关系数最大化。换句话说,就是在两个变量组各自的总变化中先寻求它们 之间最大的一部分共变关系,并用一对典型变式(量)所描述。于是,第一维度 上的典型相关系数也随之求得。这还意味着上述的共变部分已经被从两组各自的 变化中剥离出来了。然后,继续在两组变量剩余的变化中寻找第二个最大的共变 部分,形成第二对典型变式(量),并解出第二维度上的典型相关。这样的过程 不断继续,直至所有变化部分被剥离完毕。因此,两组观测变量之间的关系可以 由若干对典型变量来代表。各对典型变量之间的典型相关程度依序次逐步下降。 由于每一对典型函数都是根据两组观测变量所拥有的变化作出的,因此实际上能 够得到的典型函数个数等于两组中变量较少的一组的变量个数。 这一步工作可以大大精简信息。 比如第一组中的变量有六个,第二组中的变量有三个。经过典型相关分析的 数据处理,原来九个观测变量现在用六个典型变量来代表(共三对)。应该指出 的是,每组所产生的三个变式可以代表各自所有观测变量变化的全部信息,并不 因为其中有一个组由于从六个观测变量产生三个典型变量而使原来的信息有所损 失 此外,每个典型变量只与另一组的对应典型变量相关,与本组或另一组的所 有其他典型变量都不相关。由于这个性质,由每组变式所代表的本组观测变量的 变化部分可以简单相加,其总和与本组观测变量的总变化相等。也就是说, 原来所有观测变量的总变化现在通过典型变量被表现在三个相互独立的维度 上 最后,精简信息还表现于第三个方面。在使用随机抽样数据的情况下,虽然 我们从样本数据中得到两组变量在三个维度上的典型相关系数(一般很少正好等 于0),为了肯定各个维度上的典型相关不仅在样本中存在,而且在总体中也存 在,就需要进行统计检验。由于这些典型相关系数值是依序次递减的,因此在统 计检验以后往往并不是都能够得到统计显著的结果。因此,对于总体没有推断意 义的那些维度上的联系可以忽略不计,于是我们又排除了一些对于总体推断无用 的信息,使后面的分析专注于更加重要的方面。其实,排除不显著的维度对于典 型相关程度并没有太大损失。根据典型变量的形成特点,序次在前的典型函数代 表着两分组之间典型相关的绝大部分,而被排除的那些序数较后的维度上的典型 相关往往很小。 所以,严格地说,一个典型相关系数描述的只是一对典型变量(式)之间的 相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关 310
共同揭示了两个观测变量组之间的相关形式 两个典型变式之间的函数关系式称为典型函数( canonical function)。作为函 数组成部分的两个典型变式中观测变量的权数称为典型系数或权数( canonical coefficient or weight)。如果对观测变量进行标准化后再进行上述转换,得到的典 型系数就是标准化系数( standardized coefficient),可以类比于标准化回归系数或 通径系数,有利于比较各原始观测变量对典型变量作用的相对大小。并且,标准 化后典型变式中也不再拥有常数项。此外,这时典型变量本身也是标准化的,即 方差等于1。这样一来,就大大便利于后面对于标准化变量的方差分析。在典型 相关分析中,这种方差分析被称为冗余分析。 在典型相关分析中,第一个典型相关程度至少会与本组的一个观测变量与另 组所有观测变量的多元相关程度一样大。然而,即使是在所有多元相关都很弱 时,第一个典型相关也可能会非常强。需要特别加以小心的是,一个组的典型变 量与另一组的原始观测变量之间的相关很弱时,第一个典型相关也可能会非常 强。因此,我们不能只看典型变量之间的相关(即典型相关)程度,而且需要对 这些典型变量对观测变量的代表能力、预测能力进行分析,以正确评价典型相关 的意义。典型冗余分析可以用来检验由典型变量再反过来估计原始观测变量时的 能力。 以上简要介绍的典型相关分析所涉及的概念和指标,我们将在后面进行较详 细的介绍。 二、典型相关模型的基本假设和数据要求 典型相关模型的基本关系假设是两组变量之间为线性关系,即每对典型变量 之间为线性关系。并且,每个典型变量与本组所有观测变量的关系也是线性关 系 如果理论和经验说明,两组变量之间并不是线性关系,就需要采取一些方法 来改造原来的观测变量。一些在多元回归中常用的变量改造方法都可以用在这 里。比如,很多研究都表明国家或地区的经济水平和收入水平与其他一些社会发 展水平之间并不是线性关系,我们通常对测量经济和收人水平的变量取对数后再 使用往往能够得到更好的结果。为了检验两组之间观测变量的关系是否为线性关 系,我们可以审阅简单相关矩阵。如果理论和经验说明存在较强联系的变量之间 相关程度很低,我们就应考虑是否它们之间的关联实际上不是简单相关,并寻找 可能将这种关系转换为线性关系的方法。另外,检验所有观测变量的分布也是