第四讲典型相关分析 CANONICAL COORELATION ANALYSIS 基本知识 适宜资料:两组变量间呈线性相关关系 二、分析目的:把研究两组变量间的复杂相关性简化为研究两个综合典型变量间的相关,并由各对 典型变量的线性组合中系数的绝对值的大小,分析各变量(因素)在这个典型变量中的地位(作用)。从而 把大量繁杂的简单相关研究简化为简单综合的典型相关研究,有利于发现问题的关键和本质 、分析思路:在两组变量中,分别找出由它们的线性组合构成的综合变量一一典型变量,并使它们 的典型相关最大,利用拉格朗日乘数原理,求出典型相关系数及特征向量a1和B,并构造出各对典型 变量和v;,最后利用各典型变量中的特征向量的分量a1和B1分析该因素对典型变量的影响的作用(相 对重要性)。 四、分析方法:见后。 对两个变量间的相关性研究,可以通过相关分析,了解其相关程度及性质。而在研究两组变量间的相 关关系时,譬如,在硏究一组环境因素与畜禽诸生产性能间的相关性时,通常不采用一对一的直接硏究, 而是把各环境因素当作一个整体,把各生产性能也作为一个整体来研究。这时研究两组变量之间的相关就 变为研究两个新的变量之间的相关研究。当然,这两个新的变量分别由各自整体中变量的线性组合所构成 因而不会丢失原来的信息。而且,这两个线性组合具有这样的性质,即由它们所构成的两个新变量之间具 有最大的相关。类似地,还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关, 但该对组合间有最大的相关。如此类推,直到两组变量间的相关被分解完毕。这种逐步得到的线性组合称 为典型变量,它们之间的相关系数称为典型相关系数,这种分析方法就称为典型相关分析。可见,典型相 关分析是研究两组变量间相关关系的一种统计方法。由于它避免了孤立地对两个变量间的研究,因此,分 析结果较为全面,且各组中变量个数不受限制,应用十分广泛。 第一节典型相关系数与典型变量 在实际工作中,我们通常接触到的多为样本资料,对其所在总体的参数常是未知的,所以,对于总体 的典型相关系数及典型变量,只能通过样本数据对其估计。以下着重介绍样本典型相关系数及典型变量的 计算方法 典型相关系数 设有两组变量X1{x1,x,…,x}和X2{xp+1,xp+2,…,xp+}的n次观察值取自多元正态总体Np (μ,∑),样本数据阵为:
19 第四讲 典型相关分析 CANONICAL COORELATION ANALYSIS 基本知识 一、适宜资料:两组变量间呈线性相关关系。 二、分析目的:把研究两组变量间的复杂相关性简化为研究两个综合典型变量间的相关,并由各对 典型变量的线性组合中系数的绝对值的大小,分析各变量(因素)在这个典型变量中的地位(作用)。从而 把大量繁杂的简单相关研究简化为简单综合的典型相关研究,有利于发现问题的关键和本质。 三、分析思路:在两组变量中,分别找出由它们的线性组合构成的综合变量——典型变量,并使它们 的典型相关最大,利用拉格朗日乘数原理,求出典型相关系数 i 及特征向量 i 和 i ,并构造出各对典型 变量 i 和 i ,最后利用各典型变量中的特征向量的分量 i 和 i 分析该因素对典型变量的影响的作用(相 对重要性)。 四、分析方法:见后。 对两个变量间的相关性研究,可以通过相关分析,了解其相关程度及性质。而在研究两组变量间的相 关关系时,譬如,在研究一组环境因素与畜禽诸生产性能间的相关性时,通常不采用一对一的直接研究, 而是把各环境因素当作一个整体,把各生产性能也作为一个整体来研究。这时研究两组变量之间的相关就 变为研究两个新的变量之间的相关研究。当然,这两个新的变量分别由各自整体中变量的线性组合所构成, 因而不会丢失原来的信息。而且,这两个线性组合具有这样的性质,即由它们所构成的两个新变量之间具 有最大的相关。类似地,还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关, 但该对组合间有最大的相关。如此类推,直到两组变量间的相关被分解完毕。这种逐步得到的线性组合称 为典型变量,它们之间的相关系数称为典型相关系数,这种分析方法就称为典型相关分析。可见,典型相 关分析是研究两组变量间相关关系的一种统计方法。由于它避免了孤立地对两个变量间的研究,因此,分 析结果较为全面,且各组中变量个数不受限制,应用十分广泛。 第一节 典型相关系数与典型变量 在实际工作中,我们通常接触到的多为样本资料,对其所在总体的参数常是未知的,所以,对于总体 的典型相关系数及典型变量,只能通过样本数据对其估计。以下着重介绍样本典型相关系数及典型变量的 计算方法。 一、典型相关系数 设有两组变量 X1{x1,x2,…,xp}和 X2{xp+1,xp+2,…,xp+q}的 n 次观察值取自多元正态总体 Np+q (μ,∑),样本数据阵为:
x Mip x X=[X1, X2F-I X2p x2 p+l x2 p+2 n p+ 由Ⅹ计算得协方差阵为 其中∑1,∑2分别为第一组和第二组变量的协方差阵,∑1=∑?1为第一组与第二组变量之间的协方 差阵。若对X1,X2进行标准化,即: xh=(xk-x)/S, (i=1,2,…,p,k=1,2,…,n) x=01b-x,)/S (j=1,2, q,k=1,2 由协方差阵进一步转化为相关阵R: R1R12 在研究两组随机变量X1,X2的相关时,主要是考虑这两组变量线性组合间的相关。故令: U=ax,+a2x2 P C V=B1 p+l+B2xp++.+Bgpg=Ar2 和v分别为X1,X2的任意一个线性组合一一典型变量(由各组变量的线性组合构成的综合变量) 典型变量间的相关系数称为典型相关系数,记为(利用典型相关系数来代表两组变量间相关性的分析方 法称为典型相关分析)。根据拉格朗日乘数6=a'>2B-(ana)-A2(Σ2B),利用特征方 程R12R2R21-2R1|=0求出特征根λ(典型相关系数),再把代入下列方程: (R12R2R21-22R1a=0 (3-12) 或(R21R1R12-x2R2)=0 (3-13) 即可求出构成各典型向量的线性组合的系数——特征向量a1和B 以下在教学中可以省去。 上式分别为X1,X2的任意一个线性组合,其中,a;(F1,2,…,p),β(j=1,2,q)为任意实 数 (3-1)式中的α,β若确定,则U,Ⅴ便确定。确定α,β的原则是使U,V之间的相关系数ρ达到 最大,即p=E(m)/EUE2为最大。 假设a,β是这样的向量:能使得U,V都具有单位方差(方差为1)即 EU=EaX1Xa=a∑1a=1 (3-2) E=EBX2X2B=B∑2B 此时有EC=Eax1=aEx1=0 EV=EBX2=BEX2=0 于是问题转化为在方差为1的限制条件下,求使E(U,V)达到最大的a,β。根据求条件极值原理 6=a22B-41(a2xa)-2(B22B)
20 X=[X1,X2]= + + + + + + + + + n n np n p n p n p q p p p p q p p p p q x x x x x x x x x x x x x x x x x x 1 2 1 2 21 22 2 2 1 2 2 2 11 12 1 1 1 1 2 1 由 X 计算得协方差阵为: = 21 22 11 12 其中∑11,∑22 分别为第一组和第二组变量的协方差阵,∑12=∑21 为第一组与第二组变量之间的协方 差阵。若对 X1 ,X2 进行标准化,即: ki ki i Si x = (x − x ) (i=1,2,…,p,k=1,2,…,n) kj kj j S j x = (x − x ) (j=1,2,…,q,k=1,2,…,n) 由协方差阵进一步转化为相关阵 R: = 21 22 11 12 R R R R R 在研究两组随机变量 X1,X2 的相关时,主要是考虑这两组变量线性组合间的相关。故令: = + + + = = + + + = 1 +1 2 +2 + 2 1 1 2 2 1 V x x x X U x x x X p p q p q p p (3—1) 和 分别为 X1,X2 的任意一个线性组合——典型变量(由各组变量的线性组合构成的综合变量), 典型变量间的相关系数称为典型相关系数,记为 i (利用典型相关系数来代表两组变量间相关性的分析方 法称为典型相关分析)。根据拉格朗日乘数 ( ) ( ) 2 2 22 1 2 1 11 1 =12 − − ,利用特征方 程 11 0 2 21 1 12 22 − = − R R R R 求出特征根 i (典型相关系数),再把 i 代入下列方程: ( 11) 0 2 21 1 12 22 − = − R R R R (3—12) 或 ( 22 ) 0 2 12 1 21 11 − = − R R R R (3—13) 即可求出构成各典型向量的线性组合的系数——特征向量 i 和 i 。 以下在教学中可以省去。 上式分别为 X1,X2 的任意一个线性组合,其中,αi(i=1,2,…,p),βj(j=1,2,…q)为任意实 数。 (3—1)式中的α,β若确定,则 U,V 便确定。确定α,β的原则是使 U,V 之间的相关系数ρ达到 最大,即 2 2 = E(UV) EU EV 为最大。 假设α,β是这样的向量:能使得 U,V 都具有单位方差(方差为 1)即 = = = = = = 1 1 2 2 22 2 1 1 11 2 EV E X X EU E X X (3—2) 此时有 0 0 2 2 1 1 = = = = = = EV E X EX EU E X EX 于是问题转化为在方差为 1 的限制条件下,求使 E(U,V)达到最大的α,β。根据求条件极值原理。 令 ( ) ( ) 2 2 22 1 2 1 11 1 =12 − −
式中λ1,A2都是拉格朗日乘数。求θ对a,β的一价偏导数。并令其为零,则有 ∑12B-A121 上、下式分别左乘以a′、β′得 a∑12B=1a'1a=A B"Σ21a=A2B∑2B=2 而(a'∑1B)=B∑21a 故λ1′=A2,并且λ1是一实数,转置为A1。所以λ1=2=X 这表明,λ恰好等于线性组合U与V之间的相关系数。于是可将(3-3)式改写为 ∑12B-λ∑11a=0 对(3-4)左乘∑∑然后将(3-5)代入得 ∑1∑12B-2∑2B (3-6) 对(3-6)左乘∑得 ∑∑21∑∑12B-x2B=0 ∑1∑12-2)B=0 (3-7) 同理对(3-5)式左乘∑2∑2,然后将(34)式代入得 22∑1a=0 对(3-8)左乘∑得 ∑1∑12∑2∑21a-2a=0 即(1∑12∑2∑21-2)a=0 (3-9) 欲使(3-9)和(3-7)式中的a,β有非零解,其充分必要条件是 ∑Σ12∑2 (3-10) 21H22-2=0 (3-11) (3-10)和(3-11)式是2个特征方程。(3-10)的左边是关于2的p次多项式,从而有p个根, 设这p个根为22≥22≥…≥2>0,所以应取最大的特征根λ=A,将λ代入(39)式便可求出对 应的特征向量a1 (3-11)的左边是关于入2的q次多项式,有q个根。由于∑∑12Σ2∑1与∑2221∑1∑12的非 零特征根相同。故可以用相同符号表示≥2…≥2>0,并称1≥2≥…≥k>0为典型相关 系数,将λ=λ1代入(3—7)式可求出对应的特征向量β1。 这样求得U1=a1X1,V=BX2,就是要找的第一对典型变量,它们在所有的线性组合U,V中具 有最大的相关。A1就是U1,V1的典型相关系数 同理,由λ2及(3-7),(3-9)式得与U,V1相独立的第二对典型变量U2=a2X2,H2=B2X2 直至全部典型变量。 若对X1,X2进行标准化,即 (xx-A)/S (i=1,2,…,p,k=1,2,…,n)
21 式中λ1,λ2 都是拉格朗日乘数。求θ对α,β的一价偏导数。并令其为零,则有: = − = = − = 0 0 21 2 22 12 1 11 (3—3) 上、下式分别左乘以α′、β′得 : 21 2 22 2 12 1 11 1 = = = = 而 21 ' 12 ( ) = 故λ1′=λ2,并且λ1 是一实数,转置为λ1。所以λ1=λ2=λ 这表明,λ恰好等于线性组合 U 与 V 之间的相关系数。于是可将(3—3)式改写为 ∑12β-λ∑11α=0 (3—4) ∑21α-λ∑22β=0 (3—5) 对(3—4)左乘 1 21 11 − 然后将(3—5)代入得 22 0 2 12 1 21 11 − = − (3—6) 对(3—6)左乘 1 22 − 得 0 2 12 1 21 11 1 22 − = − − 即 ( ) 0 2 12 1 21 11 1 22 − = − − (3—7) 同理对(3—5)式左乘 1 21 21 − ,然后将(3—4)式代入得 11 0 2 21 1 12 22 − = − (3—8) 对(3—8)左乘 1 11 − 得 0 2 21 1 12 22 1 11 − = − − 即 ( ) 0 2 21 1 12 22 1 11 − = − − (3—9) 欲使(3—9)和(3—7)式中的α,β有非零解,其充分必要条件是 0 2 21 1 12 22 1 11 − = − − (3—10) 0 2 12 1 21 11 1 22 − = − − (3—11) (3—10)和(3—11)式是 2 个特征方程。(3—10)的左边是关于λ2 的 p 次多项式,从而有 p 个根, 设这 p 个根为 0 2 2 2 2 1 P ,所以应取最大的特征根λ=λ1,将λ1 代入(3—9)式便可求出对 应的特征向量α1。 (3—11)的左边是关于λ2 的 q 次多项式,有 q 个根。由于 21 1 12 22 1 11 − − 与 12 1 21 11 1 22 − − 的非 零特征根相同。故可以用相同符号表示 0 2 2 2 2 1 K ,并称 1 2 K 0 为典型相关 系数,将λ=λ1 代入(3—7)式可求出对应的特征向量β1。 这样求得 1 1 1 1 1 2 U =X , V = X ,就是要找的第一对典型变量,它们在所有的线性组合 U,V 中具 有最大的相关。λ1 就是 U1,V1 的典型相关系数。 同理,由λ2 及(3—7),(3—9)式得与 U1,V1 相独立的第二对典型变量 2 2 2 2 2 2 U =X , V = X , 直至全部典型变量。 若对 X1 ,X2 进行标准化,即: ki ki i Si x = (x − x ) (i=1,2,…,p,k=1,2,…,n)
x=(xk-x)/S(=1,2,…,q,k=1,2,…,n) 此时的协方差阵∑即为相关阵R R Ru R, 其中R1为第一组各变量x1{x1,x2,…,x}间的相关系数阵,R2为第二组各变量x2{xp+1,xp2,…, xpq}间的相关系数阵,R12=R21为X1与Ⅹ2各变量间的相关系数阵。为方便起见,设p≤q,则解得特征 方程: (R2R2R21-2R31)a=0 (3-12) 或(R21R1R12-2R2)B=0 (3-13) 的非零特征根22≥62…22>0(k≤p)的算术平方根,即为样本典型相关系数 、典型变量 把求得2代入(3-12),(3-13)式,可求得与典型相关系数相对应的特征向量a;,及B。当求出 a后,B亦可通过下式求得 R2B,=1R1 (3-14) 或R2B=R2 于是第i对典型变量(线性组合): U=a'XI V,=B, X2 以上在教学中可以省去。 第二节典型相关系数的显著性检验 典型相关系数的显著性检验,可采用 Bartlett关于大样本的x2检验。因为两组变量X1,X2间若不相 关,则相关阵R12中皆为零元素,故典型相关系数亦为零,于是可作如下检验: 、检验步骤一般地检验第r个典型相关系数λr的显著性时 1、做假设H0:Ar=0 HA:Xr≠0 2、求统计量 A,=(1-2)(-21)…(1-)=I(1-42 (3-21) Q=-[n-r-2(p+q+DIn A (3-22) Q服从df=(pr+1)(qr+1)的x2分布。 3、统计推断 在df=(pr+1)(qr+1),查z2临界值与Q作比较 若Q<z2,p=1-a,接受H:Ar=0典型相关系数r在a水平上不显著: 若Q≥xa,p≤a,否定Ho:r=0,接受HA:≠0,即典型相关系数r在a水平上显著 以下在教学中可以省去 1、做假设H HA:X1≠0
22 kj kj j S j x = (x − x ) (j=1,2,…,q,k=1,2,…,n) 此时的协方差阵∑即为相关阵 R。 21 22 ( )( ) 11 12 p q p q R R R R R + + = 其中 R11 为第一组各变量 X1{x1,x2,…,xp}间的相关系数阵,R22 为第二组各变量 X2{xp+1,xp+2,…, xp+q}间的相关系数阵,R12=R21ˊ为 X1 与 X2 各变量间的相关系数阵。为方便起见,设 p≤q,则解得特征 方程: ( 11) 0 2 21 1 12 22 − = − R R R R (3—12) 或 ( 22 ) 0 2 12 1 21 11 − = − R R R R (3—13) 的非零特征根 0 2 2 2 2 1 K (k≤p)的算术平方根λi,即为样本典型相关系数 二、典型变量 把求得 2 i 代入(3—12),(3—13)式,可求得与典型相关系数相对应的特征向量αi,及βj。当求出 αi 后,βj 亦可通过下式求得: R12 j = iR11 i (3—14) 或 R j R i i 21 1 22 = (3—15) 于是第 i 对典型变量(线性组合): = = 2 1 V X U X j j i i (3—16) 以上在教学中可以省去。 第二节 典型相关系数的显著性检验 典型相关系数的显著性检验,可采用 Bartlett 关于大样本的χ2 检验。因为两组变量 X1,X2 间若不相 关,则相关阵 R12 中皆为零元素,故典型相关系数亦为零,于是可作如下检验: 一、检验步骤 一般地检验第 r 个典型相关系数λr 的显著性时, 1、做假设 H0:λr=0 HA :λr≠0 2、求统计量 (1 )(1 ) (1 ) (1 ) 2 2 2 1 2 i k i r r = − r − r − k = − = + (3—21) r p q r Q = −[n − r − 1 2 ( + +1)]ln (3—22) Qr服从 df=(p-r+1)(q-r+1)的χ2 分布。 3、统计推断 在 df=(p-r+1)(q-r+1),查 2 临界值与 Qr作比较。 若 Qr< 2 ,p=1- ,接受 H0:λr=0 典型相关系数λr 在 水平上不显著; 若 Qr≥ 2 ,p ,否定 H0:λr=0,接受 HA :λr≠0,即典型相关系数λr 在 水平上显著。 以下在教学中可以省去。 1、做假设 H0:λ1=0 HA :λ1≠0
2、求统计量先将求得R1R2R2R21的k个特征根按大小顺序排列:2≥222…≥,求: A2=(1-2)1-12)…(1-)=I(-2) (3-17) 对于大样本的情况其统计量为 Q1=-n-1-(P+q+1)lnA1 (3-18) Q1近似地服从自由度df=p×q的x2分布 3、统计推断 在d→p×q时,查x2临界值与Q1作比较。若Q1x205,p>05,接受H;若Q1≥x05,p∞0.05, 表明至少有第一个典型相关系数是显著的;若Q1<xaln,p>001,H;若Q1≥x201,p<001,表明第 一对个典型变量U1与V1相关极显著。 除去λ1后,继续检验余下的k-1个典型相关系数的显著性,即 A2=(1-2)1-2)…(1-2)=(1-x2) (3-19) Q2=-n-2-(p+q+1)hA2 此时Q2近似服从df2=(p1)×(q1)的x2分布。在d=(P-1)×(q1)时,查x2值与Q2比较, 若Q2<x20s,则表明第二个典型相关系数不显著若;若Q2≥x205,认为第二对典型变量相关显著。依次 类推,一般地检验第r典型相关系数的显著性时,则计算 A,=(1-)1-21)…(1-42)=I(1-4) (3-21) 2=-[n-r-(p+q+D)]n A (3-22) Q服从df=(pr+1)(qr+1)的x2分布 二、检验结果作专业上的解释和推断(见例1.2)。 以上在教学中可以省去 第三节典型相关分析的应用实例 p=2,q=2的实例分析 例1为研究株形性状(X1)与产量性状(X2)间的相关关系,随机抽测20个两系杂交组合稻的剑叶 面积(x1,cm2),株高(x2,cm)以及结实率(x3,%)和千粒重(x4,g)。试作典型相关分析 典型相关分析的步骤如下: (一)计算相关阵 由原始数据算得两组变量之间的相关系数矩阵分别为 10.9734 r3 10.5969 0.9734 /14 0.6560-0.7811 0.6560-0.7715 -0.7715-0.8392 R21=R12 0.7811-0.8392
23 2、求统计量 先将求得 21 1 12 22 1 R11 R R R − − 的 k 个特征根,按大小顺序排列: 2 2 2 2 1 K ,求: (1 )(1 ) (1 ) (1 ) 2 1 2 2 2 2 1 i k i i = − − − k = − = (3—17) 对于大样本的情况其统计量为: 2 1 1 1 Q = −[n −1− ( p + q +1)]ln (3—18) Q1 近似地服从自由度 df=p×q 的χ2 分布。 3、统计推断 在 df1=p×q 时,查 2 临界值与 Q1 作比较。若 Q 1< 2 0.05,p>0.05,接受 H0;若 Q 1≥ 2 0.05 ,p<0.05, 表明至少有第一个典型相关系数λ1 是显著的;若 Q 1< 2 0.01,p>0.01,H0;若 Q 1≥ 2 0.01 ,p<0.01,表明第 一对个典型变量 U1 与 V1 相关极显著。 除去λ1 后,继续检验余下的 k-1 个典型相关系数的显著性,即 (1 )(1 ) (1 ) (1 ) 2 2 2 2 3 2 2 2 i k i = − − − k = − = (3—19) 2 2 1 2 Q = −[n − 2 − ( p + q +1)]ln (3—20) 此时 Q2 近似服从 df2=(p-1)×(q-1)的χ2 分布。在 df2=(p-1)×(q-1)时,查 2 值与 Q 2 比较, 若 Q2﹤ 2 0.05 ,则表明第二个典型相关系数不显著若;若 Q2≥ 2 0.05 ,认为第二对典型变量相关显著。依次 类推,一般地检验第 r 典型相关系数的显著性时,则计算 (1 )(1 ) (1 ) (1 ) 2 2 2 1 2 i k i r r = − r − r − k = − = + (3—21) r p q r Q = −[n − r − 1 2 ( + +1)]ln (3—22) Qr服从 df=(p-r+1)(q-r+1)的χ2 分布。 二、检验结果作专业上的解释和推断(见例 1.2)。 以上在教学中可以省去。 第三节 典型相关分析的应用实例 一、p=2,q=2 的实例分析 例 1 为研究株形性状(X1)与产量性状(X 2)间的相关关系,随机抽测 20 个两系杂交组合稻的剑叶 面积(x1,cm2),株高(x2,cm)以及结实率(x3,%)和千粒重(x4,g)。试作典型相关分析。 典型相关分析的步骤如下: (一)计算相关阵 由原始数据算得两组变量之间的相关系数矩阵分别为: − − − − = = − − − − = = = = = = 0.7811 0.8392 0.6560 0.7715 0.7715 0.8392 0.6560 0.7811 0.5969 1 1 0.5969 1 1 0.9734 1 1 0.9734 1 1 2 1 1 2 2 3 2 4 1 3 1 4 1 2 4 3 3 4 2 2 2 1 1 2 1 1 R R r r r r R r r R r r R