此时最大的相关系数为p1=corr(aiX,Y). 。而给定前k-1(k>1)个典则方向(a1,b1),.,(ak-1,bk-1) 后,第k个典则方向为 (ak,bk)= argmax a'∑xyb a'Exxa=1 bEyyb=1 cor(a'X,a{X)=0,i=1,,k-1 corr(b'Y,bY)=0.i=1.....k-1 。所有典则方向可以通过广义特征根方程得到.令足≥·≥ λ?>0为KK'和K'K的全部非零特征根,其中s≤min{P,q} 对应的KK'的特征向量为a,KK的特征向量为B,则可以 得到 ai =x2as,bi=yy28,i=1,....s Previous Next First Last Back Forward
此时最大的相关系数为 ρ1 = corr(a ′ 1X, b′ 1Y). • 而给定前 k − 1 (k > 1) 个典则方向 (a1, b1), . . . ,(ak−1, bk−1) 后, 第k 个典则方向 为 (ak, bk) = argmax a ′ΣXXa=1 b ′ΣY Y b=1 corr(a ′X,a′ iX)=0,i=1,...,k−1 corr(b ′Y,b′ iY )=0,i=1,...,k−1 a ′ΣXY b • 所有典则方向可以通过广义特征根方程得到. 令 λ 2 1 ≥ · · · ≥ λ 2 s > 0 为 KK′ 和 K′K 的全部非零特征根, 其中 s ≤ min{p, q}. 对应的 KK′ 的特征向量为 αi, K′K 的特征向量为 βi, 则可以 得到 ai = Σ−1/2 XX αi, bi = Σ−1/2 Y Y βi, i = 1, . . . , s Previous Next First Last Back Forward 5
称(a1,bi),.,(as,bs)为典则方向(canonical directions)),而 称 U;=aX,Vi=BY 为第i对典型相关变量(canonical variates),其满足 corr(Ui,Vi)=Ai,i=1,...,s corr(Ui,Uj)=0,corr(Vi,Vj)=0,corr(Ui,Vj)=0,i#j 。从上面可以看出,第二对典型相关变量应不包含第一对典型相 关变量的信息(相关系数为零).以此类推.第k对典型相关变 量应和之前的k一1对典型相关变量不相关. Previous Next First Last Back Forward 8
⋄ 称 (a1, b1), . . . ,(as, bs) 为典则方向(canonical directions), 而 称 Ui = a ′ iX, Vi = b ′ iY 为第 i 对典型相关变量(canonical variates), 其满足 corr(Ui, Vi) = λi, i = 1, . . . , s corr(Ui, Uj ) = 0, corr(Vi, Vj ) = 0, corr(Ui, Vj ) = 0, i ̸= j ⋄ 从上面可以看出, 第二对典型相关变量应不包含第一对典型相 关变量的信息 (相关系数为零). 以此类推. 第 k 对典型相关变 量应和之前的 k − 1 对典型相关变量不相关. Previous Next First Last Back Forward 6
定理1.设X*=A'X+u,Y*=BY+v,其中A:p×p,B:q×q 为可逆方阵,u:p×1,v:q×1为实常数向量,则 1)X*和Y*的典型相关变量为a:X*和bY,其中a':= A-1ai,b:=B-1bi,ai,b:为X,Y的第i对典型相关变量的系数. (2)coTr(a*X,b*Y)=corr(a:X,bY),即线性变换不改变相 关性。 注:若在定理中取A=(diag8xx)1/2,B=(diagEyy)-1/2,则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下 Previous Next First Last Back Forward
定理 1. 设 X ∗ = A ′X + u, Y ∗ = B ′Y + v, 其中 A : p × p, B : q × q 为可逆方阵, u : p × 1, v : q × 1 为实常数向量, 则 (1) X ∗ 和 Y ∗ 的典型相关变量为 a ∗′ iX ∗ 和 b ∗′ iY , 其中 a ∗ i = A −1 ai, b∗ i = B −1 bi, ai, bi 为 X, Y 的第 i 对典型相关变量的系数. (2) corr(a ∗′ iX ∗ , b∗′ iY ) = corr(a ′ iX, b′ iY ), 即线性变换不改变相 关性. 注: 若在定理中取 A = (diagΣXX) 1/2 , B = (diagΣY Y ) −1/2 , 则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下. Previous Next First Last Back Forward 7
样本典型相关(classical CCA) ·当总体协方差xx,∑yY,∑xy未知时候,设{x,y,},i= 1,,n为总体Z={Xpx1,Ygx1}的一组样本,n≥p,n≥q ·则由样本协方差矩阵得到∑xx,∑yy,∑xy的估计 x=5x=2--到 y=sy=,-0,-=4y Sxy-5xy ·使用估计xx,yy,xy代替得到样本典型相关变量(心,) 和典则方向(a:,b) Previous Next First Last Back Forward 8
样本典型相关 (classical CCA) • 当总体协方差 ΣXX, ΣY Y , ΣXY 未知时候, 设 {xi, yi , }, i = 1, . . . , n 为总体 Z = {Xp×1, Yq×1} 的一组样本, n ≥ p, n ≥ q. • 则由样本协方差矩阵得到 ΣXX, ΣY Y , ΣXY 的估计 Σˆ XX = SXX = 1 n − 1 ∑n i=1 (xi − x¯)(xi − x¯) ′ = 1 n − 1 AXX Σˆ Y Y = SY Y = 1 n − 1 ∑n i=1 (yi − y¯)(yi − y¯) ′ = 1 n − 1 AY Y Σˆ XY = SXY = 1 n − 1 ∑n i=1 (xi − x¯)(yi − y¯) ′ = 1 n − 1 AXY • 使用估计 Σˆ XX, Σˆ Y Y , Σˆ XY 代替得到样本典型相关变量(Uˆi, Vˆi) 和典则方向 (ˆai, ˆbi) Previous Next First Last Back Forward 8
,这等价于使样本相关最大化:记x,y为中心化的n×p,n×q 样本矩阵,则 (a1,b)= argmax a'x'yb Xall=1.llybll=1 例:橄榄油数据 ·R包classifly中的数据集olives记录了n=572种橄榄油的 p=9特征变量值,其中变量1取值{1,2,3},表示意大利的三 个地区.其他变量为8种脂肪酸含量测量值 ·我们感兴趣的是三个地区与脂肪酸测量之间的相关性.因此取 x∈R2x8,by∈572x3为三个地区的示性变量矩阵,每行表 Previous Next First Last Back Forward 9
• 这等价于使样本相关最大化: 记 x, y 为中心化的 n × p, n × q 样本矩阵, 则 (ˆa1, ˆb1) = argmax ∥xa∥=1,∥yb∥=1 a ′ x ′ yb 例: 橄榄油数据 • R 包 classifly 中的数据集 olives 记录了 n = 572 种橄榄油的 p = 9 特征变量值, 其中变量 1 取值 {1, 2, 3}, 表示意大利的三 个地区. 其他变量为 8 种脂肪酸含量测量值. • 我们感兴趣的是三个地区与脂肪酸测量之间的相关性. 因此取 x ∈ R 572×8 , by ∈ R 572×3 为三个地区的示性变量矩阵, 每行表 Previous Next First Last Back Forward 9