记Zc=(Xc,Y)=(X-IrT/n,Y-1cT/n)为Z的列中心化,则(SxxSxy)(xTXeXTY)-(Dr-rrT/nW-rcT/n(n - 1) (YT X。YTYe)=(WT-crT/n D-ccT/nSyxSyy))其中W-rcT/nW.是W的双向中心化,而W的中心标准化为W, = D=1/2W.D-1/2*Pearons独立性/齐一性检验的卡方统计量X2 = nllW,ll12[W,I, amax(W,)?*对应分析:W,奇异值分解:W,=D-1/2WeD=1/2=UDVTF = D-1/2UD, G = D-1/2VD,biplot:取F[,1:2],G[,1:2]分别作为因子x,y的二维表示,plot(FL,1:2)points(G[,1:2])6
6 记𝑍𝑐 = 𝑋𝑐 , 𝑌𝑐 = 𝑋 − 𝟙𝐫 ⊤/𝑛, 𝑌 − 𝟙𝐜 ⊤/𝑛 为 𝑍 的列中心化,则 其中 𝑊 − 𝐫𝐜 ⊤/𝑛 ≜ 𝑊𝑐是𝑊的双向中心化,而𝑊的中心标准化为 𝑊𝑠 = 𝐷𝐫 −1/2𝑊𝑐𝐷𝐜 −1/2 |𝑊𝑠 |, 𝜆𝑚𝑎𝑥 𝑊𝑠 ? (𝑛 − 1) 𝑆𝐱𝐱 𝑆𝐱𝐲 𝑆𝐲𝐱 𝑆𝐲𝐲) = 𝑋𝑐 ⊤ 𝑋𝑐 𝑋𝑐 ⊤ 𝑌𝑐 𝑌𝑐 ⊤ 𝑋𝑐 𝑌𝑐 ⊤ 𝑌𝑐 = 𝐷𝐫 − 𝐫𝐫 ⊤/𝑛 𝑊 − 𝐫𝐜 ⊤/𝑛 𝑊⊤ − 𝐜𝐫 ⊤/𝑛 𝐷𝐜 − 𝐜𝐜⊤/𝑛 Pearons独立性/齐一性检验的卡方统计量 𝑋 2 = 𝑛 𝑊𝑠 2 对应分析: 𝑊𝑠奇异值分解:𝑊𝑠 = 𝐷𝐫 −1/2𝑊𝑐𝐷𝐜 −1/2 = 𝑈𝐷𝑉 ⊤ 𝐹 = 𝐷𝐫 −1/2 𝑈𝐷, 𝐺 = 𝐷𝐜 −1/2 𝑉𝐷, biplot: 取 𝐹[, 1: 2], 𝐺[, 1: 2] 分别作为因子 𝑥, 𝑦 的二维表示, plot(F[,1:2]) points(G[,1:2])
通过例1的分析,我们可以这样理解对应分析口列联表的欧氏表示:通过one-hotembedding把列联表W中的所有入体用欧氏向量表示出来。口对欧氏表示的方差-协方差矩阵应用主成分分析对于一般的相似度矩阵或丰度矩阵可以类似地处理
7 通过例1的分析,我们可以这样理解对应分析: 列联表的欧氏表示:通过 one-hot embedding 把 列联表 𝑊 中的所有个体用欧氏向量表示出来。 对欧氏表示的方差-协方差矩阵应用主成分分析 对于一般的相似度矩阵或丰度矩阵可以类似地处理
相似度和距离相似度或邻近程度:proximity,similarity,closeness距离或相异度:distance,dissimilarity有些问题相似度容易定义,另一些问题距离可能更容易确定两者是相反的概念。距离表示两个物体的相异程度。满足数学定义的距离比较容易相似度定义,最常用的是欧氏距离。但在某些问题中,“距离”代表和距离主观感知的远近程度,未必满足距离的数学定义。相似度或相似系数代表两个物体的相似程度,在数学上没有严格定义。在实际应用中通常以欧氏内积或相关系数作为相似度,有时以距离的减函数定义。凭主观感知打分的相似度也很常见,尤其是研究对象不可测量的时候。无论哪种方式定义,距离或相似度一般都是对称的。基于相似/相异系数的方法:聚类分析、多维标度法、配列等。8
8 相似度和距离 距离表示两个物体的相异程度。满足数学定义的距离比较容易 定义,最常用的是欧氏距离。但在某些问题中,“距离”代表 主观感知的远近程度,未必满足距离的数学定义。 相似度或相似系数代表两个物体的相似程度,在数学上没有严 格定义。在实际应用中通常以欧氏内积或相关系数作为相似度, 有时以距离的减函数定义。凭主观感知打分的相似度也很常见, 尤其是研究对象不可测量的时候。 相似度 和距离 无论哪种方式定义,距离或相似度一般都是对称的。基于相 似/相异系数的方法:聚类分析、多维标度法、配列等。 相似度或邻近程度:proximity, similarity,closeness 距离或相异度:distance,dissimilarity 有些问题相似度容易定义,另一些问题距离可能更容易确定, 两者是相反的概念
相似对于可测量的情形,通常以内积或者相关概念定义相似度。对于没系数有具体测量的情形,两个研究对象的相似系数通常根据具体问题给出或主观印象打分评定。假设两个对象的测量为向量xy,根据具体问题背景,相似系数s(x,y)可以定义为与内积或距离有关的函数:内积: s(x,y) = cxTy, s(x,y) = cxTy/ lxllyll·距离的减函数,比如高斯核函数将距离转化为相似系数:s(x,y) = exp(-Ix -yll2例2.假设x,y都是长度为p的0-1序列,x = 110100y=010010下述相似系数都与。s(x,y)=xTy/p=1匹配的比例=1/6.· s(x,y)=[xTy+(1-x)T(1-y)]/p=1或0匹配的比例=3/6.·s(x,y)= xTy/Z1(xi+yi>0)= 1/4(都是o的位置不统计在内)
9 对于可测量的情形,通常以内积或者相关概念定义相似度。对于没 有具体测量的情形,两个研究对象的相似系数通常根据具体问题给 出或主观印象打分评定。 相似 系数 例2. 假设 𝐱, 𝐲都是长度为𝑝的0-1序列, 𝐱 = 110100 𝐲 = 010010 下述相似系数都与 • 𝑠 𝐱, 𝐲 = 𝐱 ⊤𝐲/𝑝 = 1匹配的比例=1/6. • 𝑠 𝐱, 𝐲 = [𝐱 ⊤𝐲 + 𝟏 − 𝐱 ⊤ 𝟏 − 𝐲 ]/𝑝 = 1或0匹配的比例=3/6. • 𝑠 𝐱, 𝐲 = 𝐱 ⊤𝐲/σ 1(𝑥𝑖+𝑦𝑖> 0) = 1/4 (都是0的位置不统计在内). 假设两个对象的测量为向量𝐱, 𝐲, 根据具体问题背景,相似系 数𝑠(𝐱, 𝐲)可以定义为与内积或距离有关的函数: • 内积: 𝑠 𝐱, 𝐲 = 𝑐𝐱 ⊤𝐲, 𝑠 𝐱, 𝐲 = 𝑐𝐱 ⊤𝐲/ 𝐱 𝐲 • 距离的减函数,比如高斯核函数将距离转化为相似系数: 𝑠 𝐱, 𝐲 = exp − 1 2 𝐱 − 𝐲 2
例3.(不同“相似性”的定义)下面图(a)中的16张扑克牌。(b)根据花式区分,相同的花式是相似的:(c)根据颜色区分,同色的相似;(d)主牌相似、副牌相似。inusis(bridge例4,各种语言在历史上不断演变或相互影响,研究语言之间的关系有助于了解历史上文化发展融合过程。语言的相似性可以体现在多方面,主要体现在发音,其中数字1,2....9,10的读音颇具代表性。汉字在日本分音读和训读(本地)两种读法,在越南分汉语词和纯越词两种读法。下表是粤语(南越、唐话)、越南(汉越)、日语(音读)的数字读音:数字13468910572粤语baseilaocha相似度7/10yisayasanggaotupthatbat越南(汉越)nhatnhingulucciruthaptamchaba粤语seilaosayayinggaosa相似度4/10ichini日语(音读)shi,yonroku shichi,nana hachikujuusango10
10 例3.(不同“相似性”的定义) 下面图(a)中的 16张扑克牌。 (b) 根据花式区分,相同的花式是相似的; (c) 根据颜色区分,同色的相似; (d) 主牌相似、副牌相似。 ♦♥ 例4. 各种语言在历史上不断演变或相互影响,研究语言之间的关系有助 于了解历史上文化发展融合过程。语言的相似性可以体现在多方面,主 要体现在发音,其中数字1,2,.,9, 10的读音颇具代表性。汉字在日本分音 读和训读(本地)两种读法,在越南分汉语词和纯越词两种读法。下表 是粤语(南越、唐话)、越南(汉越)、日语(音读)的数字读音: 数字 1 2 3 4 5 6 7 8 9 10 粤语 ya yi sa sei ng lao cha ba gao sa 越南(汉越) nhất nhì tam tư ngũ lục thất bát cửu thập 粤语 ya yi sa sei ng lao cha ba gao sa 日语(音读) ichi ni san shi,yon go roku shichi,nana hachi ku juu 相似度7/10 相似度4/10