第十八讲 距离和相似系数2dSij=expd:距离,s:相似系数
第十八讲 距离和相似系数 1 𝑠𝑖𝑗 = exp − 1 2 𝑑𝑖𝑗 2 𝑑: 距离,𝑠: 相似系数
内积:相似度向量内积向量内积(x,y) = xTy = Zxiyi衡量两个向量x,y的相似性,当yαx时相似度最大。假设矩阵Xnxp,Ynxg的行代表样本,列代表变量,则XTYX = (x(1)., X(p), Y = (y(1),..,y(g), XTY = (x()y()描述了X,Y列向量/变量之间相似性,其(i,j)元x)yG)代表X(),y)之间的相似性。如果X,Y是列中心化的,则碧=Sxy 是样本协方差矩阵。所以协方差或相关系数都是某种相似度量。Y = X时, X = (x(1),., X(p)) = (X1, ., Xn)T→XTX=(x)×G)描述X各列(变量)之间的相似性;*XXT=(x,x)描述了样本(X的行)之间的相似性。2
2 内积:相似度 向量内积 𝐱, 𝐲 = 𝐱 ⊤𝐲 = σ 𝑥𝑖𝑦𝑖 衡量两个向量 𝐱, 𝐲 的相似性,当𝐲 ∝ 𝐱时相似度最大。 假设矩阵 𝑋𝑛×𝑝, 𝑌𝑛×𝑞 的行代表样本,列代表变量,则 𝑋 = 𝐱 1 , . , 𝐱 𝑝 ,𝑌 = (𝐲 1 , . , 𝐲 𝑞 ),𝑋 ⊤𝑌 = 𝐱(𝑖) ⊤ 𝐲(𝑗) 描述了𝑋, 𝑌列向量/变量之间相似性,其 (𝑖,𝑗) 元 𝐱(𝑖) ⊤ 𝐲(𝑗) 代表 𝐱 𝑖 , 𝐲(𝑗)之间的相似性。 如果𝑋, 𝑌是列中心化的,则 𝑋 ⊤𝑌 𝑛−1 = 𝑆𝐱𝐲 是 样本协方差矩阵。所以协方差或相关系数都是某种相似度量。 向量 内积 𝑋 ⊤𝑌 𝑌 = 𝑋时,𝑋 = 𝐱 1 , . , 𝐱 𝑝 = (𝐱1, . , 𝐱𝑛) ⊤ 𝑋 ⊤𝑋 = 𝐱(𝑖) ⊤ 𝐱(𝑗) 描述𝑋各列(变量)之间的相似性; 𝑋𝑋 ⊤ = 𝐱𝑖 ⊤ 𝐱𝑗 描述了样本 (𝑋的行)之间的相似性
这里的“因子”与例1.(1)n个p-水平属性变量(因子变量)的one-hotembedding因子分析中的“因子”含义不同。X1,,XnERP,其中xi分量中仅有一个1,其余全是0。记X = (X1,.,Xn)T = (xij), X1p = 1pxij=1,若样本取第j个水平记X第i列的总和rj==1xii=水平j的样本个数,水平之间互,X不同列内积为0(不相似):0rXTX =.0例如因子变量size 取值大、中、小,n=5 次观测为大、小、小、中、大,以示性变量表示,样本矩阵X如下大中小001000201X=00XTX-001XXT02000100
3 例1. 1 𝑛个𝑝-水平属性变量(因子变量)的 one-hot embedding 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑝 , 其中𝐱𝑖分量中仅有一个1,其余全是0。记 𝑋 = (𝐱1, . , 𝐱𝑛) ⊤ = (𝑥𝑖𝑗), 𝑋𝟙𝑝 = 𝟙𝑝 记𝑋第𝑗列的总和 𝑟𝑗 = σ𝑖=1 𝑛 𝑥𝑖𝑗 = 水平 𝑗 的样本个数, 水平之间互斥,𝑋不同列内积为0(不相似): 𝑋 ⊤𝑋 = 𝑟1 ⋯ 0 ⋮ ⋱ ⋮ 0 ⋯ 𝑟𝑝 , , 0 0 2 0 1 0 2 0 0 1 0 0 0 1 0 0 0 1 0 0 1 1 0 0 X X X , T 1 0 0 0 1 0 0 0 1 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 T XX 大 中 小 例如因子变量 size 取值大、中、小, 𝑛 = 5 次观测为大、小、小、中、大, 以示性变量表示,样本矩阵𝑋如下 𝑥𝑖𝑗 = 1,若样本 𝑖取第 𝑗 个水平 这里的“因子”与 因子分析中的“因 子”含义不同
(2)假设n个样本,每个样本有两个因子变量x,y,各有p,q个水平x1..x和y1,Yg,则数据one-hot表示为n×(p+q)矩阵X1p = 1pZ = (X,Y),Y1g = 1q其中X=(xi),Y=(yi)分别是第一、二个因子的one-hot表示。记r=XT1,c=T1分别为X,Y的列边际总和,则同(1)XTX = diag(r) ≤ Dr, YTY = diag(c) 二 Dc而W =XTY= (wWik),其G,k)元Wjk=n=1xiiyik=#[x,y水平各为,k的样本个数)则W=XTY是两个因子x,y交叉分类得到的列联表:yi,.yqx1r = XTIn = XTYIg = W1g:W=XTYrC= YTIn = YTX1p = WT1,XpC74
4 (2) 假设𝑛个样本 ,每个样本有两个因子变量𝑥, 𝑦,各有 𝑝, 𝑞个水平𝑥1,., 𝑥𝑝和𝑦1,., 𝑦𝑞,则数据one-hot表示为𝑛 × (𝑝 + 𝑞)矩阵 𝑍 = (𝑋, 𝑌), 其中𝑋 = (𝑥𝑖𝑗), 𝑌 = 𝑦𝑖𝑗 分别是第一、二个因子的one-hot表示 。 记 𝐫 = 𝑋 ⊤𝟙, 𝐜 = 𝑌 ⊤𝟙分别为𝑋, 𝑌的列边际总和,则同(1), 𝑋 ⊤𝑋 = 𝑑𝑖𝑎𝑔(𝐫) ≜ 𝐷𝐫 , 𝑌 ⊤𝑌 = 𝑑𝑖𝑎𝑔(𝐜) ≜ 𝐷𝐜 而𝑊 = 𝑋 ⊤𝑌 = (𝑤𝑗𝑘), 其 (𝑗, 𝑘) 元 𝑤𝑗𝑘 = σ𝑖=1 𝑛 𝑥𝑖𝑗𝑦𝑖𝑘 = #{𝑥, 𝑦 水平各为𝑗, 𝑘 的样本个数} 则𝑊 = 𝑋 ⊤𝑌是两个因子𝑥, 𝑦交叉分类得到的列联表: 𝐫 𝐜 ⊤ 𝑊 = 𝑋 ⊤𝑌 𝐫 = 𝑋 ⊤ 𝟙𝑛 = 𝑋 ⊤𝑌𝟙𝑞 = 𝑊𝟙𝑞 𝐜 = 𝑌 ⊤ 𝟙𝑛 = 𝑌 ⊤𝑋𝟙𝑝 = 𝑊⊤ 𝟙𝑝 𝑋𝟙𝑝 = 𝟙𝑝 𝑌𝟙𝑞 = 𝟙𝑞 𝑦1, ., 𝑦𝑞 𝑥1 ⋮ 𝑥𝑝
综上,WD.XTXXTYZTZ :WTW=XTYyTXD.YTY1zTz ER(p+a)×(p+Q)是所有x.,xp;y.,yg的内积相似度矩阵,其中我们主要关心W。C例如,n=5,每个个体有两个因子变量:x(size:大中小),y(weight:轻、重)sizeweight重轻大中小大中小重轻010I0大(20020列联表0001中0OXTYxix0Z=(X,Y)=010=小7100YxY'Y00011重02210010轻300
5 , 1 0 0 1 1 0 0 1 1 0 1 0 0 0 1 0 0 0 1 0 0 1 1 0 0 Z (X ,Y) 大 中 小 重 轻 size weight 例如,𝑛 = 5, 每个个体有两个因子变量: 𝑥 (size:大中小), 𝑦 (weight:轻、重) 0 1 1 0 3 2 0 1 2 0 0 0 2 1 1 0 1 0 0 1 2 0 0 2 0 轻 重 小 中 大 大 中 小 重 轻 Y X Y Y X X X Y Z Z T T T T T 列联表 综上, 𝑍 ⊤𝑍 = 𝑋 ⊤𝑋 𝑋 ⊤𝑌 𝑌 ⊤𝑋 𝑌 ⊤𝑌 = 𝐷𝐫 𝑊 𝑊⊤ 𝐷𝐜 𝑍 ⊤𝑍 ∈ 𝑅 𝑝+𝑞 × 𝑝+𝑞 是所有 𝑥1,., 𝑥𝑝;𝑦1,., 𝑦𝑞的内积相 似度矩阵,其中我们主要关心𝑊。 𝐫 𝐜 ⊤ 𝑊 = 𝑋 ⊤𝑌