第十九讲多维标度法dataobjectdataasvectorembeddingembeddingmodel0.0560.00S0-0.060.04580嵌入embedding/标度scaling:将对象表示成向量
第十九讲 多维标度法 embedding/scaling 嵌入embedding/标度scaling: 将对象表示成向量
n个物体/对象(object)的相似度矩阵S,单向谱配列方法以n个实数Recap(即Laplace矩阵L=D一S的最小非O特征向量)表示n个物体,该特征向量称为物体的embedding嵌入/scaling标度/encoding编码单向谱配列:n个物体的相似度矩阵S=(si),d=S1,D = diag(d), 记Laplacian矩阵L = D - S,min=sij(xi -x;)2 =minxTLx, s.t. Ilxl = 1, x 1 1最优解为L的最小非o特征根对应的特征向量xmin,其n个分量是n个物体(标量、因子水平等)的实数表示embedding):特征向量xmin分量的次序代表了n个物体的邻近和顺序关系。例1.食品评价例子:5个指标的相关系数矩阵如下,当作相似系数矩阵Taste Goodbuy FlavorSnackEnergyTaste10.020.960.420.01)Energy0.0210.130.710.85GoodbuyS=GoodbuySnackTasteFlavorFlavor0.960.1310.500.110.420.710.500.79Snack110.010.850.110.79EnergyTasteFlavorSnack GoodbuyEnergy-0.449-0.6000.1310.4580.480特征向量L=D-Sembedding2
2 𝑛个物体/对象(object)的相似度矩阵𝑆,单向谱配列方法以𝑛个实数 (即Laplace矩阵𝐿 = 𝐷 − 𝑆的最小非0特征向量)表示𝑛个物体,该 特征向量称为物体的embedding嵌入/scaling标度/encoding编码 Recap 单向谱配列: 𝑛个物体的相似度矩阵𝑆 = (𝑠𝑖𝑗), 𝐝 = 𝑆𝟙, 𝐷 = diag(𝐝), 记Laplacian矩阵𝐿 = 𝐷 − 𝑆, min1 2 σ s𝑖𝑗(𝑥𝑖 − 𝑥𝑗) 2 = min𝐱 ⊤𝐿𝐱 ,s.t. 𝐱 = 1,𝐱 ⊥ 𝟙 最优解为𝐿的最小非0特征根对应的特征向量𝐱min,其𝑛个分 量是𝑛个物体(标量、因子水平等)的实数表示(embedding), 特征向量𝐱min分量的次序代表了𝑛个物体的邻近和顺序关系。 0.01 0.85 0.11 0.79 1 0.42 0.71 0.50 1 0.79 0.96 0.13 1 0.50 0.11 0.02 1 0.13 0.71 0.85 1 0.02 0.96 0.42 0.01 Energy Snack Flavor Goodbuy Taste Taste Goodbuy Flavor Snack Energy 𝑆 = 例1.食品评价例子:5个指标的相关系数矩阵如下,当作相似系数矩阵 𝐿 = 𝐷 − 𝑆 特征向量 embedding Taste Flavor Snack Goodbuy Energy −0.600 −0.449 0.131 0.458 0.480
单向配列(seriation)问题基于相似度矩阵求解研究对象的一维欧氏表示,并排序。但一维表示信息不够丰富。多维标度法考虑将n个物体映射到k维向量,X1,,XnERk,能否将单向谱配列的优化目标函数拓展为 silx - x,;l ? silxi - x;ll2 =, sij((xi1 - xj1)2 + .. + (xik - xjk)2)=sij(xi1 -xj1)2 + +sij(xik -Xjk)2X = (X1,.,Xn)T= x()LX(1) + .. +x(k) LX(k) = tr(XTLX)= (X(1),. X(k)如果限制X列正交,那么最优解是L的最小k个非o特征根的特征向量。但从保距或保内积的角度来看,该限制过于严苛,如下图例1(续)Taste和flavor在L的二o维特征向量表示下相距很远,这858显然不合理。3402e4624.13
3 单向配列(seriation)问题基于相似度矩阵求解研究对象的一维欧 氏表示,并排序。但一维表示信息不够丰富。 多维标度法考虑将𝑛个物体映射到𝑘维向量, 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑘 , 能否将单 向谱配列的优化目标函数拓展为 1 2 σ s𝑖𝑗 𝐱𝑖 − 𝐱𝑗 2 ? 1 2 σ s𝑖𝑗 𝐱𝑖 − 𝐱𝑗 2 = 1 2 σ s𝑖𝑗 (𝑥𝑖1 − 𝑥𝑗1) 2 + ⋯ + (𝑥𝑖𝑘 − 𝑥𝑗𝑘) 2 = 1 2 σ s𝑖𝑗(𝑥𝑖1 − 𝑥𝑗1) 2 + ⋯ + 1 2 σ s𝑖𝑗(𝑥𝑖𝑘 − 𝑥𝑗𝑘) 2 = 𝐱(1) ⊤ 𝐿𝐱(1) + ⋯ +𝐱(𝑘) ⊤ 𝐿𝐱(𝑘) = 𝑡𝑟(𝑋 ⊤𝐿𝑋) 如果限制𝑋列正交,那么最优解是 𝐿 的最小𝑘个非0特征根的特征 向量。但从保距或保内积的角度来看,该限制过于严苛, 如下图 例1(续)Taste和 flavor 在 𝐿 的二 维特征向量表示下相距很远,这 显然不合理。 𝑋 = (𝐱1, . , 𝐱𝑛) ⊤ = (𝐱 1 , . , 𝐱(𝑘))
标度/嵌入/编码/低维表示Scaling主观评价或非数值变量的量化方式称为标度方法embedding(scaling)。高维欧氏向量的压缩重新表示也可称为标度或嵌入(embedding)方法。多维标度法(MDS,multidimensionalscaling)在尽量保持之间相近程度信息的前提下,用欧氏向量表示研究对象(object)。这里object可以是物体样本个体、变量或其他任何感兴趣的研究对象。多维标度法用多个实数即向量表示每个研究个体。单向配列将研究对象/物体用实数表达出来,可称为1维标度法。实际上PCA、SVD、CCA、CA等方法都是某种意义上的标度或嵌入方法不同的是这些方法基于数据矩阵X,而MDS基于(主观)相似度矩阵或距离矩阵对感兴趣的对象(object)进行嵌入表示,这里的object可以是个体,也可以是变量。如果将主观相似度矩阵可以理解成XX或XTX,那么MDS与PCA/SVD等方法类似下面首先回顾一下这些传统方法
4 标度/嵌入/编码/低维表示 主观评价或非数值变量的量化方式称为标度方法 (scaling) 。高维欧氏向量的压缩重新表示也可称 为标度或嵌入 (embedding)方法。 多维标度法(MDS,multidimensional scaling)在 尽量保持之间相近程度信息的前提下,用欧氏向量 表示研究对象(object)。这里object可以是物体、 样本个体、变量或其他任何感兴趣的研究对象。 Scaling embedding 多维标度法用多个实数即向量表示每个研究个体。单向配列将研究对 象/物体用实数表达出来,可称为1维标度法。 实际上PCA、SVD、CCA、CA等方法都是某种意义上的标度或嵌入方法, 不同的是这些方法基于数据矩阵𝑋,而MDS基于(主观)相似度矩阵 或距离矩阵对感兴趣的对象(object)进行嵌入表示,这里的object可 以是个体,也可以是变量。如果将主观相似度矩阵可以理解成𝑋𝑋 ⊤或 𝑋 ⊤𝑋,那么MDS与PCA/SVD等方法类似。 下面首先回顾一下这些传统方法
PCA/假设中心化的数据矩阵Xnxp(行:样本个体,列:变量)。FAX的行向量表达了每个个体,X的列向量表达了每个变量,这是个体或变量的原始嵌入/欧氏表示。PCA:如果希望得到个体的低维的/更有效的表示,我们将变量个数p压缩,以更短长度k<p的行向量表示个体一如何得到有用的压缩?整合变量(X的列)之间的相关性/相似性,提取XX前k个最重要的特征向量(载荷,这实际上是变量的嵌入/压缩表示)作用在X的行向量上得到主成分,即个体的低维嵌入(这实际上是XX的特征向量),上述过程得到了个体的低维嵌入(主成分),同时也得到了变量的低维嵌入(载荷)。这种对偶性正是SVD,biplot是这种对偶性的体现。具体地,利用方差矩阵(或XTX)的特征向量矩阵V压缩变量/变换数据,得到样本个体的新的表示:主成分Y=XV(注意Y的列向量是XXT的特征向量),其第行的前若于个分量(主成分)是第个个体的压缩表示/嵌入。换言之,PCA利用变量(X的列)之间的方差矩阵(即变量的相似度矩阵)的特征向量V对数据进行主成分变换,得到个体(×的行)的主成分表示(即个体相似度矩阵XXT的特征向量)。根据对称性,从行的特征也可到列的刻画/嵌入。FA:模型表示PCA,潜变量~主成分5
5 假设中心化的数据矩阵𝑋𝑛×𝑝(行:样本个体,列:变量)。 𝑋的行向量表达了每个个体,𝑋的列向量表达了每个变量,这是个 体或变量的原始嵌入/欧氏表示。 PCA:如果希望得到个体的低维的/更有效的表示, 我们将变量个数 𝑝 压缩, 以更短长度 𝑘 < 𝑝 的行向量表示个体 – 如何得到有用的压 缩? 整合变量(X的列)之间的相关性/相似性, 提取𝑋 ⊤𝑋前 𝑘 个最重要的特 征向量(载荷, 这实际上是变量的嵌入/压缩表示),作用在X的行向量 上得到主成分,即个体的低维嵌入(这实际上是𝑋 𝑋 ⊤的特征向量). 上 述过程得到了个体的低维嵌入(主成分),同时也得到了变量的低维嵌 入(载荷) 。这种对偶性正是SVD,biplot是这种对偶性的体现。 PCA/ FA 具体地, 利用方差矩阵(或𝑋 ⊤𝑋)的特征向量矩阵𝑉压缩变量/变换数据,得到 样本个体的新的表示:主成分𝑌 = 𝑋𝑉(注意𝑌的列向量是𝑋𝑋⊤的特征向量), 其第𝑖行的前若干个分量(主成分)是第𝑖个个体的压缩表示/嵌入。换言之, PCA利用变量(X的列)之间的方差矩阵(即变量的相似度矩阵)的特征向量 𝑉对数据进行主成分变换,得到个体(X的行)的主成分表示(即个体相似度 矩阵𝑋𝑋⊤的特征向量)。根据对称性,从行的特征也可到列的刻画/嵌入。 FA:模型表示PCA, 潜变量≈主成分