变量的变量的个体的个体的相相似度表示VD表示UD似度XTXXXTVY=XV=UD特征特征主成向量向量分变换对偶性:利用列特征得到行(个体)的嵌入表示,利用行特征得到列(变量)的嵌入表示,这正是SVD所表达的行列之间的对偶性。总之,变量之间的相似度矩阵XTX的特征向量V(其实是VD)的前k列是变量的k维嵌入/标度;个体之间的相似度矩阵XXT的特征向量U其实是VD)的前k列是个体的k维嵌入/标度,6
6 𝑋 ⊤𝑋 𝑉 变量的 表示𝑉𝐷 𝑌 = 𝑋𝑉 = 𝑈𝐷 主成 分变 换 变量的 相似度 个体的 表示U𝐷 𝑋 𝑋 ⊤ 个体的相 似度 特征 向量 特征 向量 对偶性:利用列特征得到行(个体)的嵌入表示,利用行特征得到 列(变量)的嵌入表示,这正是 SVD所表达的行列之间的对偶性。 总之,变量之间的相似度矩阵𝑋 ⊤𝑋的特征向量𝑉(其实是𝑉𝐷) 的前𝑘列是变量的𝑘维嵌入/标度;个体之间的相似度矩阵𝑋𝑋⊤的 特征向量𝑈其实是𝑉𝐷)的前𝑘列是个体的𝑘维嵌入/标度
SVD: X = UDVT:SVD以XXT的特征向量U重新表示个体:主成分(个体的表示/嵌入)Y=XV=UD以XTX的特征向量重新表示变量:主样本(变量的表示/嵌入)Z =VD =XTUX = UDVT ~ Uk DkVT, k < rank(X)UkDk:个体的低维嵌入DkVEUk~XVkDk:变量的低维嵌入kxknxkkxpnxpU:列基V:行基D:权/奇异值
7 SVD:𝑋 = 𝑈𝐷𝑉 ⊤: • 以 𝑋𝑋⊤的特征向量𝑈重新表示个体: 主成分(个体的表示/嵌入) 𝑌 = 𝑋𝑉 = 𝑈𝐷 • 以𝑋 ⊤𝑋的特征向量重新表示变量: 主样本(变量的表示/嵌入) 𝑍 = 𝑉𝐷 = 𝑋 ⊤𝑈. SVD 权 奇异值 行基 列基 : / : : D V U 𝑋 = 𝑈𝐷𝑉 ⊤ ≈ 𝑈𝑘 𝐷𝑘𝑉𝑘 ⊤ , 𝑘 < 𝑟𝑎𝑛𝑘(𝑋) 𝑋 𝑛 × 𝑝 𝑈𝑘 𝑛 × 𝑘 𝑉𝑘 ⊤ 𝑘 × 𝑝 ≈ 𝐷𝑘 𝑘 × 𝑘 𝑈𝑘𝐷𝑘: 个体的低维嵌入 V𝑘𝐷𝑘: 变量的低维嵌入
典则相关分析CCA和对应分析CA都是PCA或SVD的拓展或应用,CCA/CA都可看作是嵌入/标度方法:口CCA:变量分成两部分,类似于PCA,利用协方差矩阵的特征向量分别组合压缩两部分变量,以XXT的特征向量重新表示个体,尽量保持协方差。口cA:两个因子变量以one-hot嵌入表示,利用列联表/协方差的SVD,以XTX的特征向量重新表示/嵌入变量(X的列)尽量保持Contigency。注意CCA与CA的区别:CCA压缩变量嵌入表示个体,CA压缩个体嵌入表示变量。当只有两个因子的时候CA与CCA是对偶问题。8
8 典则相关分析CCA和对应分析CA都是PCA或SVD的拓展或应用, 都可看作是嵌入/标度方法: CCA/CA 注意CCA与CA的区别:CCA压缩变量嵌入表示个体,CA 压缩个体嵌入表示变量。当只有两个因子的时候,CA与 CCA是对偶问题。 CCA:变量分成两部分,类似于PCA,利用协方差矩阵的特 征向量分别组合压缩两部分变量,以𝑋𝑋⊤的特征向量重新 表示个体,尽量保持协方差。 CA: 两个因子变量以one-hot嵌入表示,利用列联表/协方 差的SVD,以 𝑋 ⊤𝑋 的特征向量重新表示/嵌入变量(X的列), 尽量保持Contigency
机器学习文本处理(NLP:natural languageprocessing)中word2vec单词的向量化表示方法word2vec与CA几乎相同:*首先将单词(word)用欧氏向量表示,通常用one-hot嵌入方法(哑变量)表示,即只有一个1,且与全是0的向量表示每个单词。结合词汇的关联性/相似性和用词环境,进一步利用TRd数据变换、压缩、降维技术得到保留相近性的更好wordembedding的向量表示。词汇关联性One-hotcat变换One-hotembedding长度=字典总字数0.1-1.20.7-0.5Short/informativeembedding9
9 机器学习文本处理(NLP: natural language processing)中 单词的向量化表示方法word2vec与CA几乎相同: 首先将单词(word)用欧氏向量表示,通常用one-hot 嵌入方法(哑变量)表示,即只有一个1,且与全是 0的向量表示每个单词。 结合词汇的关联性/相似性和用词环境,进一步利用 数据变换、压缩、降维技术得到保留相近性的更好 的向量表示。 cat 0 0 ⋯ 1 0 0.1 -1.2 ⋯ 0.7 -0.5 One-hot embedding 长度=字典总字数 One-hot 变换 Short/informative embedding word2vec 词汇关联性
多维标度法MDS下面介绍基于(主观)相似度系数矩阵或距离矩阵的多维标度法MDS,这类问题没有原始数据矩阵X,可以看作是由相似度矩阵/距离矩阵出发,反解其X矩阵的方法主要介绍cMDS(ClassicalMDS,经典多维标度法,保持相似度,也称为主坐标分析方法(principalcoordinatesanalysisPCoA));mMDS(metricMDS,度量型多维标度法,保持距离)和非度量型MDS。给定一个nxn相似度矩阵S=(s.),给定正整数k≤n,cMDS方法求解CMDS优化目标X..,eR,X=-(x....x)极小化Stress函数:(*)Stress=E(s,-x,x,)=S-XXT I/IS理解成XXT,X是数据矩阵10
10 ( ) 极小化 函数: 给定一个 相似度矩阵 ,给定正整数 方法求解 ( ) || || . * ,., , ( ,., ) , Stress ( ) , cMDS 2 , 2 1 1 F i j ij i j n k n ij Stress s S XX R X n n S s k n T T T x x x x x x cMDS优 化目标 下面介绍基于(主观)相似度系数矩阵或距离矩阵的多维标度法 MDS, 这类问题没有原始数据矩阵𝑋, 可以看作是由相似度矩阵/ 距离矩阵出发, 反解其𝑋矩阵的方法. 𝑆理解成𝑋𝑋⊤ ,𝑋是数据矩阵 主要介绍cMDS (Classical MDS,经典多维标度法,保持 相似度,也称为主坐标分析方法 (principal coordinates analysis, PCoA) ) ;mMDS (metric MDS,度量型多维标 度法 ,保持距离)和非度量型MDS 。 多维标度法MDS