当前位置：和泉文库 > 统计 > 浏览文档

《多元统计分析》课程教学资源（课件讲稿）第十九讲多维标度法

文件格式：PDF，文件大小：1.38MB，售价：7.16元

文档详细内容（约29页）

变量的变量的个体的个体的相相似度表示VD表示UD似度XTXXXTVY=XV=UD特征特征主成向量向量分变换对偶性：利用列特征得到行（个体）的嵌入表示，利用行特征得到列（变量）的嵌入表示，这正是SVD所表达的行列之间的对偶性。总之，变量之间的相似度矩阵XTX的特征向量V（其实是VD）的前k列是变量的k维嵌入/标度；个体之间的相似度矩阵XXT的特征向量U其实是VD）的前k列是个体的k维嵌入/标度，6

6 𝑋 ⊤𝑋 𝑉 变量的表示𝑉𝐷 𝑌 = 𝑋𝑉 = 𝑈𝐷 主成分变换变量的相似度个体的表示U𝐷 𝑋 𝑋 ⊤ 个体的相似度特征向量特征向量对偶性：利用列特征得到行（个体）的嵌入表示，利用行特征得到列（变量）的嵌入表示，这正是 SVD所表达的行列之间的对偶性。总之，变量之间的相似度矩阵𝑋 ⊤𝑋的特征向量𝑉（其实是𝑉𝐷）的前𝑘列是变量的𝑘维嵌入/标度；个体之间的相似度矩阵𝑋𝑋⊤的特征向量𝑈其实是𝑉𝐷）的前𝑘列是个体的𝑘维嵌入/标度

SVD: X = UDVT:SVD以XXT的特征向量U重新表示个体：主成分（个体的表示/嵌入）Y=XV=UD以XTX的特征向量重新表示变量：主样本(变量的表示/嵌入)Z =VD =XTUX = UDVT ~ Uk DkVT, k < rank(X)UkDk：个体的低维嵌入DkVEUk~XVkDk：变量的低维嵌入kxknxkkxpnxpU:列基V:行基D：权/奇异值

7 SVD：𝑋 = 𝑈𝐷𝑉 ⊤: • 以 𝑋𝑋⊤的特征向量𝑈重新表示个体：主成分(个体的表示/嵌入) 𝑌 = 𝑋𝑉 = 𝑈𝐷 • 以𝑋 ⊤𝑋的特征向量重新表示变量：主样本(变量的表示/嵌入) 𝑍 = 𝑉𝐷 = 𝑋 ⊤𝑈. SVD 权奇异值行基列基 : / : : D V U 𝑋 = 𝑈𝐷𝑉 ⊤ ≈ 𝑈𝑘 𝐷𝑘𝑉𝑘 ⊤ , 𝑘 < 𝑟𝑎𝑛𝑘(𝑋) 𝑋 𝑛 × 𝑝 𝑈𝑘 𝑛 × 𝑘 𝑉𝑘 ⊤ 𝑘 × 𝑝 ≈ 𝐷𝑘 𝑘 × 𝑘 𝑈𝑘𝐷𝑘: 个体的低维嵌入 V𝑘𝐷𝑘: 变量的低维嵌入

典则相关分析CCA和对应分析CA都是PCA或SVD的拓展或应用，CCA/CA都可看作是嵌入/标度方法：口CCA：变量分成两部分，类似于PCA，利用协方差矩阵的特征向量分别组合压缩两部分变量，以XXT的特征向量重新表示个体，尽量保持协方差。口cA：两个因子变量以one-hot嵌入表示，利用列联表/协方差的SVD，以XTX的特征向量重新表示/嵌入变量（X的列）尽量保持Contigency。注意CCA与CA的区别：CCA压缩变量嵌入表示个体，CA压缩个体嵌入表示变量。当只有两个因子的时候CA与CCA是对偶问题。8

8 典则相关分析CCA和对应分析CA都是PCA或SVD的拓展或应用，都可看作是嵌入/标度方法： CCA/CA 注意CCA与CA的区别：CCA压缩变量嵌入表示个体，CA 压缩个体嵌入表示变量。当只有两个因子的时候,CA与 CCA是对偶问题。  CCA：变量分成两部分，类似于PCA，利用协方差矩阵的特征向量分别组合压缩两部分变量，以𝑋𝑋⊤的特征向量重新表示个体，尽量保持协方差。  CA: 两个因子变量以one-hot嵌入表示，利用列联表/协方差的SVD，以 𝑋 ⊤𝑋 的特征向量重新表示/嵌入变量(X的列），尽量保持Contigency

机器学习文本处理(NLP:natural languageprocessing)中word2vec单词的向量化表示方法word2vec与CA几乎相同：*首先将单词(word)用欧氏向量表示，通常用one-hot嵌入方法（哑变量）表示，即只有一个1，且与全是0的向量表示每个单词。结合词汇的关联性/相似性和用词环境，进一步利用TRd数据变换、压缩、降维技术得到保留相近性的更好wordembedding的向量表示。词汇关联性One-hotcat变换One-hotembedding长度=字典总字数0.1-1.20.7-0.5Short/informativeembedding9

9 机器学习文本处理(NLP: natural language processing)中单词的向量化表示方法word2vec与CA几乎相同：  首先将单词(word)用欧氏向量表示，通常用one-hot 嵌入方法（哑变量）表示，即只有一个1，且与全是 0的向量表示每个单词。  结合词汇的关联性/相似性和用词环境，进一步利用数据变换、压缩、降维技术得到保留相近性的更好的向量表示。 cat 0 0 ⋯ 1 0 0.1 -1.2 ⋯ 0.7 -0.5 One-hot embedding 长度=字典总字数 One-hot 变换 Short/informative embedding word2vec 词汇关联性

多维标度法MDS下面介绍基于(主观)相似度系数矩阵或距离矩阵的多维标度法MDS，这类问题没有原始数据矩阵X，可以看作是由相似度矩阵/距离矩阵出发，反解其X矩阵的方法主要介绍cMDS（ClassicalMDS，经典多维标度法，保持相似度，也称为主坐标分析方法（principalcoordinatesanalysisPCoA））；mMDS（metricMDS，度量型多维标度法，保持距离）和非度量型MDS。给定一个nxn相似度矩阵S=（s.），给定正整数k≤n，cMDS方法求解CMDS优化目标X..,eR,X=-(x....x)极小化Stress函数:(*)Stress=E(s,-x,x,)=S-XXT I/IS理解成XXT，X是数据矩阵10

10 （）极小化函数：给定一个相似度矩阵，给定正整数方法求解 ( ) || || . * ,., , ( ,., ) , Stress ( ) , cMDS 2 , 2 1 1 F i j ij i j n k n ij Stress s S XX R X n n S s k n T T T           x x x x x x cMDS优化目标下面介绍基于(主观)相似度系数矩阵或距离矩阵的多维标度法 MDS, 这类问题没有原始数据矩阵𝑋, 可以看作是由相似度矩阵/ 距离矩阵出发, 反解其𝑋矩阵的方法. 𝑆理解成𝑋𝑋⊤ ，𝑋是数据矩阵主要介绍cMDS (Classical MDS，经典多维标度法，保持相似度，也称为主坐标分析方法 (principal coordinates analysis, PCoA) ) ；mMDS (metric MDS，度量型多维标度法，保持距离)和非度量型MDS 。多维标度法MDS

点击进入文档下载页（PDF格式）

共29页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

《多元统计分析》课程教学资源（课件讲稿）第十八讲距离和相似系数
《多元统计分析》课程教学资源（课件讲稿）第十七讲列联表与对应分析
《多元统计分析》课程教学资源（课件讲稿）第十六讲典则相关分析CCA
《多元统计分析》课程教学资源（课件讲稿）第十五讲奇异值分解
《多元统计分析》课程教学资源（课件讲稿）第十四讲结构方程模型
《多元统计分析》课程教学资源（课件讲稿）第十三讲因子分析
《多元统计分析》课程教学资源（课件讲稿）第十二讲双标图biplot
《多元统计分析》课程教学资源（课件讲稿）第十一讲主成分分析
《多元统计分析》课程教学资源（课件讲稿）第十讲多元线性模型
《多元统计分析》课程教学资源（课件讲稿）第九讲 Hotelling’s T2检验
《多元统计分析》课程教学资源（课件讲稿）第八讲 Wishart分布（3/3）
《多元统计分析》课程教学资源（课件讲稿）第七讲 Wishart分布（2/3）
《多元统计分析》课程教学资源（课件讲稿）第二十讲聚类分析
《多元统计分析》课程教学资源（课件讲稿）第二十一讲分类预测
《多元统计分析》课程实验指导书（讲义）
《时间序列分析》课程实验指导书（共十三个）
《统计计算与软件包》课程实验指导书（SAS软件）
《统计预测与决策》课程实验指导书（共四个）
《R语言与生物统计应用》课程实验指导书
《试验设计》课程实验指导书
中国社会科学院大学：通识选修《社会统计分析方法与SPSS软件应用》课程教学大纲
中国社会科学院大学：通识选修《高级社会统计学》课程教学大纲
《概率论与统计学》课程教学课件（讲稿）概率
《概率论与统计学》课程教学课件（讲稿）统计

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录