当前位置：和泉文库 > 统计 > 浏览文档

《多元统计分析》课程教学资源（课件讲稿）第十九讲多维标度法

文件格式：PDF，文件大小：1.38MB，售价：7.16元

文档详细内容（约29页）

第十九讲多维标度法dataobjectdataasvectorembeddingembeddingmodel0.0560.00S0-0.060.04580嵌入embedding/标度scaling：将对象表示成向量

第十九讲多维标度法 embedding/scaling 嵌入embedding/标度scaling: 将对象表示成向量

n个物体/对象(object)的相似度矩阵S，单向谱配列方法以n个实数Recap（即Laplace矩阵L=D一S的最小非O特征向量）表示n个物体，该特征向量称为物体的embedding嵌入/scaling标度/encoding编码单向谱配列：n个物体的相似度矩阵S=（si)，d=S1,D = diag(d), 记Laplacian矩阵L = D - S,min=sij(xi -x;)2 =minxTLx, s.t. Ilxl = 1, x 1 1最优解为L的最小非o特征根对应的特征向量xmin，其n个分量是n个物体（标量、因子水平等）的实数表示embedding)：特征向量xmin分量的次序代表了n个物体的邻近和顺序关系。例1.食品评价例子：5个指标的相关系数矩阵如下，当作相似系数矩阵Taste Goodbuy FlavorSnackEnergyTaste10.020.960.420.01)Energy0.0210.130.710.85GoodbuyS=GoodbuySnackTasteFlavorFlavor0.960.1310.500.110.420.710.500.79Snack110.010.850.110.79EnergyTasteFlavorSnack GoodbuyEnergy-0.449-0.6000.1310.4580.480特征向量L=D-Sembedding2

2 𝑛个物体/对象(object)的相似度矩阵𝑆，单向谱配列方法以𝑛个实数（即Laplace矩阵𝐿 = 𝐷 − 𝑆的最小非0特征向量）表示𝑛个物体，该特征向量称为物体的embedding嵌入/scaling标度/encoding编码 Recap 单向谱配列: 𝑛个物体的相似度矩阵𝑆 = (𝑠𝑖𝑗)， 𝐝 = 𝑆𝟙， 𝐷 = diag(𝐝), 记Laplacian矩阵𝐿 = 𝐷 − 𝑆, min1 2 σ s𝑖𝑗(𝑥𝑖 − 𝑥𝑗) 2 = min𝐱 ⊤𝐿𝐱 ，s.t. 𝐱 = 1，𝐱 ⊥ 𝟙 最优解为𝐿的最小非0特征根对应的特征向量𝐱min，其𝑛个分量是𝑛个物体（标量、因子水平等）的实数表示(embedding)，特征向量𝐱min分量的次序代表了𝑛个物体的邻近和顺序关系。       0.01 0.85 0.11 0.79 1 0.42 0.71 0.50 1 0.79 0.96 0.13 1 0.50 0.11 0.02 1 0.13 0.71 0.85 1 0.02 0.96 0.42 0.01 Energy Snack Flavor Goodbuy Taste Taste Goodbuy Flavor Snack Energy 𝑆 = 例1.食品评价例子：5个指标的相关系数矩阵如下，当作相似系数矩阵 𝐿 = 𝐷 − 𝑆 特征向量 embedding Taste Flavor Snack Goodbuy Energy −0.600 −0.449 0.131 0.458 0.480

单向配列（seriation)问题基于相似度矩阵求解研究对象的一维欧氏表示，并排序。但一维表示信息不够丰富。多维标度法考虑将n个物体映射到k维向量,X1,,XnERk，能否将单向谱配列的优化目标函数拓展为 silx - x,;l ? silxi - x;ll2 =, sij((xi1 - xj1)2 + .. + (xik - xjk)2)=sij(xi1 -xj1)2 + +sij(xik -Xjk)2X = (X1,.,Xn)T= x()LX(1) + .. +x(k) LX(k) = tr(XTLX)= (X(1),. X(k)如果限制X列正交，那么最优解是L的最小k个非o特征根的特征向量。但从保距或保内积的角度来看，该限制过于严苛，如下图例1（续）Taste和flavor在L的二o维特征向量表示下相距很远，这858显然不合理。3402e4624.13

3 单向配列(seriation)问题基于相似度矩阵求解研究对象的一维欧氏表示，并排序。但一维表示信息不够丰富。多维标度法考虑将𝑛个物体映射到𝑘维向量, 𝐱1, . , 𝐱𝑛 ∈ 𝑅 𝑘 , 能否将单向谱配列的优化目标函数拓展为 1 2 σ s𝑖𝑗 𝐱𝑖 − 𝐱𝑗 2 ？ 1 2 σ s𝑖𝑗 𝐱𝑖 − 𝐱𝑗 2 = 1 2 σ s𝑖𝑗 (𝑥𝑖1 − 𝑥𝑗1) 2 + ⋯ + (𝑥𝑖𝑘 − 𝑥𝑗𝑘) 2 = 1 2 σ s𝑖𝑗(𝑥𝑖1 − 𝑥𝑗1) 2 + ⋯ + 1 2 σ s𝑖𝑗(𝑥𝑖𝑘 − 𝑥𝑗𝑘) 2 = 𝐱(1) ⊤ 𝐿𝐱(1) + ⋯ +𝐱(𝑘) ⊤ 𝐿𝐱(𝑘) = 𝑡𝑟(𝑋 ⊤𝐿𝑋) 如果限制𝑋列正交，那么最优解是 𝐿 的最小𝑘个非0特征根的特征向量。但从保距或保内积的角度来看，该限制过于严苛, 如下图例1（续）Taste和 flavor 在 𝐿 的二维特征向量表示下相距很远，这显然不合理。 𝑋 = (𝐱1, . , 𝐱𝑛) ⊤ = (𝐱 1 , . , 𝐱(𝑘))

标度/嵌入/编码/低维表示Scaling主观评价或非数值变量的量化方式称为标度方法embedding(scaling）。高维欧氏向量的压缩重新表示也可称为标度或嵌入（embedding)方法。多维标度法（MDS，multidimensionalscaling）在尽量保持之间相近程度信息的前提下，用欧氏向量表示研究对象（object）。这里object可以是物体样本个体、变量或其他任何感兴趣的研究对象。多维标度法用多个实数即向量表示每个研究个体。单向配列将研究对象/物体用实数表达出来，可称为1维标度法。实际上PCA、SVD、CCA、CA等方法都是某种意义上的标度或嵌入方法不同的是这些方法基于数据矩阵X，而MDS基于（主观）相似度矩阵或距离矩阵对感兴趣的对象（object）进行嵌入表示，这里的object可以是个体，也可以是变量。如果将主观相似度矩阵可以理解成XX或XTX，那么MDS与PCA/SVD等方法类似下面首先回顾一下这些传统方法

4 标度/嵌入/编码/低维表示主观评价或非数值变量的量化方式称为标度方法 (scaling) 。高维欧氏向量的压缩重新表示也可称为标度或嵌入 (embedding)方法。多维标度法（MDS，multidimensional scaling）在尽量保持之间相近程度信息的前提下，用欧氏向量表示研究对象（object）。这里object可以是物体、样本个体、变量或其他任何感兴趣的研究对象。 Scaling embedding 多维标度法用多个实数即向量表示每个研究个体。单向配列将研究对象/物体用实数表达出来，可称为1维标度法。实际上PCA、SVD、CCA、CA等方法都是某种意义上的标度或嵌入方法，不同的是这些方法基于数据矩阵𝑋，而MDS基于（主观）相似度矩阵或距离矩阵对感兴趣的对象（object）进行嵌入表示，这里的object可以是个体，也可以是变量。如果将主观相似度矩阵可以理解成𝑋𝑋 ⊤或 𝑋 ⊤𝑋，那么MDS与PCA/SVD等方法类似。下面首先回顾一下这些传统方法

PCA/假设中心化的数据矩阵Xnxp（行：样本个体，列：变量）。FAX的行向量表达了每个个体，X的列向量表达了每个变量，这是个体或变量的原始嵌入/欧氏表示。PCA：如果希望得到个体的低维的/更有效的表示，我们将变量个数p压缩，以更短长度k<p的行向量表示个体一如何得到有用的压缩?整合变量（X的列）之间的相关性/相似性，提取XX前k个最重要的特征向量（载荷，这实际上是变量的嵌入/压缩表示）作用在X的行向量上得到主成分，即个体的低维嵌入（这实际上是XX的特征向量），上述过程得到了个体的低维嵌入（主成分），同时也得到了变量的低维嵌入（载荷）。这种对偶性正是SVD,biplot是这种对偶性的体现。具体地，利用方差矩阵（或XTX）的特征向量矩阵V压缩变量/变换数据，得到样本个体的新的表示：主成分Y=XV（注意Y的列向量是XXT的特征向量），其第行的前若于个分量（主成分）是第个个体的压缩表示/嵌入。换言之，PCA利用变量（X的列）之间的方差矩阵（即变量的相似度矩阵）的特征向量V对数据进行主成分变换，得到个体（×的行）的主成分表示（即个体相似度矩阵XXT的特征向量）。根据对称性，从行的特征也可到列的刻画/嵌入。FA：模型表示PCA，潜变量~主成分5

5 假设中心化的数据矩阵𝑋𝑛×𝑝（行：样本个体，列：变量）。 𝑋的行向量表达了每个个体，𝑋的列向量表达了每个变量，这是个体或变量的原始嵌入/欧氏表示。 PCA：如果希望得到个体的低维的/更有效的表示, 我们将变量个数 𝑝 压缩, 以更短长度 𝑘 < 𝑝 的行向量表示个体 – 如何得到有用的压缩? 整合变量(X的列)之间的相关性/相似性, 提取𝑋 ⊤𝑋前 𝑘 个最重要的特征向量(载荷, 这实际上是变量的嵌入/压缩表示),作用在X的行向量上得到主成分,即个体的低维嵌入(这实际上是𝑋 𝑋 ⊤的特征向量). 上述过程得到了个体的低维嵌入(主成分),同时也得到了变量的低维嵌入(载荷) 。这种对偶性正是SVD,biplot是这种对偶性的体现。 PCA/ FA 具体地, 利用方差矩阵（或𝑋 ⊤𝑋）的特征向量矩阵𝑉压缩变量/变换数据，得到样本个体的新的表示：主成分𝑌 = 𝑋𝑉（注意𝑌的列向量是𝑋𝑋⊤的特征向量），其第𝑖行的前若干个分量（主成分）是第𝑖个个体的压缩表示/嵌入。换言之， PCA利用变量（X的列）之间的方差矩阵（即变量的相似度矩阵）的特征向量 𝑉对数据进行主成分变换，得到个体（X的行）的主成分表示（即个体相似度矩阵𝑋𝑋⊤的特征向量）。根据对称性，从行的特征也可到列的刻画/嵌入。 FA：模型表示PCA, 潜变量≈主成分

点击进入文档下载页（PDF格式）

共29页，可试读10页，点击继续阅读 ↓↓

您可能感兴趣的文档

《多元统计分析》课程教学资源（课件讲稿）第十八讲距离和相似系数
《多元统计分析》课程教学资源（课件讲稿）第十七讲列联表与对应分析
《多元统计分析》课程教学资源（课件讲稿）第十六讲典则相关分析CCA
《多元统计分析》课程教学资源（课件讲稿）第十五讲奇异值分解
《多元统计分析》课程教学资源（课件讲稿）第十四讲结构方程模型
《多元统计分析》课程教学资源（课件讲稿）第十三讲因子分析
《多元统计分析》课程教学资源（课件讲稿）第十二讲双标图biplot
《多元统计分析》课程教学资源（课件讲稿）第十一讲主成分分析
《多元统计分析》课程教学资源（课件讲稿）第十讲多元线性模型
《多元统计分析》课程教学资源（课件讲稿）第九讲 Hotelling’s T2检验
《多元统计分析》课程教学资源（课件讲稿）第八讲 Wishart分布（3/3）
《多元统计分析》课程教学资源（课件讲稿）第七讲 Wishart分布（2/3）
《多元统计分析》课程教学资源（课件讲稿）第二十讲聚类分析
《多元统计分析》课程教学资源（课件讲稿）第二十一讲分类预测
《多元统计分析》课程实验指导书（讲义）
《时间序列分析》课程实验指导书（共十三个）
《统计计算与软件包》课程实验指导书（SAS软件）
《统计预测与决策》课程实验指导书（共四个）
《R语言与生物统计应用》课程实验指导书
《试验设计》课程实验指导书
中国社会科学院大学：通识选修《社会统计分析方法与SPSS软件应用》课程教学大纲
中国社会科学院大学：通识选修《高级社会统计学》课程教学大纲
《概率论与统计学》课程教学课件（讲稿）概率
《概率论与统计学》课程教学课件（讲稿）统计

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录