当前位置：和泉文库 > 数学 > 浏览文档

《数学建模》算法全收录（算法大全）：第29章多元分析 multivariate analyses

多元分析（multivariate analyses）是多变量的统计分析方法，是数理统计中应用广泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和广泛使用，并在使用中不断完善和创新。由于变量的相关性，不能简单地把每个变量的结果进行汇总，这是多变量统计分析的基本出发点。 §1 聚类分析 §2 聚类分析案例—我国各地区普通高等教育发展状况分析 §3 主成分分析 §4 主成分分析案例－我国各地区普通高等教育发展水平综合评价 §5 因子分析 §6 因子分析案例 §7 判别分析 §8 典型相关分析（Canonical correlation analysis）

文件格式：PDF，文件大小：575.8KB，售价：22.96元

共88页，可试读20页，点击往前阅读 ↑↑

文档详细内容（约88页）

-451- 第1列和第2列，即Z(i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为 m + j 。共有 m −1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(i,3)包含了相应的在类中的两两对象间的连接距离。 3）cluster T=cluster(Z,cutoff)从连接输出（linkage）中创建聚类。cutoff为定义cluster 函数如何生成聚类的阈值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值含义 0<cutoff<2 cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值，则cluster 函数将其作为聚类分组的边界。 2<=cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接进行比较。详细说明见函数inconsistent。当参数depth被指定时， cutoff通常作为不一致系数阈值。参数flag重载参数cutoff的缺省含义。如flag为’inconsistent’，则cutoff作为不一致系数的阈值。如flag为’cluster’，则cutoff作为分类的最大数目。输出T为大小为 m 的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T==i)。 4）zsore(X) 对数据矩阵进行标准化处理，处理方式为 j ij j ij s x x x − = ~ 其中矩阵 ij m n X x = × ( ) 看作是 m 个大小为n 的向量， j j x ,s 是每一列的均值和标准差。 5）H＝dendrogram(Z,P) 由linkage产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6）T=clusterdata(X,cutoff) 将矩阵X的数据分类。X为 m× n 矩阵，被看作 m 个大小为n 的向量。它与以下几个命令等价： Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 7)squareform 将pdist的输出转换为方阵

-452- 8）cophenet c=cophenet(Z,Y) 计算相干系数，它是将Z中的距离信息（由linkage()函数产生）和Y中的距离信息（由pdist()）函数产生进行比较。Z为(m −1)×3矩阵，距离信息包含在第三列。Y是(m −1)⋅ m / 2维的行向量。例如，给定距离为Y的一组对象{1,2,",m}，函数linkage()生成聚类树。cophenet() 函数用来度量这种分类的失真程度，即由分类所确定的结构与数据间的拟合程度。输出值c为相干系数。对于要求很高的解，该值的幅度应非常接近1。它也可用来比较两种由不同算法所生成的分类解。 Z(:,3)和Y之间的相干系数定义为 ∑ ∑ ∑ < < < − − − − = i j ij i j ij i j ij ij y y z z y y z z c 2 2 ( ) ( ) ( )( ) 其中 ij y 为Y中对象i 和 j 间的距离； ij z 为Z(:,3)中对象i 和 j 间的距离；y 和 z 分别为Y 和Z(:,3)的平均距离。 1.3 变量聚类法在实际工作中，变量聚类法的应用也是十分重要的。在系统分析或评估过程中，为避免遗漏某些重要因素，往往在一开始选取指标时，尽可能多地考虑所有的相关因素。而这样做的结果，则是变量过多，变量间的相关度高，给系统分析与建模带来很大的不便。因此，人们常常希望能研究变量间的相似关系，按照变量的相似关系把它们聚合成若干类，进而找出影响系统的主要因素。 1.3.1 变量相似性度量在对变量进行聚类分析时，首先要确定变量的相似性度量，常用的变量相似性度量有两种。 1）相关系数记变量 j x 的取值( , , , ) ( 1,2, , ) x1 x2 x R j m T n j j " nj ∈ = " 。则可以用两变量 j x 与 k x 的样本相关系数作为它们的相似性度量 2 1 1 1 2 2 1 ( ) ( ) ( )( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − − = ∑ ∑ ∑ = = = n i n i ij j ik k n i ij j ik k jk x x x x x x x x r ，（10）在对变量进行聚类分析时，利用相关系数矩阵是最多的

点击进入文档下载页（PDF格式）

共88页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录