当前位置：和泉文库 > 数学 > 浏览文档

《数学模型与数学实验》课程书籍文献（数学建模算法大全）第29章多元分析

文件格式：PDF，文件大小：575.8KB，售价：18.37元

文档详细内容（约88页）

第1列和第2列，即2（住，1：2）包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为m+了。共有m-1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(1,3)包含了相应的在类中的两两对象间的连接距离 3)cluster T=cluster(亿，cutoff)从连接输出(linkage)中创建聚类。cutoff为定义cluster 函数如何生成聚类的阀值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值义 cutoff作为不一一致系数的阀值.不一致系数对聚类树中对象间的差 (cutoff<2 异进行了量化。如果一个连接的不一致系数大于阔值，则cluster 函数将其作为聚类分组的边界。 2-cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(亿，cutoff,depth,flag)从连接输出(1 inkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接讲行比较。详细说明见函救inconsistent。当参数depth被指定时 cutoffi通常作为不致系数胡值参数flag重载参数cutofff的缺省含义。如flag为' inconsistent ,则cutoff作为不一致系数的阙值。如flag为'cluster',则cutoff作为分类的最大数目。输出T为大小为m的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T=i)。 4)2s0re(X0 对数据矩阵进行标准化处理，处理方式为元=专~术其中矩阵X=(xy)m看作是m个大小为n的向量，元，S,是每一列的均值和标准差。 5)H=dendrogram(亿，P) 由1 inkager产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6)T=clusterdata(优，cutoff) 将矩阵X的数据分类。X为m×n矩阵，被看作m个大小为n的向量。它与以下几个命令等价： Y=pdist(X.'euclid') 2=linkage (Y,'single') T=cluster(亿，cutoff) 7)squareform 将pdist的输出转换为方阵 451

-451- 第1列和第2列，即Z(i,1:2)包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为 m + j 。共有 m −1个级别更高的类，它们对应于聚类树中的内部节点。第三列，Z(i,3)包含了相应的在类中的两两对象间的连接距离。 3）cluster T=cluster(Z,cutoff)从连接输出（linkage）中创建聚类。cutoff为定义cluster 函数如何生成聚类的阈值，其不同的值含义如表4所示。表4 cutoff取值及含义 cutoff取值含义 0<cutoff<2 cutoff作为不一致系数的阈值。不一致系数对聚类树中对象间的差异进行了量化。如果一个连接的不一致系数大于阈值，则cluster 函数将其作为聚类分组的边界。 2<=cutoff cutoff作为包含在聚类树中的最大分类数 T=cluster(Z,cutoff,depth,flag)从连接输出(linkage)中创建聚类。参数depth 指定了聚类数中的层数，进行不一致系数计算时要用到。不一致系数将聚类树中两对象的连接与相邻的连接进行比较。详细说明见函数inconsistent。当参数depth被指定时， cutoff通常作为不一致系数阈值。参数flag重载参数cutoff的缺省含义。如flag为’inconsistent’，则cutoff作为不一致系数的阈值。如flag为’cluster’，则cutoff作为分类的最大数目。输出T为大小为 m 的向量，它用数字对每个对象所属的类进行标识。为了找到包含在类i中的来自原始数据集的对象，可用find(T==i)。 4）zsore(X) 对数据矩阵进行标准化处理，处理方式为 j ij j ij s x x x − = ~ 其中矩阵 ij m n X x = × ( ) 看作是 m 个大小为n 的向量， j j x ,s 是每一列的均值和标准差。 5）H＝dendrogram(Z,P) 由linkage产生的数据矩阵Z画聚类树状图。P是结点数，默认值是30。 6）T=clusterdata(X,cutoff) 将矩阵X的数据分类。X为 m× n 矩阵，被看作 m 个大小为n 的向量。它与以下几个命令等价： Y=pdist(X,’euclid’) Z=linkage(Y,’single’) T=cluster(Z,cutoff) 7)squareform 将pdist的输出转换为方阵

-452- 8）cophenet c=cophenet(Z,Y) 计算相干系数，它是将Z中的距离信息（由linkage()函数产生）和Y中的距离信息（由pdist()）函数产生进行比较。Z为(m −1)×3矩阵，距离信息包含在第三列。Y是(m −1)⋅ m / 2维的行向量。例如，给定距离为Y的一组对象{1,2,",m}，函数linkage()生成聚类树。cophenet() 函数用来度量这种分类的失真程度，即由分类所确定的结构与数据间的拟合程度。输出值c为相干系数。对于要求很高的解，该值的幅度应非常接近1。它也可用来比较两种由不同算法所生成的分类解。 Z(:,3)和Y之间的相干系数定义为 ∑ ∑ ∑ < < < − − − − = i j ij i j ij i j ij ij y y z z y y z z c 2 2 ( ) ( ) ( )( ) 其中 ij y 为Y中对象i 和 j 间的距离； ij z 为Z(:,3)中对象i 和 j 间的距离；y 和 z 分别为Y 和Z(:,3)的平均距离。 1.3 变量聚类法在实际工作中，变量聚类法的应用也是十分重要的。在系统分析或评估过程中，为避免遗漏某些重要因素，往往在一开始选取指标时，尽可能多地考虑所有的相关因素。而这样做的结果，则是变量过多，变量间的相关度高，给系统分析与建模带来很大的不便。因此，人们常常希望能研究变量间的相似关系，按照变量的相似关系把它们聚合成若干类，进而找出影响系统的主要因素。 1.3.1 变量相似性度量在对变量进行聚类分析时，首先要确定变量的相似性度量，常用的变量相似性度量有两种。 1）相关系数记变量 j x 的取值( , , , ) ( 1,2, , ) x1 x2 x R j m T n j j " nj ∈ = " 。则可以用两变量 j x 与 k x 的样本相关系数作为它们的相似性度量 2 1 1 1 2 2 1 ( ) ( ) ( )( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ − − − − = ∑ ∑ ∑ = = = n i n i ij j ik k n i ij j ik k jk x x x x x x x x r ，（10）在对变量进行聚类分析时，利用相关系数矩阵是最多的

点击进入文档下载页（PDF格式）

共88页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录