第二十讲 聚类分析物以类聚,人以群分
第二十讲 聚类分析 物以类聚,人以群分
聚类分析ClusterAnalysis在事先不知道类别信息的情况下(无监督学习)★★*★聚类分析将相似度高的或者距离小的个体聚集成一类(cluster),不相似的个体分属不同的类++指标集={,2.n的子集C...C称为的一个K划分划分Partition(partition),如果它们两两不交,且UC,=1.17n=100,K=2,J)K-in个研究对象的K-划分个数:=O(K")2100=30位个穷尽所有划分几乎是不可能的,几乎所有的聚类算法基本都是贪心算法。下面主要介绍几个经典的算法:层次聚类、K-medoid聚类、K-均值聚类(混合高斯分布模型)、谱聚类
2 在事先不知道类别信息的情况下(无监督学习), 聚类分析将相似度高的或者距离小的个体聚集 成一类(cluster),不相似的个体分属不同的类。 ( 1) ( ) ! 1 - 0 n n K j K j j O K j K K n K 个研究对象的 划分个数: 聚类分析 Cluster Analysis 穷尽所有划分几乎是不可能的,几乎所有的聚类算法基本都是贪 心算法。下面主要介绍几个经典的算法: 层次聚类、𝐾-medoid 聚类、𝐾 -均值聚类(混合高斯分布模型) 、谱聚类。 𝑛 = 100,𝐾 = 2, 2 100 = 30位 划分 Partition (partition), . {1,2,., } ,., - 1 1 C I I n C C I K K i i K 如果它们两两不交,且 指标集 的子集 称为 的一个 划分
层次聚类HierarchicalClustering层次聚类将研究对象逐步合并(或分拆),也称作系统聚类,主要包括聚合层次聚类法和分割层次聚类法。其中的关键是定义类与类之间的距离。foalhorseoxcalfcowgoatkidlambsheephenroosterduckgooseturkeychickducklingdogcatrabbit
3 层次聚类Hierarchical Clustering 层次聚类将研究对象逐步合并(或分拆),也称作系统聚 类,主要包括聚合层次聚类法和分割层次聚类法。其中的 关键是定义类与类之间的距离
层次聚类中需要考虑子集(类)的合并或分拆,因此需要定义类之Linkage:间的距离,我们将距离小的集合进行合并,称为连结(linkage:类之间themannerbeingunited)。的距离假设个体a,b之间的距离为d(ab),则集合之间的距离/连结:单连结(single-linkage):dmin(A,B)= min_d(a,b)aEA.bER完全连结(complete-linkage): dmax(A,B) = max,d(a,b)aEA,bEB 平均连结(mean-linkage): dmean(A, B) = ZaEA,beB d(a, b) /IAIBI其它连结:median,centroid,WardSingle linkageCompletelinkageCentroid linkageMean/medianlinkage
4 层次聚类中需要考虑子集( 类)的合并或分拆,因此需要定义类之 间的距离, 我们将距离小的集合进行合并,称为连结(linkage: the manner being united)。 Linkage: 类之间 的距离 Mean/median linkage Centroid linkage 假设个体𝑎, 𝑏之间的距离为𝑑(𝑎, 𝑏), 则集合之间的距离/连结: 单连结(single-linkage): 𝑑min 𝐴, 𝐵 = min 𝑎∈𝐴,𝑏∈𝐵 𝑑(𝑎, 𝑏) 完全连结(complete-linkage): 𝑑max 𝐴, 𝐵 = max 𝑎∈𝐴,𝑏∈𝐵 𝑑(𝑎, 𝑏) 平均连结(mean-linkage): 𝑑mean 𝐴, 𝐵 = σ𝑎∈𝐴,𝑏∈𝐵 𝑑 𝑎, 𝑏 /|𝐴||𝐵| 其它连结:median,centroid,Ward
ClusterdistanceSingle:只要两个集合存在一对点距离较小,就认为d24这两个集合是同一类。(a)Complete:只有当两个集合031的所有点都距离较小时才认4dis为两个集合属于同一类(b)Averge:当所有点对之间di3+ di4 + dis + d23 + d24 +d25距离的平均/中位数较小时:46认为两个集合属于同一类。5median/centroid与此类似。(c)5
5 Single: 只要两个集合存在 一对点距离较小,就认为 这两个集合是同一类。 Complete:只有当两个集合 的所有点都距离较小时才认 为两个集合属于同一类 Averge :当所有点对之间 距离的平均 /中位数较小时, 认为两个集合属于同一类 。 median/centroid与此类似