DBSCAN(996) DBSCAN(ensity Based Spatial Clustering of Applications with noise)一个基于密度的聚类算法 可以在带有“噪音”的空间数据库中发现任意形状 的聚类 Outlier B order Eps= lcm Core Minpts =5
11 DBSCAN(1996) ◼ DBSCAN(Density Based Spatial Clustering of Applications with Noise) 一个基于密度的聚类算法 ◼ 可以在带有“噪音”的空间数据库中发现任意形状 的聚类 Core Border Outlier Eps = 1cm MinPts = 5
DBSCAN(996 DBSCAN:一种基于高密度连通区域的基于密度的 聚类方法,该算法将具有足够高密度的区域划分为 簇,并在具有噪声的空间数据库中发现任意形状的 簇。它将簇定义为密度相连的点的最大集合;
12 DBSCAN(1996) ◼ DBSCAN:一种基于高密度连通区域的基于密度的 聚类方法,该算法将具有足够高密度的区域划分为 簇,并在具有噪声的空间数据库中发现任意形状的 簇。它将簇定义为密度相连的点的最大集合;
DBSCAN(续) 算法 任意选取一个点p 得到所有从p关于Eps和MinP密度可达的点 如果p是一个核心点,则找到一个聚类 如果p是一个边界点,没有从p密度可达的点, DBSCAN将 访问数据库中的下一个点 继续这一过程,直到数据库中的所有点都被处理 DBSCAN的复杂度 采用空间索引,复杂度为 o(nlog n),否则为O(n2) DBSCAN的缺点: 对用户定义的参数是敏感的参数难以确定(特别是对于高 维数据,设置的细微不同可能导致差别很大的聚类 数据倾斜分布)全局密度参数不能刻画内在的聚类结构
13 DBSCAN(续) ◼ 算法 ◼ 任意选取一个点p ◼ 得到所有从p关于 Eps 和 MinPts密度可达的点. ◼ 如果p 是一个核心点, 则找到一个聚类. ◼ 如果 p 是一个边界点, 没有从p 密度可达的点, DBSCAN 将 访问数据库中的下一个点. ◼ 继续这一过程, 直到数据库中的所有点都被处理. ◼ DBSCAN的复杂度 ◼ 采用空间索引, 复杂度为O(nlog n), 否则为O(n2 ) ◼ DBSCAN的缺点: ◼ 对用户定义的参数是敏感的, 参数难以确定(特别是对于高 维数据), 设置的细微不同可能导致差别很大的聚类. (数据倾斜分布)全局密度参数不能刻画内在的聚类结构