特征选取不同对聚类结果的影响 966 (c)按生活环境分 羊,狗,猫 金鱼 蜥蜴,毒蛇 绯鲵鲣 青蛙 麻雀,海鸥 蓝鲨 陆地 水里 两栖
青蛙 羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥 金鱼 绯鲵鲣 蓝鲨 (c) 按生活环境分 陆地 水里 两栖 特征选取不同对聚类结果的影响
特征选取不同对聚类结果的影响 /966 ()按繁衍后代方式和肺是否存在分 羊,狗,猫 蜥蜴,毒蛇 金鱼 哺乳且有肺 麻雀,海鸥 绯鲵鲣 青蛙 蓝鲨 非哺乳且有肺 非哺乳且无肺哺乳且无肺
蓝鲨 金鱼 绯鲵鲣 蜥蜴,毒蛇 麻雀,海鸥 青蛙 羊,狗,猫 (d) 按繁衍后代方式和肺是否存在分 非哺乳且有肺 哺乳且无肺 哺乳且有肺 非哺乳且无肺 特征选取不同对聚类结果的影响
距离测度不同,聚类结果也不同 966 0 0 0 ●】 数据的粗聚类是两类,细聚类为4类
距离测度不同,聚类结果也不同 数据的粗聚类是两类,细聚类为4类
综上可见: 966 选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对聚类结果都会产生极大影响
综上可见: 选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对聚类结果都会产生极大影响
聚类过程遵循的基本步骤 /966 特征选择 尽可能多地包含任务关心的信息 二、 近邻测度 定量测定两特征如何“相似”或“不相似” 三、 聚类准则 以蕴涵在数据集中类的类型为基础 四、 聚类算法 按近邻测度和聚类准则揭示数据集的聚类结构 五、结果判定 由专家用其他方法判定结果的正确性
聚类过程遵循的基本步骤 一、特征选择 尽可能多地包含任务关心的信息 二、近邻测度 定量测定两特征如何“相似”或“不相似” 三、聚类准则 以蕴涵在数据集中类的类型为基础 四、聚类算法 按近邻测度和聚类准则揭示数据集的聚类结构 五、结果判定 由专家用其他方法判定结果的正确性