3.2特征归约 ·在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标
3.2 特征归约 在进行数据归约时不但要处理干扰数 据和污染数据,而且要处理不相关、 相关、冗余数据。为了提高效率,通 常单独处理相关特征,只选择与挖掘 应用相关的数据,以达到用最小的测 量和处理量获得最好的性能。特征归 约的目标:
更少的数据,以便挖掘算法能更快的学 ·更高的挖掘处理精度以便更好地从数 据中归纳出模型。 ·简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭
更少的数据,以便挖掘算法能更快的学 习。 更高的挖掘处理精度,以便更好地从数 据中归纳出模型。 简单的挖掘处理结果,以便理解和使用 起来更加容易。 更少的特征,以便在下一次数据收集中, 通过去除冗余或不相关特征做到节俭
特征归约的目标与任务 1特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集 2特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是 个比特殊的挖掘技木更有决定性因素。特 征构成依赖于应用的知识。交叉学科知识 的应用有利于数据准备的改进
特征归约的目标与任务: 1.特征选择-基于应用领域的知识和挖掘 的目标,选择初始数据集中特征的一个子 集。 2.特征构成-有一些数据的转换对挖掘方 法的结果有惊人影响,因此特征构成是一 个比特殊的挖掘技术更有决定性因素。特 征构成依赖于应用的知识,交叉学科知识 的应用有利于数据准备的改进
特征选择方法: 1特征排列算法:特征等级列表是根据特有的评 佔测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 2最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 ·在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要
特征选择方法: 1.特征排列算法:特征等级列表是根据特有的评 估测量标准进行排序的。测量标准基于可用数据 的精度、一致性、信息内容、样本之间的距离和 特征之间的最终统计相关性。它仅指出特征间的 相关性,不提供子集。 2.最小子集算法:返回一个最小特征子集,子集 中的特征之间没有等级区别。子集中的特征与挖 掘过程相关,其余的则是不相关的。 在特征选择过程中需要建立特征评估方案来确定 等级排列或特征子集选择,这一点很重要
例如,若一个数据集有3个特征A1,A2A3} 特征出现或不出现取值0.1,共有23个归约的 特征子集, {0.0,00,0,13{0,1,0}{0,1,13{1,0,0}{1,0,1}, {1,1,0}{1,1,1 特征选择的任豸是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n3, 空间较小,但大多数挖掘应用,n>20.搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索
例如,若一个数据集有3个特征{A1,A2,A3}, 特征出现或不出现取值0,1,共有2 3个归约的 特征子集, {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1}, {1,1,0},{1,1,1} 特征选择的任务是搜索空间中的每一种状态 都指定可能特征的一个子集。此问题n=3, 空间较小,但大多数挖掘应用,n>20,搜 索起点和搜索策略相当重要,常常用试探 搜索代替穷举搜索