第三章数据归约 本章目标 明确基于特征、案例维归约与技术归约的区 别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点 应用相应的统计方法,理解特征选择和特征 构成的基本原则。 ·理解特征等级主成分分析方法。 区别基于增量和平均样本的案例中的技木
第三章 数据归约 本章目标 明确基于特征、案例维归约与技术归约的区 别。 解释数据挖掘过程的预处理阶段中进行数据 归约的优点 应用相应的统计方法,理解特征选择和特征 构成的基本原则。 理解特征等级主成分分析方法。 区别基于增量和平均样本的案例中的技术
3.1大型数据集的维度 ·对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的冋题。除了 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约 1.一旦特征数量达到数百,而只有上百条样 本用于分析时,对挖掘是相对不够的 2.由髙维度引起的数据超负,使一些挖掘算 法不适用
对数据描述,特征的挑选、归约或转换可能 是决定挖掘方案质量的最重要的问题。除了 影响到数据挖掘算法的属性,它也能决定问 题量否可解,或所得到的挖掘模型有多强大。 为什么要数据归约: 1.一旦特征数量达到数百,而只有上百条样 本用于分析时,对挖掘是相对不够的。 2.由高维度引起的数据超负,使一些挖掘算 法不适用。 3.1 大型数据集的维度
预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面交件的形式出现。 ·数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量
预处理数据集的三个主要维度:列(特 征),行(案例或样本)和特征的值。它 们以平面文件的形式出现。 数据归约过程3个基本操作:删除列、删 除行、减少列中值的数量(平整特征)。 例如:用分箱方法减少值的数量,用特征 合并代替原来特征(身体素质指标代替人 的身高和体重特征) 数据归约的约定是不要降低结果的质量
·在数据归约操作时的目标过程 1计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间 2预测/描述精度:多数挖掘模型的主要度量 标准,它佔量了数据归纳和慨括为模型的好 不 3数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 ·理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述
在数据归约操作时的目标过程: 1.计算时间:较简单的数据,也即经过数据归 约后的结果,可减少挖掘所消耗的时间。 2.预测/描述精度:多数挖掘模型的主要度量 标准,它估量了数据归纳和慨括为模型的好 坏。 3.数据挖掘模型的描述:简单的描述通常来自 数据归约,意味着模型能得到更好的理解。 理想的情况是维归约后既能减少时间,又能 同时提高精度和简化描述
●数据归约算法的特征: 1可测性:已归约的数据集可精确确定近似结果的质 里。 2可识别性:挖掘前能执行归约算法时能确定近似结 果的质量 3单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数 4.—致性:结果的质量与时间和输入数据质量有关 5收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6中断性:算法可在任何时刻停止并给出答案。 7优先权:算法可以暂停并以最小的开销新开始
数据归约算法的特征: 1.可测性:已归约的数据集可精确确定近似结果的质 量。 2.可识别性:挖掘前能执行归约算法时能确定近似结 果的质量。 3.单调性:算法是可迭代的,结果的质量是时间和输 入数据质量的一个非递减的函数。 4.一致性:结果的质量与时间和输入数据质量有关。 5.收益递增:方案在迭代早期可获得大的改进,但随 时间递减。 6.中断性:算法可在任何时刻停止并给出答案。 7.优先权:算法可以暂停并以最小的开销新开始