第2章数据预处理
1 第2章 数据预处理
主要内容 2.1为什么要预处理数据 ■22描述性数据汇总 ■2.3数据清理 ■2.4数据集成和变换 25数据归约 26数据离散化和概念分层产生
主要内容 ◼ 2.1 为什么要预处理数据 ◼ 2.2 描述性数据汇总 ◼ 2.3 数据清理 ◼ 2.4 数据集成和变换 ◼ 2.5 数据归约 ◼ 2.6 数据离散化和概念分层产生 2
1数据预处理的原因 数据质量的含义 正确性( Correctness) 致性( Consistency) 完整性( Completeness) ■可靠性( Reliability)
3 2.1 数据预处理的原因 ◼ 正确性(Correctness) ◼ 一致性(Consistency) ◼ 完整性(Completeness) ◼ 可靠性(Reliability) 数据质量的含义
现实世界的数据 ■不完整的 ■缺少属性值或某些感兴趣的属性,或仅包含聚 集数据 ■含噪声的 ■包含错误或存在偏离期望的离群值 不一致的 ■采用的编码或表示不同,如属性名称不同 冗余的 ■如属性之间可以相互导出
现实世界的数据 ◼ 不完整的 ◼ 缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。 ◼ 含噪声的 ◼ 包含错误或存在偏离期望的离群值。 ◼ 不一致的 ◼ 采用的编码或表示不同,如属性名称不同 ◼ 冗余的 ◼ 如属性之间可以相互导出
据错误的不可避免性 ■数据输入和获得过程数据错误 ■数据集成所表现出来的错误 ■数据传输过程所引入的错误 ■据统计有错误的数据占总数据的5%左 右[ Redmen],[Orr98]
5 数据错误的不可避免性 ◼ 数据输入和获得过程数据错误 ◼ 数据集成所表现出来的错误 ◼ 数据传输过程所引入的错误 ◼ 据统计有错误的数据占总数据的5%左 右[Redmen],[Orr98]