数据错误的危害性 ■高昂的操作费用 ■糟糕的决策制定 组织的不信任 ■分散管理的注意力
数据错误的危害性 ◼ 高昂的操作费用 ◼ 糟糕的决策制定 ◼ 组织的不信任 ◼ 分散管理的注意力
数据预处理的形式 ■数据清理 ■补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 数据集成 集成多个数据库、数据立方或文件 数据变换 n规范化和聚集 ■数据归约 简化数据、但产生同样或相似的结果7
7 数据预处理的形式 ◼ 数据清理 ◼ 补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致 ◼ 数据集成 ◼ 集成多个数据库、数据立方或文件 ◼ 数据变换 ◼ 规范化和聚集 ◼ 数据归约 ◼ 简化数据、但产生同样或相似的结果
数据预处理的形式 Data cleaning Data integration Data transformation 2,32,100.59,48 0.02,0.32,1.00,0.59,0.48 Data reduction attributes attributes Al A2 A3 A126 Al A3 A115 T3 T4 T4 T1456 T2000
数据预处理的形式
小结 ■现实世界的数据一般是脏的、不完整的和不 致的。 ■数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ■高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤 ■检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报
小结 ◼ 现实世界的数据一般是脏的、不完整的和不一 致的。 ◼ 数据预处理技术可以改进数据的质量,从而有 助于提高其后的挖掘过程的精度和性能。 ◼ 高质量的决策必然依赖于高质量的数据,因此 数据预处理是知识发现过程的重要步骤。 ◼ 检测异常数据、尽早地调整数据并归约待分析 的数据,将在决策过程中得到高回报
22描述性数据汇总 ■获得数据的总体印象对于成功的数据预处理是 至关重要的 ■描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 ■动机:更好的理解数据 ■主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示
2.2 描述性数据汇总 ◼ 获得数据的总体印象对于成功的数据预处理是 至关重要的。 ◼ 描述性数据汇总技术可以用来识别数据的典型 性质,突显哪些数据值应当视为噪声或离群点 。 ◼ 动机:更好的理解数据。 ◼ 主要内容:度量数据的中心趋势和离散程度、 描述数据汇总的图形显示