建模组件介绍 建模组件的介绍共划分为三个部分 数据预处理组件 数据挖掘建模组件 知识表示
建模组件介绍 • 建模组件的介绍共划分为三个部分: – 数据预处理组件 – 数据挖掘建模组件 – 知识表示
数据预处理组件 数据预处理对数据挖掘的效果好坏起着至关重要的作用,好的数据预处理 能为数据挖掘提供高质量的数据,是数据挖掘成功的重要保证,但现实的 数据中往往存在不完整、异常和不一致的记录,这就对我们的数据质量提 出了很高的要求,数据质量包括准确性、完整性、一致性、时效性、可信 性和可解释性,在对数据预处理的过程中,需要紧紧围绕上述要求展开。 在实际的数据处理中,我们对数据的清理、集成、选择、变换并没有十分 严格地区分,更多地是为了逻辑和思维上的清晰来对节点进行分类,在实 际业务处理中,往往是各种处理技术混合使用,并没有严格区分
议程数据预处理组件 • 数据预处理对数据挖掘的效果好坏起着至关重要的作用,好的数据预处理 能为数据挖掘提供高质量的数据,是数据挖掘成功的重要保证,但现实的 数据中往往存在不完整、异常和不一致的记录,这就对我们的数据质量提 出了很高的要求,数据质量包括准确性、完整性、一致性、时效性、可信 性和可解释性,在对数据预处理的过程中,需要紧紧围绕上述要求展开。 • 在实际的数据处理中,我们对数据的清理、集成、选择、变换并没有十分 严格地区分,更多地是为了逻辑和思维上的清晰来对节点进行分类,在实 际业务处理中,往往是各种处理技术混合使用,并没有严格区分
数据清理组件 数据清理包括填补空值,剔除噪声,识别、删除离群点。其重要性在于如 果数据是“脏”的,则在学习的过程中,会使模型向错误方向倾斜,丢失 重要信息,甚至完全陷入混乱,并且可能挖出完全没有意义的知识,甚至 最后出现无效地、错误的结论
数据清理组件 议程 • 数据清理包括填补空值,剔除噪声,识别、删除离群点。其重要性在于如 果数据是“脏”的,则在学习的过程中,会使模型向错误方向倾斜,丢失 重要信息,甚至完全陷入混乱,并且可能挖出完全没有意义的知识,甚至 最后出现无效地、错误的结论
数据清理组件 区分节点,作用是去除数据库中重复的数据。废弃重复记 录的第一个记录,将部分重复的数据扔到数据流中 填充节点是按条件补充数据和存储类型。可以用一些特定 的规则来替换特殊值或者空值。例如,用0值填充NUL。 过滤节点可过滤多余字段数据,并在此节点对数据属性等进 行一些更改,使数据更“干净”,提升数据质量和建模效率
数据清理组件 议程 区分节点,作用是去除数据库中重复的数据。废弃重复记 录的第一个记录,将部分重复的数据扔到数据流中。 填充节点是按条件补充数据和存储类型。可以用一些特定 的规则来替换特殊值或者空值。例如,用0值填充NULL。 过滤节点可过滤多余字段数据,并在此节点对数据属性等进 行一些更改,使数据更“干净”,提升数据质量和建模效率
数据集成组件 ·数据集成指合并来自多个数据存储的数据,有助于减少数据的重复和不 致,从而提高数据的质量并优化模型的准确性和运算效率,其中,数据集 成还涉及数据值冲突时的检测与处理
议程数据集成组件 • 数据集成指合并来自多个数据存储的数据,有助于减少数据的重复和不一 致,从而提高数据的质量并优化模型的准确性和运算效率,其中,数据集 成还涉及数据值冲突时的检测与处理