浙江大学远程教育学院 DISTANCELEARN I NGSCHOOLOFZHEJI ANGUN I VERS I TY 任课教师:王灿 课程代码:0703004 课程名称:数据挖掘 第910讲 教师E-mai:sjwj@dlc.zju.edu.cn
9-10 王 灿 数据挖掘 sjwj@dlc.zju.edu.cn 0703004
数据挖掘原语、语言和系 统结构
数据挖掘原语、语言和系 统结构
为什么要数据挖掘原语和语言? 个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ¤会产生大量模式(重新把知识淹没) 口会涵盖所有数据,使得挖掘效率低下 ¤大部分有价值的模式集可能被忽略 ¤挖掘岀的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ■没有精确的指令和规则,数据挖掘系统就没法使用。 ■用数据挖掘原语和语言来指导数据挖掘
为什么要数据挖掘原语和语言? ◼ 一个完全自动(不需要人为干预或指导)的数据挖掘 机器只可能是“一只疯了的怪兽”。 ❑ 会产生大量模式(重新把知识淹没) ❑ 会涵盖所有数据,使得挖掘效率低下 ❑ 大部分有价值的模式集可能被忽略 ❑ 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用 性——令人不感兴趣。 ◼ 没有精确的指令和规则,数据挖掘系统就没法使用。 ◼ 用数据挖掘原语和语言来指导数据挖掘
数据挖掘原语的组成部分 数据挖掘原语应该包括以下部分: 口说明数据库的部分或用户感兴趣的数据集 a要挖掘的知识类型 口用于指导挖掘的背景知识 口模式评估、兴趣度量 a如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程
数据挖掘原语的组成部分 ◼ 数据挖掘原语应该包括以下部分: ❑ 说明数据库的部分或用户感兴趣的数据集 ❑ 要挖掘的知识类型 ❑ 用于指导挖掘的背景知识 ❑ 模式评估、兴趣度量 ❑ 如何显示发现的知识 ◼ 数据挖掘原语用于用户和数据挖掘系统通信,让用户 能从不同的角度和深度审查和发现结果,并指导挖掘 过程
说明数据挖掘任务的原语 任务相关的数据 口数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 挖掘的知识类型 口特征化、区分、关联、分类/预测、聚类 背景知识 ¤概念分层,关联的确信度 模式兴趣度度量 ¤简单性、确定性、实用性、新颖性 发现模式的可视化 a规则、表、图表、图、判定树
说明数据挖掘任务的原语 ◼ 任务相关的数据 ❑ 数据库(仓库)名、数据立方体、选择条件、相关属性、分 组条件 ◼ 挖掘的知识类型 ❑ 特征化、区分、关联、分类/预测、聚类 ◼ 背景知识 ❑ 概念分层,关联的确信度 ◼ 模式兴趣度度量 ❑ 简单性、确定性、实用性、新颖性 ◼ 发现模式的可视化 ❑ 规则、表、图表、图、判定树…