任务相关的数据 用户感兴趣的只是数据库或数据仓库的一个子集。 ¤相关的操作:DB一选择、投影、连接、聚集等;DW一切片、 切块 初始数据关系 数据子集选择过程产生的新的数据关系 ¤可挖掘的视图 用于数据挖掘相关任务的数据集
任务相关的数据 ◼ 用户感兴趣的只是数据库或数据仓库的一个子集。 ❑ 相关的操作:DB-选择、投影、连接、聚集等;DW-切片、 切块 ❑ 初始数据关系 ◼ 数据子集选择过程产生的新的数据关系 ❑ 可挖掘的视图 ◼ 用于数据挖掘相关任务的数据集
任务相关的数据——例子 挖掘加拿大顾客和他们常在 AllElectronics购买 的商品间的关联规则 口数据库(仓库)名( e.g. AllElectronics db) 口包含相关数据的表或数据立方体名( e.g. item, customer, purchases, item sold 口选择相关数据的条件(今年、加拿大) 口相关的属性或维(tem表的name和prce, customer表的 Income和age)
任务相关的数据——例子 ◼ 挖掘加拿大顾客和他们常在AllElectronics购买 的商品间的关联规则 ❑ 数据库(仓库)名 (e.g. AllElectronics_db) ❑ 包含相关数据的表或数据立方体名(e.g. item, customer, purchases, item_sold) ❑ 选择相关数据的条件(今年、加拿大) ❑ 相关的属性或维(item表的name和price, customer表的income和age)
要挖掘的知识类型 ■要挖掘的知识类型将决定使用什么数据挖掘功 能 ¤概念描述(特征化和区分),关联规则,分类/预测」 聚类和演化分析等 模式模板 ¤又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程
要挖掘的知识类型 ◼ 要挖掘的知识类型将决定使用什么数据挖掘功 能。 ❑ 概念描述(特征化和区分),关联规则,分类/预测, 聚类和演化分析等 ◼ 模式模板 ❑ 又称元模式或元规则,用来指定所发现模式所必须 匹配的条件,用于指导挖掘过程
关联规则元模式——例子 ■研究 ElEctronics的顾客购买习惯,使用如下关联规 a PX: customer, W)AQX,Y=>buys(X, Z Ⅹ-- customer表的关键字 PQ-谓词变量 W,Y,Z-对象变量 模板具体化 aage(X,“30..39”)^ Income(X,“40k.49k)=>buys(X,“"VCR”) [22%,60%] a occupation(x,“ student)∧age(,“20..29”)=>buys(X, computer) [1.4%, 70%]
关联规则元模式——例子 ◼ 研究AllElectronics的顾客购买习惯,使用如下关联规 则: ❑ P(X: customer, W) ∧ Q(X, Y) =>buys(X, Z) ◼ X---customer表的关键字 ◼ P,Q---谓词变量 ◼ W, Y, Z---对象变量 ◼ 模板具体化 ❑ age(X, “30…39”) ∧ income(X, “40k…49k”)=>buys(X, “VCR”) [2.2%, 60%] ❑ occupation(x, “student”) ∧ age(X, “20…29”)=>buys(X, “computer”) [1.4%, 70%]
背景知识:概念分层 背景知识是关于挖掘领域的知 a概念分层是背景知识的一种,它允许在多个抽象层 上发现知识 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为al,而 叶节点则对应于维的原始数据值。 口概念分层中,自顶向底进行层的标识,即叫.0层, 向下依次为1,2,3等层
背景知识:概念分层 ◼ 背景知识是关于挖掘领域的知识 ❑ 概念分层是背景知识的一种,它允许在多个抽象层 上发现知识。 ◼ 概念分层以树形结构的节点集来表示,其中每 个节点本身代表一个概念,根节点称为all,而 叶节点则对应于维的原始数据值。 ❑ 概念分层中,自顶向底进行层的标识,即all为0层, 向下依次为1,2,3等层