第八章关联规则 本章目标 >解释关联规则技术的建模特性。 分析大型数据库的基本特性。 描述 Apriori算法,并通过示例来解释算法的 所有步骤 >将频繁模式增长方法同Apηor算法进行比较。 >概述从频繁集中产生关联规则的方法
第八章 关联规则 本章目标 ➢ 解释关联规则技术的建模特性。 ➢ 分析大型数据库的基本特性。 ➢ 描述Apriori算法,并通过示例来解释算法的 所有步骤。 ➢ 将频繁模式增长方法同Apriori算法进行比较。 ➢ 概述从频繁集中产生关联规则的方法
第八章关联规则 本章目标 举例说明使用HTs、 LOGSOM和路径遍历 算法来进行Web挖掘的可行性。 >在指定提炼和萃取阶段的基础上定型文本 挖掘的构架
第八章 关联规则 本章目标 ➢ 举例说明使用HITs、LOGSOM和路径遍历 算法来进行Web挖掘的可行性。 ➢ 在指定提炼和萃取阶段的基础上定型文本 挖掘的构架
关联规则是数据挖掘的主要技术之 也是在无指导学习系统中挖掘本地模 式的最普遍形式。 >本章除了重点介绍关联规则挖掘的 Apo技术外,还将讨论一些和Web 挖掘、文本挖掘相关的数据挖掘方法
➢关联规则是数据挖掘的主要技术之一, 也是在无指导学习系统中挖掘本地模 式的最普遍形式。 ➢本章除了重点介绍关联规则挖掘的 Apriori技术外,还将讨论一些和Web 挖掘、文本挖掘相关的数据挖掘方法
8.1购物篮分析 >购物篮是顾客在一次事务中所购买项的集 合,所谓事务是一个明确定义的商业行为。 事务数据库硏究的一个最普通的例子就是 寻找项的集合,或叫做项集。包含个项的 项集被称为ⅰ-项集。包含该项集的事务的百 分数叫做该项集的支持度。支持度超过指 定阈值的项集叫做频繁项集
8.1 购物篮分析 ➢ 购物篮是顾客在一次事务中所购买项的集 合,所谓事务是一个明确定义的商业行为。 ➢ 事务数据库研究的一个最普通的例子就是 寻找项的集合,或叫做项集。包含i个项的 项集被称为i-项集。包含该项集的事务的百 分数叫做该项集的支持度。支持度超过指 定阈值的项集叫做频繁项集
>基本概念 设={i12,m}是项的集合,DB为事务集合, 其中每个事务T是项的集合,且有Tc 个事务有一个标识符,称作TD。设X为 个项集,当且仅当XT即T包含X。关联 规则是形如的→Y式,其中 Xc且X∩Y=则Ⅹ→Y务集DB中 成立,具有支持度s,其中s是DB中事务包含 X和Y两者的百分比。规则 X→Y集 DB中具有置信度c,如果DB中包含X的事务 同时也包含Y的百分比是c
➢ 基本概念: 设I={i1 ,i2 ,…im}是项的集合,DB为事务集合, 其中每个事务T是项的集合,且有 。每一 个事务有一个标识符,称作TID。 设X为一 个项集,当且仅当 时,即T包含X。关联 规则是形如 的蕴涵式,其中 , ,且 。规则 在事务集DB中 成立,具有支持度s,其中s是DB中事务包含 X和Y两者的百分比。规则 在事务集 DB中具有置信度c,如果DB中包含X的事务 同时也包含Y的百分比是c。 XY T I X T X I X I XY = X Y X Y