关联规则:基本概念 给定 口项的集合:|=1,i2…, 口任务相关数据D是数据库事务的集合,每个事务7贝 是项的集合,使得TⅠ 口每个事务由事务标识符TD标识; 口A,B为两个项集,事务7包含A当且仅当A∈T 则关联规则是如下蕴涵式: A→B[S,c] 口其中AcI,BcI并且A∩B=Φ,规则A→B在事 务集D中成立,并且具有支持度S和置信度C
关联规则:基本概念 ◼ 给定: ❑ 项的集合:I={i1 ,i2 ,...,in } ❑ 任务相关数据D是数据库事务的集合,每个事务T则 是项的集合,使得 ❑ 每个事务由事务标识符TID标识; ❑ A,B为两个项集,事务T包含A当且仅当 ◼ 则关联规则是如下蕴涵式: ❑ 其中 并且 ,规则 在事 务集D中成立,并且具有支持度s和置信度c T I A T A B [s, c] A I, B I A B = A B
基本概念——示例 项的集合/=A,B,C,D,E,F 每个事务7由事务标识符TD标识,它是项的集合 口比如:T/D(2000)=A,B,C ■任务相关数据D是数据库事务的集合 TID 购买的tem 2000A,BC 1000 AC 4000 A D 5000 B.E.F
基本概念——示例 ◼ 项的集合 I={A,B,C,D,E,F} ◼ 每个事务T由事务标识符TID标识,它是项的集合 ❑ 比如:TID(2000)={A,B,C} ◼ 任务相关数据D是数据库事务的集合 TID 购买的item 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F
规则度量:支持度和置信度 Customer Customer buys both 对所有满足最小支持度和 buys diaper 置信度的关联规则 口支持度s是指事务集D中包 含A∪B的百分比 sup por(A→B)=P(A∪B) a置信度c是指D中包含A的事 Customer 务同时也包含B的百分比 uys beer confidence(A→B)=P(B|A)=P(A∪B)/P(A) TD购买的em 假设最小支持度为50%, 2000 A.B.C 最小置信度为50%,则有 1000 A c 如下关联规则 4000AD A→C(50%,66.6% 5000 BEF 日C→A(50%,100%
规则度量:支持度和置信度 TID 购买的item 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F Customer buys diaper Customer buys both Customer buys beer ◼ 对所有满足最小支持度和 置信度的关联规则 ❑ 支持度s是指事务集D中包 含 的百分比 ❑ 置信度c是指D中包含A的事 务同时也包含B的百分比 ◼ 假设最小支持度为50%, 最小置信度为50%,则有 如下关联规则 ❑ A C (50%, 66.6%) ❑ C A (50%, 100%) A B sup port(A B) = P(A B) confidence (A B) = P(B | A) = P(A B)/ P(A)
大型数据库关联规则挖掘(1) 基本概念 ak一项集:包含k个项的集合 {牛奶,面包,黄油}是个3-—项集 a项集的频率是指包含项集的事务数 口如果项集的频率大于(最小支持度×D中的事务总 数),则称该项集为频繁项集
大型数据库关联规则挖掘 (1) ◼ 基本概念 ❑ k-项集:包含k个项的集合 ◼ {牛奶,面包,黄油}是个3-项集 ❑ 项集的频率是指包含项集的事务数 ❑ 如果项集的频率大于(最小支持度×D中的事务总 数),则称该项集为频繁项集
大型数据库关联规则挖掘(2) 大型数据库中的关联规则挖掘包含两个过程: 口找出所有频繁项集 大部分的计算都集中在这一步 ¤由频繁项集产生强关联规贝 即满足最小支持度和最小置信度的规则
大型数据库关联规则挖掘 (2) ◼ 大型数据库中的关联规则挖掘包含两个过程: ❑ 找出所有频繁项集 ◼ 大部分的计算都集中在这一步 ❑ 由频繁项集产生强关联规则 ◼ 即满足最小支持度和最小置信度的规则