关联规则挖掘分类(1) 关联规则有多种分类 根据规则中所处理的值类型 布尔关联规则 computer= financial management software 量化关联规则(规则描述的是量化的项或属性间的关联性」 age(X, 30.39 )A income(X, 42K.48k")= buys(X, "computer") 口根据规则中涉及的数据维 单维关联规则 (仅涉及buys这个维) buys(,"computer)= buys(x, "software") 多维关联规贝
关联规则挖掘分类 (1) ◼ 关联规则有多种分类: ❑ 根据规则中所处理的值类型 ◼ 布尔关联规则 ◼ 量化关联规则(规则描述的是量化的项或属性间的关联性) ❑ 根据规则中涉及的数据维 ◼ 单维关联规则 ◼ (仅涉及buys这个维) ◼ 多维关联规则 age (X, "30...39") income (X, "42k...48k") buys(X, "computer") buys (X, "computer") buys (X, "software") computer financial _ management _ software
关联规则挖掘分类②2 口根据规则集所涉及的抽象层 单层关联规则 多层关联规则(在不同的抽象层发现关联规则) age(x, 30.39)= buys(X,"laptop computer") age(X,"30.39”)→b(X," computer") ¤根据关联挖掘的各种扩充 挖掘最大的频繁模式(该模式的仼何真超模式都是非频繁的) 挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超 集c,使得每个包含c的事务也包含c) (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频 繁项集)
关联规则挖掘分类 (2) ❑ 根据规则集所涉及的抽象层 ◼ 单层关联规则 ◼ 多层关联规则 (在不同的抽象层发现关联规则) ❑ 根据关联挖掘的各种扩充 ◼ 挖掘最大的频繁模式(该模式的任何真超模式都是非频繁的) ◼ 挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在其真超 集c’,使得每个包含c的事务也包含c’) ◼ (最大的频繁模式和频繁闭项集可以用来减少挖掘中产生的频 繁项集) age (X, "30...39") buys(X, "laptop _ computer") age (X, "30...39") buys (X, "computer")
由事务数据库挖掘单维布尔关联规贝 ■最简单的关联规则挖掘,即单维、单层、布尔关联规 则的挖掘。 Transaction ID ltems Bought 最小支持度50% 2000 A, B, C 最小置信度50% 1000 A C 400A0D Frequent Itemset Support 5000B, E, F {A} 75% {B} 50% C 50% A C 50 对规则A→C,其支持度 Sup port(A→C)=P(A∪C)=5 0% 置信度 confidence(A=C)=P(c A )=P(AUC)/P(A)=sup port(aUC)/sup port(a)=66.6%
由事务数据库挖掘单维布尔关联规则 ◼ 最简单的关联规则挖掘,即单维、单层、布尔关联规 则的挖掘。 Transaction ID Items Bought 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F Frequent Itemset Support {A} 75% {B} 50% {C} 50% {A,C} 50% 最小支持度 50% 最小置信度 50% ◼ 对规则A C,其支持度 =50% ◼ 置信度 confidence (A C) = P(C | A) = P(A C)/ P(A) = sup port(A C)/sup port(A) = 66.6% sup port(A C) = P(A C)
A rior 算法(1) ■ Apriori算法是挖掘布尔关联规则频繁项集的算法 ■ Apriori算法利用的是4 prior性质:频繁项集的所有非 空子集也必须是频繁的。 ¤A∪B模式不可能比A更频繁的出现 口 Apriori算法是反单调的,即一个集合如果不能通过测试,则 该集合的所有超集也不能通过相同的测试 Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的 效率
Apriori算法 (1) ◼ Apriori算法是挖掘布尔关联规则频繁项集的算法 ◼ Apriori算法利用的是Apriori性质:频繁项集的所有非 空子集也必须是频繁的。 ❑ 模式不可能比A更频繁的出现 ❑ Apriori算法是反单调的,即一个集合如果不能通过测试,则 该集合的所有超集也不能通过相同的测试。 ❑ Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的 效率 A B