从高频集导出关联规则 R1:烤鸭-->面饼、面酱。S=40%,C=66.6% 解释:买烤鸭的顾客占3/5,买了烤鸭又同时买了 {面饼,面酱}顾客占2/5,说明在买烤鸭的人当中 又买了{面饼、面酱}的占{(2/5)/(3/5)}=666% 按朴素的,但不一定总是正确的看法,把买烤鸭视 为原因,右边的买{面饼、面酱}的视为结果,现有 数据表明,这种因果关系有666%的正确性(不是 想当然拍脑袋得出的神仙数字)
从高频集导出关联规则 ◼ R1:烤鸭 --> 面饼、面酱。S=40%,c=66.6% ◼ 解释:买烤鸭的顾客占3/5,买了烤鸭又同时买了 {面饼,面酱} 顾客占2/5,说明在买烤鸭的人当中 又买了{面饼、面酱}的占{(2/5) / (3/5) }=66.6% ◼ 按朴素的,但不一定总是正确的看法,把买烤鸭视 为原因,右边的买{面饼、面酱}的视为结果,现有 数据表明,这种因果关系有66.6%的正确性(不是 想当然拍脑袋得出的神仙数字)。 16
■R1:烤鸭->面饼、面酱。S=40%,C=66.6% ■R2:面饼->烤鸭、面酱,s=40%,C=66.6% ■R3:面酱->面饼、烤鸭,s=40%,C=50% 而这些规则的运用之妙成乎于人,例如 用R1,将烤鸭降价以促销面饼、面酱,很可能会 破产(一等置信度,导致了破产); ■用R2将面饼降价,以促销烤鸭,可能会发 财 (一等置信度,导致了发财) ■用R3,引不起顾客的热情。 ■可见,真理(知识)藏在数据中,还要人去去伪存 真 17
◼ R1:烤鸭 --> 面饼、面酱。S=40%,c=66.6% ◼ R2:面饼 --> 烤鸭、面酱 ,s=40%,c=66.6% ◼ R3:面酱 --> 面饼、烤鸭 ,s=40%,c=50% ◼ 而这些规则的运用之妙成乎于人,例如∶ ◼ 用R1,将烤鸭降价以促销面饼、面酱,很可能会 破产(一等置信度,导致了破产); ◼ 用R2 将面饼降价,以促销烤鸭,可能会发 财; (一等置信度,导致了发财); ◼ 用R3,引不起顾客的热情。 ◼ 可见,真理(知识)藏在数据中,还要人去去伪存 真。 17
挖掘关联规则实际过程,易见分两大步 ■(a)筛出高频集。给定支持度阈值t,模仿选举 的“唱票-计票”把频率高于t的单项集,双项 集,…K项集找出来,这一步至少扫描数据库K遍, 而且,多项集之组合数量很大,比较费时间。 计算置信度,比较简单,左边的支持度做分母, 两边合起来的的支持度做分子。 ■在第一步中,当商品总数T比较大,例如实际大 超市中,例如T>105,欲考察K项商品之间关联, 啗K比较大,例如K>10时,涉及到组合爆炸,也许, 用高档计算机也需要若干天,若干月,用行话描述, 朴素方法的 Scalar|ity不好
挖掘关联规则实际过程,易见分两大步 ◼ (a) 筛出高频集。 给定支持度阈值t ,模仿选举 的“唱票-计票”把频率高于t的 单项集,双项 集,…,K项集 找出来,这一步至少扫描数据库K遍, 而且,多项集之组合数量很大,比较费时间。 ◼ 计算置信度,比较简单,左边的支持度做分母, 两边合起来的的支持度做分子。 ◼ 在第一步中,当商品总数T比较大,例如实际大 超市中,例如T>105 , 欲考察K项商品之间关联, 当K比较大,例如K>10时,涉及到组合爆炸,也许, 用高档计算机也需要若干天,若干月,用行话描述, 朴素方法的 Scalability不好。 18
Aprior构造性命题 (k+1)项的高频集一定可以用其两个k项的高频子集 连接而成。 ■{烤鸭,面饼,面酱}是高频集,用JOIN表示数据库 中的连接运算,则这个三项集可用两个双项(高频) 集连接而成: ■{烤鸭,面饼}JoIN{面饼,面酱}=={烤鸭,面饼,面酱} (k+1)项的高频集有(k+1)个k项子集(且都是高 频的),容易找到其中的两个,使他们有K-1项相同, 连接即可
Aprior构造性命题: ◼ (k+1)项的高频集一定可以用其两个k项的高频子集 连接而成。 ◼ {烤鸭,面饼,面酱} 是高频集,用 JOIN 表示数据库 中的连接运算,则这个三项集可用两个双项(高频) 集连接而成: ◼ {烤鸭,面饼} JOIN {面饼,面酱} == {烤鸭,面饼,面酱} ◼ (k+1)项的高频集有(k+1)个k项子集(且都是高 频的),容易找到其中的两个,使他们有K-1项相同, 连接即可。 19
Scalable Frequent Itemset Mining Methods Apriori: A Candidate generation-and-Test Approach Improving the Efficiency of Apriori FPGrowth: A Frequent Pattern-Growth approach ECLAT: Frequent Pattern Mining with vertical Data Format
20 Scalable Frequent Itemset Mining Methods ◼ Apriori: A Candidate Generation-and-Test Approach ◼ Improving the Efficiency of Apriori ◼ FPGrowth: A Frequent Pattern-Growth Approach ◼ ECLAT: Frequent Pattern Mining with Vertical Data Format