Apriori算法一种频繁项集算法定理:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的核心思想是把发现关联规则的工作分为两步:·第一步通过选代检索出数据库中的所有频繁项集,即频繁项集的支持度不低于用户设定的阈值。第二步从频繁项集中构造出满足用户最低信任度的规则
Apriori 算法 一种频繁项集算法 定理:如果一个项集是频繁的,则它的所有子集一定也是频繁的;相反, 如果一个项集是非频繁的,则它的所有超集也一定是非频繁的 • 第一步通过迭代检索出数据库中的所有频繁项集,即频繁项集的支持度不低 于用户设定的阈值。 核心思想是把发现关联规则的工作分为两步: • 第二步从频繁项集中构造出满足用户最低信任度的规则
相关指标关联规则(associationrule):是形如X→Y的蕴含表达式,其中X和Y是不相交的项集。支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度o(X):表示项集X的支持度计数项集X的支持度:support(X)=o(X)/N·规则X→Y的支持度:support(X→Y)=o(XUY)/N
相关指标 关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和 Y是不相交的项集。 支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以 用于给定数据集的频繁程度 • σ(X):表示项集X的支持度计数 • 项集X的支持度:support(X)=σ(X)/N • 规则X → Y的支持度: support(X → Y) = σ(X∪Y) / N
相关指标置信度(或信任度):确定Y在包含X的事务中出现的频繁程度。confidence(X→Y)=support(XUY)/ support(X)P(Y| X) =P(X,Y)/P(X)支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。支持度通常用来删去那些无意义的规则。置信度度量是通过规则进行推理具有可靠性。,对于给定的规则X一→Y,置信度越高,Y在给定X下的条件概率P(YIX)越大
相关指标 置信度(或信任度):确定Y在包含X的事务中出现的频繁程度。 支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。 • confidence(X → Y) = support(X∪Y)/ support(X) • P (Y| X) =P(X,Y)/P(X) • 对于给定的规则X → Y,置信度越高,Y在给定X下的条件概率P(Y|X)越大。 支持度通常用来删去那些无意义的规则。 置信度度量是通过规则进行推理具有可靠性
五种商品购物篮的所有组合f(n) = 2n - 1CD-BCBDBECDCAECEACADABE(ACD)(ACEADEBCDBCE(ABD)BDECDEABCF.(ABCEABDEACDE(ABCDBCDEABCDE
五种商品购物篮的所有组合