关联规则分析关联挖掘关联分析又称关联挖掘,目标是在数据项目中找到所有的关联(Associations),也就是并发关系,通过分析数据之间的关系,帮助我们制定出准确的决策。典型例子购物篮分析通过对顾客放入“购物篮”中的商品进行分析,寻找出频繁出现在一起的组合,作为个性化推荐的依据。·例如:“啤酒与尿布
关联挖掘 • 关联分析又称关联挖掘,目标是在数据项目中 找到所有的关联(Associations),也就是 并发关系,通过分析数据之间的关系,帮助我 们制定出准确的决策。 • 购物篮分析通过对顾客放入“购物篮”中的商 品进行分析,寻找出频繁出现在一起的组合, 作为个性化推荐的依据。 • 例如:“啤酒与尿布” 关联规则分析 典型例子
I关联规则挖掘运用场景关联规则挖掘运用医学、交通运输等金融互联网推荐系统场景领域根据用户当前一次对某挖掘特定地理区域、特定揭示海洋、陆地、大行业涨跌二值型关联个项目的点击,通过储时间段内的常见疾病,根气等地球数据之间的规则挖掘、知情交易据挖掘出的强关联规则,关系,从而推动全球识别、公募基金重仓存的关联规则直接进行变化、灾害科学领域推荐强关联规则的后件。提供医疗保健建议股关联规则等。的发展。挖掘交通事故及其潜在诱因,并将最终的分析结果运用到制定安全条例法规以此降低事故率
关联规则挖掘运用 场景 ◆ 根据用户当前一次对某 个项目的点击,通过储 存的关联规则直接进行 推荐强关联规则的后件。 互联网推荐系统 ◆ 挖掘特定地理区域、特定 时间段内的常见疾病,根 据挖掘出的强关联规则, 提供医疗保健建议。 ◆ 挖掘交通事故及其潜在诱 因,并将最终的分析结果 运用到制定安全条例法规 ,以此降低事故率。 医学、交通运输等 领域 ◆ 揭示海洋、陆地、大 气等地球数据之间的 关系,从而推动全球 变化、灾害科学领域 的发展。 金融 ◆ 行业涨跌二值型关联 规则挖掘、知情交易 识别、公募基金重仓 股关联规则等。 关 联 规 则 挖 掘 运 用 场 景
中央财经大学C第二部分关联规则的基本概念及Apriori算法***
第二部分 关联规则的基本概念 及Apriori算法
关联规则的基本概念项目集合和事物集合项集:包含0个或多个项的集合被称为项集(Itemset)。。事务:关联规则的分析对象是事务,事务也即购物篮。。超集/子集:项集AC项集B,则A是B的子集,B是A的超集。关联规则(AssociationRule)关联规则是形如X一Y的蕴含表达式。其中X和Y是不相交的项集。(X,Y)EI.并且有XOY=NULL成立。规则X一Y中X称为前件,Y称为后件,X和IY都是项集
关联规则的基本概念 1 2 2 关联规则(Association Rule) • 关联规则是形如X→Y的蕴含表达式。其中X和Y是不相交的 项集。(X,Y)∈I,并且有X∩Y=NULL成立。规则X→Y中X 称为前件,Y称为后件,X和Y都是项集。 1 项 目 集 合 和 事 物 集 合 • 项集:包含0个或多个项的集合被称为项集(Itemset)。 • 事务:关联规则的分析对象是事务,事务也即购物篮。 • 超集/子集:项集A⊆项集B,则A是B的子集,B是A的超集
I关联规则的基本概念m支持度置信度提升度支持度(Support)是信任度(Confidence)提升度(Lift)表示包是指确定Y在包含X的事含X同时包含Y的比例,指一个项集或者规则在所有事物中出现的频率,务中出现的频繁程度与包含Y的比例的比值。确定规则可以用于给定可以表示对某种模式推可以理解为,Y在X发生数据集的频繁程度。断的强度。的基础上再发生的概率与Y单独发生概率的比值
关联规则的基本概念 • 支持度(Support)是 指一个项集或者规则在 所有事物中出现的频率, 确定规则可以用于给定 数据集的频繁程度。 支持度 • 信任度(Confidence), 是指确定Y在包含X的事 务中出现的频繁程度, 可以表示对某种模式推 断的强度。 置信度 • 提升度(Lift)表示包 含X同时包含Y的比例, 与包含Y的比例的比值。 可以理解为,Y在X发生 的基础上再发生的概率 与Y单独发生概率的比值。 提升度