浙江大学远程教育学院 DISTANCELEARN I NGSCHOOLOFZHEJI ANGUN I VERS I TY 任课教师:王灿 课程代码:0703004 课程名称:数据挖掘 第13-14讲 教师E-mai:sjwj@dlc.zju.edu.cn
13-14 王 灿 数据挖掘 sjwj@dlc.zju.edu.cn 0703004
大型数据库中的关联规则 挖掘
大型数据库中的关联规则 挖掘
什么是关联规则挖掘? ■关联规则挖掘: 口从事务数据库,关系数据库和其他信息存储中的大 量数据的项集之间发现有趣的、频繁出现的模式、 关联和相关性 应用: ¤购物篮分析、分类设计、捆绑销售等
什么是关联规则挖掘? ◼ 关联规则挖掘: ❑ 从事务数据库,关系数据库和其他信息存储中的大 量数据的项集之间发现有趣的、频繁出现的模式、 关联和相关性。 ◼ 应用: ❑ 购物篮分析、分类设计、捆绑销售等
尿布与啤酒”—一典型关联分析案例 采用关联模型比较典型的案例是“尿布与啤酒” 的故事。在美国,一些年轻的父亲下班后经常 要到超市去买婴儿尿布,超市也因此发现了 个规律,在购买婴儿尿布的年轻父亲们中,有 30%~40%的人同时要买一些啤酒。超市随后 调整了货架的摆放,把尿布和啤酒放在一起, 明显增加了销售额。同样的,我们还可以根据 关联规则在商品销售方面做各种促销活动
“尿布与啤酒”——典型关联分析案例 ◼ 采用关联模型比较典型的案例是“尿布与啤酒” 的故事。在美国,一些年轻的父亲下班后经常 要到超市去买婴儿尿布,超市也因此发现了一 个规律,在购买婴儿尿布的年轻父亲们中,有 30%~40%的人同时要买一些啤酒。超市随后 调整了货架的摆放,把尿布和啤酒放在一起, 明显增加了销售额。同样的,我们还可以根据 关联规则在商品销售方面做各种促销活动
购物篮分析 如果问题的全域是商店中所有商品的集合,则对每种 商品都可以用一个布尔量来表示该商品是否被顾客购 买,则每个购物篮都可以用一个布尔向量表示;而通 过分析布尔向量则可以得到商品被频繁关联或被同时 购买的模式,这些模式就可以用关联规则表示 (000010,02种方法丢失了什么信息?) ■关联规则的两个兴趣度度量 支持度b10(, computer")→bns(x," software") a置信度 sup port=2%, confidence=60%
购物篮分析 ◼ 如果问题的全域是商店中所有商品的集合,则对每种 商品都可以用一个布尔量来表示该商品是否被顾客购 买,则每个购物篮都可以用一个布尔向量表示;而通 过分析布尔向量则可以得到商品被频繁关联或被同时 购买的模式,这些模式就可以用关联规则表示 (0001001100,这种方法丢失了什么信息?) ◼ 关联规则的两个兴趣度度量 ❑ 支持度 ❑ 置信度 [sup 2%, 60%] ( , " ") ( , " ") = = port confidence buys X computer buys X software