当前位置：和泉文库 > 计算机 > 浏览文档

《数据把掘概念与技术》第八章（8-1）购物篮分析

购物篮是顾客在一次事务中所购买项的集合,所谓事务是一个明确定义的商业行为。事务数据库研究的一个最普通的例子就是寻找项的集合,或叫做项集。包含个项的项集被称为i-项集。包含该项集的事务的百分数叫做该项集的支持度。支持度超过指定阈值的项集叫做频繁项集。

文件格式：PPT，文件大小：484.5KB，售价：8.42元

共29页，可试读10页，点击往前阅读 ↑↑

文档详细内容（约29页）

支持度是概率PXUY >置信度是概率PYX。 >置信度可以表示规则的可信性,支持度表示模式在规则中出现的频率。具有高置信度和强支持度的规则被称为强规则。 >挖掘关联规则的问题可以分两个阶段 1.发掘大项集,也就是事务支持度sS大于预先给定的最小阈值的项的集合。 2.使用大项集来产生数据库中置信度c大于预先给定的最小阈值的关联规则。 Apio算法是解决这个问题的常用方法

➢ 支持度是概率。 ➢ 置信度是概率。 ➢ 置信度可以表示规则的可信性，支持度表示模式在规则中出现的频率。具有高置信度和强支持度的规则被称为强规则。 ➢ 挖掘关联规则的问题可以分两个阶段： 1.发掘大项集，也就是事务支持度s大于预先给定的最小阈值的项的集合。 2.使用大项集来产生数据库中置信度c大于预先给定的最小阈值的关联规则。 ➢ Apriori算法是解决这个问题的常用方法。 P(X  Y) P(Y | X)

82 APRIOR算法 Apor算氵法利用几次迭代来i 计算数据库中的频繁项集。第i次迭代计算出所有频繁项集 (包含个元素的项集)。每次迭代有两个步骤∶产生候选集;计算和选择候选集。 >在第一次迭代中,产生的候选集包含所有1 项集,并计算其支持度s,s大于阈值的1-项集被选为频繁1-项集。 >第二次迭代时, Apriori算法首先去除非频繁 1-项集,在频繁1-项集的基础上进行产生频繁2-项集。原理是:如果一个项集是频篆, 那么它的所有子集也是频繁的

8.2 APRIORI算法 ➢ Apriori算法利用几次迭代来计算数据库中的频繁项集。第i次迭代计算出所有频繁i项集 (包含i个元素的项集)。每一次迭代有两个步骤：产生候选集；计算和选择候选集。 ➢ 在第一次迭代中，产生的候选集包含所有1- 项集，并计算其支持度s，s大于阈值的1-项集被选为频繁1-项集。 ➢ 第二次迭代时，Apriori算法首先去除非频繁 1-项集，在频繁1-项集的基础上进行产生频繁2-项集。原理是：如果一个项集是频繁，那么它的所有子集也是频繁的

>例如,以表8-1中的数据为例。假设 Smin=50%o 表8-1一个简单事务数据库的模型数据库DB TID 项 001 ACD BCE ABCE BE

➢ 例如，以表8-1中的数据为例。假设 smin=50%

在第一次迭代的第一步中,所有单项集都作为候选集,产生一个候选集列表。在下步中,计算每一项的支持度,然后在smn 的基础上选择频繁项集。图8-1中给出第次迭代的结果。 1-项集C 1-项集计数S‰ 大1项集L1计数S LAM LAN 50 LAN {C} 75 {D} {B} B 75 E {E} B 75 75 a)生成阶段 bl)计算阶段 b2)选择阶段图81针对数据库DB的 apriori算法的第一次迭代

➢ 在第一次迭代的第一步中，所有单项集都作为候选集，产生一个候选集列表。在下一步中，计算每一项的支持度，然后在smin 的基础上选择频繁项集。图8-1中给出第一次迭代的结果

在挖掘2项集时,因为2-项集的任何子集都是频繁项集,所以Apio算法使用L礼1来产生候选集。*运算通常定义为 L“Lk=ⅨXUY其中×,Y∈L∩Y=k+1} 注∩Y=k+1即×和Y合取容量为k+1 >当k=1时,因此,C2包含在第二次迭代中作为候选集由运算μ小L1112所产生的2项集本例中为:43/2=6。用该列表来扫描DB, 计算每一个候选集的s,并与sm比较2项集L2。图8-2给出了所有这些步骤和第二次迭代的结果

➢ 在挖掘2-项集时，因为2-项集的任何子集都是频繁项集，所以Apriori算法使用L1 *L1来产生候选集。*运算通常定义为： Lk *Lk={X∪Y 其中X,Y∈Lk ,|X∩Y|=k+1} 注:|X∩Y|=k+1即X和Y合取容量为k+1 ➢ 当k=1时，因此，C2包含在第二次迭代中作为候选集由运算|L1 |·|L1 -1|/2所产生的2-项集。本例中为：4·3/2=6。用该列表来扫描DB，计算每一个候选集的s，并与smin比较2-项集L2。图8-2给出了所有这些步骤和第二次迭代的结果

点击进入文档下载页（PPT格式）

共29页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

《数据把掘概念与技术》第五章（5-5）方差分析
《数据把掘概念与技术》第五章（5-1）统计推断
《数据把掘概念与技术》第二章数据准备
《数据把掘概念与技术》第三章数据归约
《数据把掘概念与技术》第七章决策树和决策规则
《数据把掘概念与技术》第七章（7-4）修剪决策树
《数据把掘概念与技术》第一章数据挖掘的概念
《数据把掘概念与技术》第九章根据内容检索
《数据把掘概念与技术》第九章（9-3）文本检索
广东白云学院：《单片机原理与应用》教学大纲
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第7章常用数字接口电路
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第8章模拟量的输入输出
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第六章（6-1）聚类概念
《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类
《数据把掘概念与技术》第四章从数据中学习
万博科技职业学院：《Visual Basic程序设计》第一章概论
万博科技职业学院：《Visual Basic程序设计》第三章 BASIC语言基础
万博科技职业学院：《Visual Basic程序设计》第五章选择结构设计
万博科技职业学院：《Visual Basic程序设计》第四章程序的输入和输出
万博科技职业学院：《Visual Basic程序设计》第十章菜单和工具栏
万博科技职业学院：《Visual Basic程序设计》第八章过程一子程序和函数
万博科技职业学院：《Visual Basic程序设计》第六章循环程序结构

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录