第4章序列模式挖掘算法 2021/8/25
2021/8/25 1 第4章 序列模式挖掘算法
主要内容 序列模式挖掘简介 序列模式挖掘的应用背景 序列模式挖掘算法概述 ■GSP算法 PrefiX Span算法 Disc-a算法 ■支持约束的序列模式挖掘 2021/8/25
2021/8/25 2 主要内容 ◼ 序列模式挖掘简介 ◼ 序列模式挖掘的应用背景 ◼ 序列模式挖掘算法概述 ◼ GSP算法 ◼ PrefixSpan算法 ◼ Disc-all算法 ◼ 支持约束的序列模式挖掘
序列模式挖掘简介 序列模式的概念最早是由 Agrawal和 Srikant提出 的。 ■动机:大型连锁超市的交易数据有一系列的用户事 务数据库,每一条记录包括用户的ID,事务发生的 时间和事务涉及的项目。如果能在其中挖掘涉及事 务间关联关系的模式,即用户几次购买行为间的联 系,可以采取更有针对性的营销措施。 2021/8/25
2021/8/25 3 一、序列模式挖掘简介 ◼ 序列模式的概念最早是由Agrawal和Srikant 提出 的。 ◼ 动机:大型连锁超市的交易数据有一系列的用户事 务数据库,每一条记录包括用户的ID,事务发生的 时间和事务涉及的项目。如果能在其中挖掘涉及事 务间关联关系的模式,即用户几次购买行为间的联 系,可以采取更有针对性的营销措施
事务数据库实例 例:一个事务数据库,一个事务代表一笔交易,一个 单项代表交易的商品,单项属性中的数字记录的是商 品ID Customer Id I Transaction Time T Items Bought June 25 93 June 30 93 90 June 10 93 10,20 June 15 93 30 June 20 93 40,60,70 3 June 25 93 30.50 June 25 93 30 June 30 93 40,70 Jul25"93 90 5 June 12 93 90 2021/8/25
2021/8/25 4 事务数据库实例 ◼ 例:一个事务数据库,一个事务代表一笔交易,一个 单项代表交易的商品,单项属性中的数字记录的是商 品ID
序列数据库 一般为了方便处理,需要把数据库转化为序列 数据库。方法是把用户ID相同的记录合并,有 时每个事务的发生时间可以忽略,仅保持事务 间的偏序关系 C'ustomer Id Customer Sequence ((30)(90) 2345 (1020)(30)(406070) (305070) ((30)(4070)(90)) ((90) 2021/8/25 5
2021/8/25 5 序列数据库 ◼ 一般为了方便处理,需要把数据库转化为序列 数据库。方法是把用户ID相同的记录合并,有 时每个事务的发生时间可以忽略,仅保持事务 间的偏序关系