问题定义 项集 teaset)是所有在序列数据库出现过的单 项组成的集合 例:对一个用户购买记录的序列数据库来说, 项集包含用户购买的所有商品,一种商品就是 一个单项。通常每个单项有一个唯一的I,在 数据库中记录的是单项的ID 2021/8/25 6
2021/8/25 6 问题定义 ◼ 项集(Itemset)是所有在序列数据库出现过的单 项组成的集合 ◼ 例:对一个用户购买记录的序列数据库来说, 项集包含用户购买的所有商品,一种商品就是 一个单项。通常每个单项有一个唯一的ID,在 数据库中记录的是单项的ID
问题定义 元素( Element)可表示为x1x2xn),x(1<=k <=m)为不同的单项。元素内的单项不考虑顺 序关系,一般默认按照D的字典序排列 在用户事务数据库里,一个事务就是一个元素。 2021/8/25
2021/8/25 7 问题定义 ▪ 元素(Element)可表示为(x1x2…xm), xk (1 <= k <= m)为不同的单项。元素内的单项不考虑顺 序关系,一般默认按照ID的字典序排列. ▪ 在用户事务数据库里,一个事务就是一个元素
问题定义 序列 Sequence)是不同元素 Element)的有序排 列,序列s可以表示为s=<>,s(1<=j <=1)为序列s的元素 一个序列包含的所有单项的个数称为序列的长 度。长度为-序列记为l序列 2021/8/25
2021/8/25 8 问题定义 ▪ 序列(Sequence)是不同元素(Element)的有序排 列,序列s可以表示为s = <s1 s2…sl>,sj (1 <= j <= l)为序列s的元素 ▪ 一个序列包含的所有单项的个数称为序列的长 度。长度为l的序列记为l-序列
例:一条序列<(10,20)30406070)>有3个元 素,分别是(1020),30,(406070) 3个事务的发生时间是由前到后。这条 序列是一个6-序列 2021/8/25
2021/8/25 9 ◼ 例:一条序列<(10,20)30(40,60,70)>有3个元 素,分别是(10 20),30,(40 60 70 ); ◼ 3个事务的发生时间是由前到后。这条 序列是一个6-序列
问题定义 设序列=<a1a2an>,序列β=<bb 和b都是元素。如果存在整数1<=j<j2<.<jn m,使得a1sba2sb2,…, anc bin,则 称序列为序列β的子序列,又称序列β包含序 列a,记为a≤β 2021/8/25
2021/8/25 10 问题定义 ▪ 设序列 = <a1a2…an>,序列 = <b1b2…bm>,ai 和bi都是元素。如果存在整数1 <= j1 < j2 <…< jn <= m,使得a1 bj1,a2 bj2,…, an bjn,则 称序列为序列的子序列,又称序列包含序 列,记为