2015 暑假拼血 在战7 夏门大学林 DAYS 厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日
厦门大学数据库实验室 论文阅读报告二 报告人:罗道文 导师:林子雨 时间:2015年07月27日
过渡页 目录 Pass-Join: A Partition-based Method for Similarity Joins 2 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints
过渡页 1 目 录 Trie-Join: Efficient Trie-based String Similarity Joins with Edit-Distance Constraints 1 Pass-Join: A Partition-based Method for Similarity Joins 2
基础知识 基础知
基础知识 2 基础知识
基础知识 知识科普 1、所谓相似性连接( similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、冋量相似性连接 和图的相似性连接 3、相似性度量:汉明距离〔 hammingdistance)、 Levenshtein距离、编辑距离相 似性、标准化编辑距离( normalized editdistance)
基础知识 3 知识科普: 1、所谓相似性连接(similarity join)是指在给定的数据集(同一个数据集,或者两个数 据集,甚至多个数据集之间)上并设定相应的阈值,通过某一种相似性度量函数找出所 有相似度不小于阈值的数据对的操作。 2、四种数据集:字符串相似性连接、集合或多重集合相似性连接、向量相似性连接 和图的相似性连接 3、相似性度量:汉明距离(hammingdistance)、Levenshtein 距离、编辑距离相 似性、标准化编辑距离(normalized editdistance)
基础知识 举个例子: 编辑距离( Edit Distance),又称 editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将—个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1: string和t2: thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t和t2位相似字符串
基础知识 4 举个例子: 编辑距离(Edit Distance),又称editdistance距离,是指两个字串之间,由一个 转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符 ,插入一个字符,删除一个字符。 例如,有两个字符串t1:string和t2:thing,如果要从t1->t2,编辑距离为2 如果阈值设为3,则t1和t2位相似字符串