信息检索与数据挖掘 2019/3/4 1 信息检索与数据挖掘 第3章词项词典和倒排记录表
信息检索与数据挖掘 2019/3/4 1 信息检索与数据挖掘 第3章 词项词典和倒排记录表
信息检索与数据挖掘 2019/3/4 3 第3章词典查找及扩展的倒排索引 l.如何建立词项词典(term vocabulary)? ① 文档集 ② 文本词条化(Tokenization) 语言学预处理 建立索引 2.如何实现倒排记录表? ① 快速合并算法:带跳表的倒排记录表(skip lists) ② 包含位置信息的倒排记录表以及短语查询 3
信息检索与数据挖掘 2019/3/4 3 第3章 词典查找及扩展的倒排索引 1. 如何建立词项词典( term vocabulary )? ① 文档集 ② 文本词条化( Tokenization ) ③ 语言学预处理 ④ 建立索引 2. 如何实现倒排记录表? ① 快速合并算法:带跳表的倒排记录表(skip lists) ② 包含位置信息的倒排记录表以及短语查询 3
信息检索与数据挖掘 2019/3/4 4 建立词项(Term)词典过程 量h西 待建索引文档集合 词条化模块 Tokenizer 词条化 Friends Romans Countrymen 语言学预处理模块 Linguistic modules friend roman countryman 语言学预处理 索引器 Indexer friend 000 0 倒排记录表 roman countryman 13 16 4
信息检索与数据挖掘 2019/3/4 4 建立词项(Term)词典过程 词条化模块 Tokenizer 词条化 Friends Romans Countrymen 语言学预处理模块 Linguistic modules 语言学预处理 friend roman countryman 索引器 Indexer 倒排记录表 friend roman countryman 2 4 2 13 16 1 待建索引文档集合 4
信息检索与数据挖掘 2019/3/4 5 第3章词典查找及扩展的倒排索引 ●第一部分:如何建立词项词典? ●文档解析(Parsing a document) ●词条化 ●停用词 ●词项归一化 ●词形归并 ●词还原 ●第二部分:如何实现倒排记录表? ●快速合并算法:带跳表的倒排记录表 ●包含位置信息的倒排记录表以及短语查询 5
信息检索与数据挖掘 2019/3/4 5 第3章 词典查找及扩展的倒排索引 第一部分:如何建立词项词典? 文档解析(Parsing a document) 词条化 停用词 词项归一化 词形归并 词干还原 第二部分:如何实现倒排记录表? 快速合并算法:带跳表的倒排记录表 包含位置信息的倒排记录表以及短语查询 5
信息检索与数据挖掘 2019/3/4 6 文档解析 ●文档包含哪些格式? pdf/word/excel/html? ●文档中包含的语言? ●文档使用何种编码方式? 上述问题都可以看成是机器学习中的分类问题,但 在实际中往往采用启发式方法来实现。(后面章节 讨论) 6
信息检索与数据挖掘 2019/3/4 6 文档解析 文档包含哪些格式? • pdf/word/excel/html? 文档中包含的语言? 文档使用何种编码方式? 上述问题都可以看成是机器学习中的分类问题,但 在实际中往往采用启发式方法来实现。(后面章节 讨论) 6