中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第3章 词项词典和倒排记录表

如何建立词项词典? 文档解析:格式?语言?编码方式? 词条化:词条(Tokens)/词项(Terms) 停用词:停用词表?查表法 or 基于文档频率 词项归一化:等价类同义词扩展表 词形归并:am, are, is be 词干还原:去除单词两端词缀、Porter算法 如何实现倒排记录表? • 跳表:跳表指针(位置、个数、更新问题) • 短语查询 • 二元词索引扩展的二元词索引:词性标注 • 位置信息索引邻近查询 • 增加倒排记录表 • 混合索引机制
文件格式:PDF,文件大小:2.17MB,售价:19.59元
文档详细内容(约73页)
点击进入文档下载页(PDF格式)

您可能感兴趣的文档

点击购买下载(PDF)

下载及服务说明

  • 购买前请先查看本文档预览页,确认内容后再进行支付;
  • 如遇文件无法下载、无法访问或其它任何问题,可发送电子邮件反馈,核实后将进行文件补发或退款等其它相关操作;
  • 邮箱: