如何建立词项词典? 文档解析:格式?语言?编码方式? 词条化:词条(Tokens)/词项(Terms) 停用词:停用词表?查表法 or 基于文档频率 词项归一化:等价类同义词扩展表 词形归并:am, are, is be 词干还原:去除单词两端词缀、Porter算法 如何实现倒排记录表? • 跳表:跳表指针(位置、个数、更新问题) • 短语查询 • 二元词索引扩展的二元词索引:词性标注 • 位置信息索引邻近查询 • 增加倒排记录表 • 混合索引机制
文件格式: PDF大小: 2.17MB页数: 73
• 2.1 信息检索模型概述 • 2.2 一个简单的搜索示例 • 2.3 倒排索引 • 2.4 布尔检索模型 • 2.5 布尔检索模型的优化与扩展
文件格式: PDF大小: 2.5MB页数: 82
1.1 信息检索的由来和这门课的意义 1.1.1 信息过载与大数据 1.1.2 信息检索的定义 1.1.3 数据挖掘的定义 1.1.4 本课程的意义 1.2 信息检索的历史和发展 1.2.1 信息检索的历史 1.2.2 工业界的发展 1.2.3 学术界的发展 1.2.4 国际著名研究机构和代表人物 1.3 信息检索与数据挖掘等其他学科的关系 1.4 信息检索的基本概念 1.4.1 基本概念 1.4.2 一个IR系统的基本组成部分 1.5 课程要求和说明
文件格式: PDF大小: 3.73MB页数: 108
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)SSD Single Shot MultiBox Detector
文件格式: PDF大小: 1.18MB页数: 20
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
文件格式: PDF大小: 1.13MB页数: 14
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Neural Ordinary Differential Equations
文件格式: PDF大小: 1.08MB页数: 18
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Memory - Augmented Monte Carlo Tree Search
文件格式: PDF大小: 1.16MB页数: 20
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)FOTS - Fast oriented Text Spotting with a Unified Network
文件格式: PDF大小: 1.33MB页数: 22
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)BitFunnel Revisiting Signatures for Search
文件格式: PDF大小: 1.07MB页数: 9
中国科学技术大学:《信息检索与数据挖掘》课程教学资源(研讨汇报)Beliefs and Biases in Web Search
文件格式: PDF大小: 1.29MB页数: 27