搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋
搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋
提纲 ■文本处理 ,term处理 ·文本的特性 ■索引与检索 。倒排文件 ·Signature文件 ·PAT Tree Query处理 相关反馈 。查询扩展
提纲 文本处理 term处理 文本的特性 索引与检索 倒排文件 Signature文件 PAT Tree Query处理 相关反馈 查询扩展
文本处理 term处理
文本处理 ——term处理
信息检索系统的体系结构 用户界面 文本 用户 需求 文本处理 逻辑视图 用户 提问处理 建索引 数据库 反馈 管理 倒排文档 提问 搜索 索引 文本 排序后 数据库 的文档 排序 检出的文档
信息检索系统的体系结构 文本 数据库 数据库 管理 建索引 索引 提问处理 搜索 排序 排序后 的文档 用户 反馈 文本处理 用户界面 检出的文档 用户 需求 文本 提问 逻辑视图 倒排文档
文本表示 文本可以表示为 ,一个字符串 词的集合 ■语言单元(例如:名词、短语) ■简单的表示(如:单个词项)效果好 。以往的一些研究显示:基于短语的索引不如基于词 的索引 ·短语可能太特殊了
文本表示 文本可以表示为 一个字符串 词的集合 语言单元 (例如:名词、短语) 简单的表示 (如:单个词项) 效果好 以往的一些研究显示:基于短语的索引不如基于词 的索引 短语可能太特殊了