IR系统的组件 ·文本处理形成索引词 ·删除停用词 ,Stemming(提取词干) ·建索引 ·为文档建立倒排索引表 搜索 ·根据倒排索引表检索出与提问相关的文档 ▣排序 ■将检索出的文档根据相关性排序
IR系统的组件 文本处理形成索引词 删除停用词 Stemming(提取词干) 建索引 为文档建立倒排索引表 搜索 根据倒排索引表检索出与提问相关的文档 排序 将检索出的文档根据相关性排序
IR系统的组件 ■用户界面 ■管理和用户的交互过程,包括: ·提问输入和文档输出 ■相关反馈 ■结果的可视化 ■提问操作 ·对提问进行变换,以改进检索结果 ■根据同义词词典(thesaurus)对提问进行扩展 ■利用相关反馈对提问进行变换
IR系统的组件 用户界面 管理和用户的交互过程,包括: 提问输入和文档输出 相关反馈 结果的可视化 提问操作 对提问进行变换,以改进检索结果 根据同义词词典(thesaurus)对提问进行扩展 利用相关反馈对提问进行变换
Web搜索 ■将IR技术应用于World Wide Web上的 HTML网页 ■和纯文本相比,网页的特点如下: ■必须通过在网上爬行”搜集网页 。可以开发结构布局信息 。文档的更新是不可控的 。可以开发网页之间的链接结构
Web搜索 将IR技术应用于World Wide Web上的 HTML网页 和纯文本相比,网页的特点如下: 必须通过在网上“爬行”搜集网页 可以开发结构布局信息 文档的更新是不可控的 可以开发网页之间的链接结构
Web搜索系统 Web Spider 大 文档语料库 提问 IR系统 1.第1页 2.第2页 排序后 3.第3页 的文本
Web搜索系统 提问 IR系统 排序后 的文本 1.第1页 2.第2页 3.第3页 . . 文档语料库 Web Spider
意义
意义