信息检索与数据挖掘 2019/2/26 7 1.4.2信息检索系统的基本组成 IR系统的组成框架 User Interface Text query Text operations Logical View User Query Indexing Collection feedback Operations Manager Query R Searching Text R Text Ranked Retrieved Collection Docs Ranking Docs 7
信息检索与数据挖掘 2019/2/26 7 IR系统的组成框架 query User feedback Query R Ranked Docs User Interface Text operations Query Operations Indexing Collection Manager Searching Ranking Text R Retrieved Docs Text Collection Text Logical View 1.4.2 信息检索系统的基本组成 7
信息检索与数据挖掘 2019/2/26 8 1.4.2信息检索系统的基本组成 ·用户接口(User Interface):用户和IR系统的人机接口 ·输入查询(Query) ·返回排序后的结果文档(Ranked Docs)并对其进行可视化 (Visualization) ·支持用户进行相关反馈(Feedback) ·用户的两种任务:retrieval或者browsing ·IR的两种模式:pull(ad hoc)或者push(filtering)) ·Pu11:用户是主动的发起请求,在一个相对稳定的数据集合上进行 查询 ·Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进 行操作,将满足用户兴趣的数据推送给用户 8
信息检索与数据挖掘 2019/2/26 8 • 用户接口(User Interface):用户和IR系统的人机接口 • 输入查询(Query) • 返回排序后的结果文档(Ranked Docs)并对其进行可视化 (Visualization) • 支持用户进行相关反馈(Feedback) • 用户的两种任务:retrieval 或者 browsing • IR的两种模式: pull (ad hoc) 或者 push (filtering) • Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行 查询 • Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进 行操作,将满足用户兴趣的数据推送给用户 1.4.2 信息检索系统的基本组成 8
信息检索与数据挖掘 2019/2/26 9 1.4.2信息检索系统的基本组成 ·文本处理(Text Operations):对查询和文本进行的预处理操作 。中文分词(Chinese Word Segmentation) 。 词干还原(Stemming) ·停用词消除(Stop-word removal) 查询处理(Query operations):) 对经过文本处理后的查询进行进一 步处理,得到查询的内部表示(Query Representation) ·查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展 ·查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修 改 文本索引(Indexing):对经过文本处理后的文本进行进一步处理, 。1 得到文本的内部表示(Text Representation),通常基于索引项 (Term)来表示 ·向量化、概率计算 ·组成成倒排表进行存储 9
信息检索与数据挖掘 2019/2/26 9 • 文本处理(Text Operations):对查询和文本进行的预处理操作 • 中文分词(Chinese Word Segmentation) • 词干还原(Stemming) • 停用词消除(Stop-word removal) • 查询处理(Query operations):对经过文本处理后的查询进行进一 步处理,得到查询的内部表示(Query Representation) • 查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展 • 查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修 改 • 文本索引(Indexing):对经过文本处理后的文本进行进一步处理, 得到文本的内部表示(Text Representation),通常基于索引项 (Term)来表示 • 向量化、概率计算 • 组成成倒排表进行存储 1.4.2 信息检索系统的基本组成 9
信息检索与数据挖掘 2019/2/26 10 1.4.2信息检索系统的基本组成 .搜索(Searching):从文本中查找包含查询中索引 项的文本 ·排序(Ranking):对搜索出的文本按照某种方式来 计算其相关度 Logical View:指的是查询或者文本的表示,通 常采用一些关键词或者索引项(index term)来表 示一段查询或者文本。 10
信息检索与数据挖掘 2019/2/26 10 • 搜索(Searching):从文本中查找包含查询中索引 项的文本 • 排序(Ranking):对搜索出的文本按照某种方式来 计算其相关度 • Logical View:指的是查询或者文本的表示,通 常采用一些关键词或者索引项(index term)来表 示一段查询或者文本。 1.4.2 信息检索系统的基本组成 10
信息检索与数据挖掘 2019/2/26 11 1.5.4授课内容 ·第一章绪论 信息检索的典型应用。信息检索的基本概念和发展历史。信息检 索和其他相关学科(自然语言处理、机器学习、概率统计、模式识 别、数据库、数据挖掘等等)的关系。信息检索系统的基本构架和 般流程。 ·第二章布尔检索及倒排索引 字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操 作。短语查询的处理。布尔检索模型及其扩展。 ·第三章词典查找及扩展的倒排索引 支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查 询处理的索引结构。支持拼写或发音纠错处理的索引结构。 11
信息检索与数据挖掘 2019/2/26 11 1.5.4 授课内容 • 第一章 绪论 信息检索的典型应用。信息检索的基本概念和发展历史。信息检 索和其他相关学科(自然语言处理、机器学习、概率统计、模式识 别、数据库、数据挖掘等等)的关系。信息检索系统的基本构架和 一般流程。 • 第二章 布尔检索及倒排索引 字符串匹配及倒排索引。布尔查询处理及其优化。扩展的布尔操 作。短语查询的处理。布尔检索模型及其扩展。 • 第三章 词典查找及扩展的倒排索引 支持词典快速查找的数据结构(哈希表、二叉树等)。支持通配查 询处理的索引结构。支持拼写或发音纠错处理的索引结构。 11