信息检索与数据挖掘 2019/2/26 17 如何度量相关性? ·确定文档和查询之间的相关度是R的核心问题 Query: Bill CIinton Document: Relevant? The White House 单间E里1DE料TaC0再aEW日Us How relevant? Wam小.Clinten During the administration of Wiliam Jeferson Clintan,the U.S.enjoyed more Lacies peace and eccnamic well being than at any me n ts histpry.He was the fist Democratic prosidere since Franklin D. +6 Rooseveh to win a second tom Ha could ocint to the lgwst uramdlaymont rate in White House modern timas.the lowest indation in 30 sars,the highest homs ownership in the ountry's history.dropping cnme nationalinee for a par of a for a Ater tha failre n his second year of a huge program of health care m6aegha62ao92neot parerts who must caro for sick children,to restrict handgun sales,and 17
信息检索与数据挖掘 2019/2/26 17 如何度量相关性? • 确定文档和查询之间的相关度是IR的核心问题 Document: Query: Relevant? How relevant? 17
信息检索与数据挖掘 2019/2/26 18 检索模型的定义 。 信息检索模型是描述信息检索中的文档、查询和 它们之间的关系(匹配函数)的数学模型。 模型F 文档 查询 D Q 匹配函数 R(i,dj) 18
信息检索与数据挖掘 2019/2/26 18 模型F 检索模型的定义 • 信息检索模型是描述信息检索中的文档、查询和 它们之间的关系(匹配函数)的数学模型。 文档 D 查询 Q 匹配函数 R(qi,dj) 18
信息检索与数据挖掘 2019/2/26 20 两大类信息检索模型 •基于文本内容的检索模型 ·布尔模型 第2章布尔检索及倒排索引 ·向量空间模型 第5章向量模型及检索系统 概率模型 第8章概率模型 。 统计语言模型 第9章基于语言建模的检索模型 ·与内容无关的其他检索模型 ·基于链接分析的模型 第12章Web搜索 基于关联的模型 。 第10章文本分类 20
信息检索与数据挖掘 2019/2/26 20 两大类信息检索模型 • 基于文本内容的检索模型 • 布尔模型 第2章 布尔检索及倒排索引 • 向量空间模型 第5章 向量模型及检索系统 • 概率模型 第8章 概率模型 • 统计语言模型 第9章 基于语言建模的检索模型 • 与内容无关的其他检索模型 • 基于链接分析的模型 第12章 Web搜索 • 基于关联的模型 第10章 文本分类 • …… 20
信息检索与数据挖掘 2019/2/26 21 【基于内容】布尔模型:定义 ·文档表示 Ka Kb ·一个文档被表示为关键词的集 合 (1,0,0) (1,1,0 ·查询表示 (1,1,) 查询式(Queries)被表示为关键 词的布尔组合,用“与、或、 非”连接起来(主析取范式 DNF) Kc •相关度计算 ·一个文档当且仅当它能够满足 布尔查询式时,才将其检索出 来 q=k。A(k,Vke) 检索策略是二值匹配 9r=(1,1,1)v(1,1,0)v(1,0,0) 21
信息检索与数据挖掘 2019/2/26 21 【基于内容】布尔模型:定义 • 文档表示 • 一个文档被表示为关键词的集 合 • 查询表示 • 查询式(Queries)被表示为关键 词的布尔组合,用“与、或、 非”连接起来(主析取范式 DNF ) • 相关度计算 • 一个文档当且仅当它能够满足 布尔查询式时,才将其检索出 来 • 检索策略是二值匹配 (1,1,1) (1,0,0) (1,1,0) Ka Kb Kc ( ) a b c q k k k (1,1,1) (1,1,0) (1,0,0) qdnf 21
信息检索与数据挖掘 2019/2/26 22 【基于内容】布尔模型:优缺点 ·优点 。 由于查询简单,因此容易理解 。 通过使用复杂的布尔表达式,可方便地控制查询结果 ·相当有效的实现方法 经过某种训练的用户可以容易地写出布尔查询式 ·布尔模型可以通过扩展来包含排序的功能 ·缺点 ·弱。不支持部分匹配,完全匹配会导致结果太多或太少 非常刚性:“与”意味着全部;“或”意味着任何一个 · 。 原则上讲,所有被匹配的文档都将被返回 ·不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改 查询式呢? 22
信息检索与数据挖掘 2019/2/26 22 【基于内容】布尔模型:优缺点 • 优点 • 由于查询简单,因此容易理解 • 通过使用复杂的布尔表达式,可方便地控制查询结果 • 相当有效的实现方法 • 经过某种训练的用户可以容易地写出布尔查询式 • 布尔模型可以通过扩展来包含排序的功能 • 缺点 • 弱。不支持部分匹配,完全匹配会导致结果太多或太少 • 非常刚性: “与”意味着全部; “或”意味着任何一个 • 原则上讲,所有被匹配的文档都将被返回 • 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 • 很难进行自动的相关反馈 • 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改 查询式呢? 22