信息检索与数据挖掘 2019/3/25 8 为何有时用户感觉召回率低? ·在大多数文档集中,同一概念可以用不同的词来表 达,这个现象称为一义多词(synonymy),它会 对大部分信息检索系统的召回率产生影响。 ·比如,输入查询aircraft时我们希望能找到包含plane的文 档,当然,这里的plane指的是飞机(airplane),而不是 木工刨(woodworking plane)。 ·另外,我们也希望在查找hermodynamicsl时能够与 特定环境下的heat匹配上。 一义多词 LS1可以帮助我们发现相关文档
信息检索与数据挖掘 2019/3/25 8 为何有时用户感觉召回率低? • 在大多数文档集中,同一概念可以用不同的词来表 达,这个现象称为一义多词(synonymy),它会 对大部分信息检索系统的召回率产生影响。 • 比如,输入查询aircraft时我们希望能找到包含plane的文 档,当然,这里的plane指的是飞机(airplane),而不是 木工刨(woodworking plane)。 • 另外,我们也希望在查找thermodynamics时能够与 特定环境下的heat匹配上。 一义多词 LSI可以帮助我们发现相关文档
信息检索与数据挖掘 2019/3/25 9 搜索中提高召回率的方法 ·本讲的主题:两种提高召回率的方法一相关反馈及 查询扩展 。考虑查询q:[aircraft].. ·某篇文档d包含“plane'?,但是不包含“aircraft” ·显然对于查询q,一个简单的R系统不会返回文档d, 即使d是和q最相关的文档 ·我们试图改变这种做法: ·也就是说,我们会返回不包含查询词项的相关文档
信息检索与数据挖掘 2019/3/25 9 搜索中提高召回率的方法 • 本讲的主题:两种提高召回率的方法—相关反馈及 查询扩展 • 考虑查询q: [aircraft] . . . • 某篇文档 d 包含“plane”, 但是不包含 “aircraft” • 显然对于查询q,一个简单的IR系统不会返回文档d, 即使d是和q最相关的文档 • 我们试图改变这种做法: • 也就是说,我们会返回不包含查询词项的相关文档
信息检索与数据挖掘 2019/3/25 10 关于召回▣率Recall ·本讲当中会放松召回率的定义,即(在前几页)给用 户返回更多的相关文档。 ·这可能实际上会降低召回率,比如,将jaguar扩展 为jaguart(美洲虎;一种汽车品牌)十panthera(豹属) 。可能会去掉一些相关的文档,但是可能增加前几页 返回给用户的相关文档数
信息检索与数据挖掘 2019/3/25 10 关于召回率Recall • 本讲当中会放松召回率的定义,即(在前几页)给用 户返回更多的相关文档。 • 这可能实际上会降低召回率,比如,将jaguar扩展 为jaguar(美洲虎;一种汽车品牌)+panthera(豹属) • 可能会去掉一些相关的文档,但是可能增加前几页 返回给用户的相关文档数
信息检索与数据挖掘 2019/3/25 11 提高召回率的方法 。本章主要讨论系统中进行查询优化(query refinement)的各种方法,包括全自动的方法和用 户参与的方法。 ·局部(local)方法 ·对用户查询进行局部的即时的分析 ·主要的局部方法:相关反馈(relevance feedback) ·全局(Global)方法 ·进行一次性的全局分析(比如分析整个文档集)来产生同/ 近义词词典(thesaurus) ·利用该词典进行查询扩展
信息检索与数据挖掘 2019/3/25 11 提高召回率的方法 • 本章主要讨论系统中进行查询优化(query refinement)的各种方法,包括全自动的方法和用 户参与的方法。 • 局部(local)方法 • 对用户查询进行局部的即时的分析 • 主要的局部方法:相关反馈(relevance feedback) • 全局(Global)方法 • 进行一次性的全局分析(比如分析整个文档集)来产生同/ 近义词词典 (thesaurus) • 利用该词典进行查询扩展
信息检索与数据挖掘 2019/3/25 12 小结:查询优化的动机 查询优化(query refinement). ·查询不能准确表示信息需求→召回率低? 。查询优化的目标? 。提高召回率 ·查询优化的可能途径? ·局部(local')方法:相关反馈(relevance feedback) ·全局(Global)方法:查询扩展
信息检索与数据挖掘 2019/3/25 12 小结:查询优化的动机 查询优化(query refinement) • 查询不能准确表示信息需求召回率低? • 查询优化的目标? • 提高召回率 • 查询优化的可能途径? • 局部(local)方法:相关反馈(relevance feedback) • 全局(Global)方法:查询扩展