信息检索与数据挖掘 2019/3/16 17 排序式检索 ·迄今为止,我们只介绍了布尔查询 ·文档要么匹配要么不匹配 对自身需求和文档集性质非常了解的专家而言,布尔 查询是不错的选择 ·然而对大多数用户来说不方便 ·大部分用户不能撰写布尔查询或者他们认为需要大量训练才 能撰写合适的布尔查询 。大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜 索更是如此
信息检索与数据挖掘 2019/3/16 17 排序式检索 • 迄今为止,我们只介绍了布尔查询 • 文档要么匹配要么不匹配 • 对自身需求和文档集性质非常了解的专家而言,布尔 查询是不错的选择 • 然而对大多数用户来说不方便 • 大部分用户不能撰写布尔查询或者他们认为需要大量训练才 能撰写合适的布尔查询 • 大部分用户不愿意逐条浏览1000多条结果,特别是对Web搜 索更是如此
信息检索与数据挖掘 2019/3/16 18 布尔查询:“盛宴”or“饥荒” ·布尔查询的结果经常不是太多就是太少 Query1“standard user dlink650”->200,000 个匹配结果 Query2 "standard user dlink 650 no card found”->0个匹配结果 ·需要花费很多精力去构造一个合适的query.才可以 获得一个在数量上可以接受的查询结果
信息检索与数据挖掘 2019/3/16 18 布尔查询:“盛宴”or“饥荒” • 布尔查询的结果经常不是太多就是太少 • Query1“standard user dlink 650”->200,000 个匹配结果 • Query2“standard user dlink 650 no card found”->0个匹配结果 • 需要花费很多精力去构造一个合适的query才可以 获得一个在数量上可以接受的查询结果
信息检索与数据挖掘 2019/3/16 19 排序检索模型 在排序检索模型中,系统根据文档与query的相关 性排序返回文档集合中的文档,而不是简单地返回 所有满足query:描述的文档集合 ·自由文本查询:用户query是自然语言的一个或多 个词语而不是由查询语言构造的表达式 ·总体上,排序检索模型中有布尔查询和自由文本查 询两种方式,但是实际中排序检索模型总是与自由 文本查询联系在一起,反之亦然
信息检索与数据挖掘 2019/3/16 19 排序检索模型 • 在排序检索模型中,系统根据文档与query的相关 性排序返回文档集合中的文档,而不是简单地返回 所有满足query描述的文档集合 • 自由文本查询:用户query是自然语言的一个或多 个词语而不是由查询语言构造的表达式 • 总体上,排序检索模型中有布尔查询和自由文本查 询两种方式,但是实际中排序检索模型总是与自由 文本查询联系在一起,反之亦然
信息检索与数据挖掘 2019/3/16 20 盛宴”or“饥荒”:不再是问题 当系统给出的是有序的查询结果,查询结果数目多 不再是问题 ·事实上,结果的数目不再是问题 ·我们只需要给出topK(10左右)个结果 ·为用户减轻负担 前提:合适的排序算法
信息检索与数据挖掘 2019/3/16 20 “盛宴”or“饥荒”:不再是问题 • 当系统给出的是有序的查询结果,查询结果数目多 不再是问题 • 事实上,结果的数目不再是问题 • 我们只需要给出top K(10左右)个结果 • 为用户减轻负担 前提:合适的排序算法
信息检索与数据挖掘 2019/3/16 21 排序检索的基本一评分 我们希望根据文档对查询者的有用性大小顺序将文 档返回给查询者 ·怎样根据一个query对文档进行排序? ·给每个“查询-文档对”进行评分,在[0,1]之间 ·这个评分值衡量文档与query的匹配程度
信息检索与数据挖掘 2019/3/16 21 排序检索的基本——评分 • 我们希望根据文档对查询者的有用性大小顺序将文 档返回给查询者 • 怎样根据一个query对文档进行排序? • 给每个“查询-文档对”进行评分,在[0,1]之间 • 这个评分值衡量文档与query的匹配程度