排序式检索 排序式检索可以避免产生过多或者过少的结果 大规模的返回结果可以通过排序技术来避免 只需要显示前10条结果 不会让用户感觉到信息太多 前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前
7 排序式检索 ▪排序式检索可以避免产生过多或者过少的结果 ▪大规模的返回结果可以通过排序技术来避免 ▪只需要显示前10条结果 ▪不会让用户感觉到信息太多 ▪前提:排序算法真的有效,即相关度大的文档结果会排在相关 度小的文档结果之前 7
排序式检索中的评分技术 "我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 如何实现? 通常做法是对每个查询文档对赋一个[,1之间的分值 该分值度量了文档和查询的匹配程度 怎么做?
8 排序式检索中的评分技术 ▪我们希望,在同一查询下,文档集中相关度高的文档排名高于 相关度低的文档 ▪如何实现? ▪通常做法是对每个查询-文档对赋一个[0, 1]之间的分值 ▪该分值度量了文档和查询的匹配程度 ▪怎么做? 8
查询-文档匹配评分计算 如何计算查询文档的匹配得分?原则 先从单词项查询开始 若该词项不出现在文档当中,该文档得分应该 为0 该词项在文档中出现越多,则得分越高
9 查询-文档匹配评分计算 ▪如何计算查询-文档的匹配得分?原则 ▪先从单词项查询开始 ▪若该词项不出现在文档当中,该文档得分应该 为0 ▪该词项在文档中出现越多,则得分越高 9
提纲 排序式检索 词项频率 3.t-idf权重计算 4.向量空间模型
提纲 10 1. 排序式检索 2. 词项频率 3. tf-idf权重计算 4. 向量空间模型
二值关联矩阵 Anthony Julius The Hamlet Othello Macbeth and Caesar Tempest Cleopatra ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY 1110111 1111000 0000011 0110011 0010011 1010010 WORSER 每篇文档可以看成是一个二值的向量∈{0,1 11
11 二值关联矩阵 每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V| 11 Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0