4-3 Information Retrieval Effectiveness 信息检索效果的概念和研究状况 ■检索效率指标 提高检索效率的措施 思考题
1 4-3 Information Retrieval Effectiveness ◼ 信息检索效果的概念和研究状况 ◼ 检索效率指标 ◼ 提高检索效率的措施 思考题
信息检索效果的概念和研究状况 信息检索效果是利用检索系统进行检索所产生的有效结果 ■ Cranfield试验及其主要结论 (1)UDC、标题语言、元词语言和专业组面分类法等4种索引语言性能 相差无几。 (2)如果同时考虑査全率和查准率两个性能,那么检索效果最好的是 自然语言 (3)收录范围、查全率、查准率、响应时间、用户负担和输出形式等6 项是评价检索效果和检索系统的主要指标。 (4)查全率与查准率存在互逆相关关系。 王云等对截词检索、条件检索、关键词检索、分类号检索、作者 检索、期刊检索及其检索效果等进行了实证研究
2 一、信息检索效果的概念和研究状况 ◼ 信息检索效果是利用检索系统进行检索所产生的有效结果。 ◼ Cranfield试验及其主要结论 ⑴ UDC、标题语言、元词语言和专业组面分类法等4种索引语言性能 相差无几。 ⑵ 如果同时考虑查全率和查准率两个性能,那么检索效果最好的是 自然语言。 ⑶ 收录范围、查全率、查准率、响应时间、用户负担和输出形式等6 项是评价检索效果和检索系统的主要指标。 ⑷ 查全率与查准率存在互逆相关关系。 ◼ 王云等对截词检索、条件检索、关键词检索、分类号检索、作者 检索、期刊检索及其检索效果等进行了实证研究
What to Evaluate? What can be measured that reflects users' ability to use system? Coverage of information Form of presentation Effort required/ease of use Time and space efficiency 0- Recall Proportion of relevant material actually retrieved Precision Proportion of retrieved material actually relevant
3 • What to Evaluate? Effectiveness What can be measured that reflects users’ ability to use system? – Coverage of information – Form of presentation – Effort required/ease of use – Time and space efficiency – Recall ▪ Proportion of relevant material actually retrieved – Precision ▪ Proportion of retrieved material actually relevant
检索效率指标 检索效率是指评价检索系统性能和质量的各种比率。包括査全率 查准率、新颖率、检索速度、检索方便性和成本效益比等。 ■FW· Lancaster2×2表: 用户相关性 Doc is Relevant Doc is NOT总计 系统相关性 relevant Doc is retrieved a(命中) b(误检) a+b DOC IS NOT c(漏检) d(应拒) c+d retrieved 总计 atc b+d a+b+c +d=n
4 二、检索效率指标 ◼ 检索效率是指评价检索系统性能和质量的各种比率。包括查全率、 查准率、新颖率、检索速度、检索方便性和成本效益比等。 ◼ F·W·Lancaster 2×2表: 用户相关性 系统相关性 Doc is Relevant Doc is NOT relevant 总计 Doc is retrieved a(命中) b(误检) a+b Doc is NOT retrieved c(漏检) d(应拒) c+d 总计 a+c b+d a+b+c +d= n
1、ReCa∥ ratio 查全率:检出的相关文献数与系统内的相关文献总数之比 (W·佩里和A肯特,1956) R=检出的相关文献/文献内相关文献总数×100%。漏检率=未 检出的相关文献数/文献库内相关文献总数×100%。 在公式中,a值经过一次检索即可确定,而c值即漏检文献数一般 可以用下列4种方法测定出来:(1)若n值不大,逐篇鉴别各篇 文献;(2)若n值很大,可对检出的文献随机抽样;(3)由有经 验的用户去鉴别检出的文献;(4)通过不同途径去检索同一课 题的文献,把各次检出的文献加在一起,剔除重复,形成一份 较完整的相关文献清单,以此对比每次检出的相关文献,即可 知道相应的c值
5 1、Recall ratio ◼ 查全率:检出的相关文献数与系统内的相关文献总数之比 (W·佩里和A·肯特,1956)。 ◼ R=检出的相关文献/文献内相关文献总数×100%。漏检率=未 检出的相关文献数/文献库内相关文献总数×100%。 在公式中,a值经过一次检索即可确定,而c值即漏检文献数一般 可以用下列4种方法测定出来:(1)若n值不大,逐篇鉴别各篇 文献;(2)若n值很大,可对检出的文献随机抽样;(3)由有经 验的用户去鉴别检出的文献;(4)通过不同途径去检索同一课 题的文献,把各次检出的文献加在一起,剔除重复,形成一份 较完整的相关文献清单,以此对比每次检出的相关文献,即可 知道相应的c值