信息检索与数据挖掘 2019/3/25 13 信息检索系统的评价 需要注意的是,信息需求用查询来表示,但相关性 是相对于信息需求而言的,而不是相对于查询而言。 。例如 ·信息需求:在降低心脏病发作的风险方面,饮用红葡萄 酒是否比饮用白酒更有效? ·查询:白酒红酒心脏病有效 ·在对返回的文档进行评估时,应当考虑是否满足信息需 求
信息检索与数据挖掘 2019/3/25 13 信息检索系统的评价 • 需要注意的是,信息需求用查询来表示,但相关性 是相对于信息需求而言的,而不是相对于查询而言。 • 例如 • 信息需求:在降低心脏病发作的风险方面,饮用红葡萄 酒是否比饮用白酒更有效? • 查询:白酒 红酒 心脏病 有效 • 在对返回的文档进行评估时,应当考虑是否满足信息需 求
信息检索与数据挖掘 2019/3/25 14 标准测试集 .CRANFIELD Cranfield测试集 TREC (Text Retrieval Conference) TREC -National Institute of Standards and Technology(美国国家标准技术研究所,NIST)长期维护 了一个大规模的IR测试环境。评测文档集合包含路透社 和其他文档集合。在这个框架下定义了很多任务,每个 任务都有自己的测试集 ·TCIR日本国立情报研究所的信息检索测试集 ·CLEF跨语言评价论坛 ·Reuters语料 20 Newsgroups
信息检索与数据挖掘 2019/3/25 14 标准测试集 • CRANFIELD Cranfield 测试集 • TREC(Text Retrieval Conference) • TREC - National Institute of Standards and Technology (美国国家标准技术研究所,NIST)长期维护 了一个大规模的IR测试环境。评测文档集合包含路透社 和其他文档集合。在这个框架下定义了很多任务,每个 任务都有自己的测试集 • NTCIR 日本国立情报研究所的信息检索测试集 • CLEF 跨语言评价论坛 • Reuters 语料 • 20 Newsgroups
信息检索与数据挖掘 2019/3/25 16 小结:R系统评价 ·思路:用搜索结果的相关度这个客观度量来替代对 满意度的评估 采用常规的方式来度量IR系统的效果,需要一个测 试集(test collection),它由3个部分构成: ·(1)一个文档集; ·(2)一组用于测试的信息需求集合,信息需求可以表示 成查询; ·(3)一组相关性判定结果,对每个查询一文档对而言, 通常会赋予一个二值判断结果一一要么相关(relevant ),要么不相关(nonrelevant)
信息检索与数据挖掘 2019/3/25 16 小结:IR系统评价 • 思路:用搜索结果的相关度这个客观度量来替代对 满意度的评估 • 采用常规的方式来度量IR系统的效果,需要一个测 试集(test collection),它由3 个部分构成: • (1) 一个文档集; • (2) 一组用于测试的信息需求集合,信息需求可以表示 成查询; • (3) 一组相关性判定结果,对每个查询—文档对而言, 通常会赋予一个二值判断结果——要么相关(relevant ),要么不相关(nonrelevant)
信息检索与数据挖掘 2019/3/25 17 提纲 ①上一讲回顾 检索系统的评价概述 无序检索结果的评价 ④有序检索结果的评价 ⑤为IR系统构建测试集 6检索结果的展示 17
信息检索与数据挖掘 2019/3/25 17 提纲 17 ❶ 上一讲回顾 ❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示
信息检索与数据挖掘 2019/3/25 18 按照文档“是否相关”“是否被检索出”划分 不相关 相关 未检索出的 (not relevant) 不相关文档 (relevant) 检索出(not retrieved) 检索出(retrieved) tn 未检索出的 fn fp 检索出的 相关文档 不相关文档 tp:true positives tp fp:false positives fn:false negatives 检索出的 tn:true negatives 相关文档
信息检索与数据挖掘 2019/3/25 18 按照文档“是否相关”“是否被检索出”划分 未检索出的 不相关文档 检索出的 相关文档 检索出的 不相关文档 未检索出的 相关文档 tn fn fp tp tp: true positives fp: false positives fn: false negatives tn: true negatives