当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价

❷ 检索系统的评价概述 ❸ 无序检索结果的评价 ❹ 有序检索结果的评价 ❺ 为IR系统构建测试集 ❻ 检索结果的展示

文件格式：PDF，文件大小：1.77MB，售价：15.5元

文档详细内容（约63页）

信息检索与数据挖掘 2019/3/25 19 精确率文档集中所有判断正确的文档所占的比例精确率：(tp+tn)I(tp+fp+fn+tn) 不相关(not relevant) 相关未检索出的不相关文档 (relevant) (not retrieved) tn 检索由retrieved) 未检索出未检索出的 fn 检索出的相关文档 fp 不相关文档 tp:true positives fp:false positives fn:false negatives 检索出的 tn:true negatives 相关文档

信息检索与数据挖掘 2019/3/25 19 精确率未检索出的不相关文档检索出的相关文档检索出的不相关文档未检索出的相关文档 tn fn fp tp tp: true positives fp: false positives fn: false negatives tn: true negatives 文档集中所有判断正确的文档所占的比例精确率：(tp + tn) / ( tp + fp + fn + tn)

信息检索与数据挖掘 2019/3/25 20 精确率(Accuracy)指标。文档集中所有判断正确的文档所占的比例。 .精确率：(tp+tn)/(tp+fp+fn+tn) 。精确率是机器学习中模式分类的一个常用评价标准但是它对信息检索的结果评价不是很有用。绝大多数情况下，信息检索中的数据存在着极度的不均衡性，比如通常情况下，超过99.9%的文档都是不相关文档。这样的话，一个简单地将所有的文档都判成不相关文档的系统就会获得非常高的精确率值，从而使得该系统的效果看上去似乎很好。人们使用搜索引擎，总是希望找到一些有用的信息，即使有些不相关的信息也是可以容忍的

信息检索与数据挖掘 2019/3/25 20 精确率(Accuracy)指标 • 文档集中所有判断正确的文档所占的比例。 • 精确率：(tp + tn) / ( tp + fp + fn + tn) • 精确率是机器学习中模式分类的一个常用评价标准但是它对信息检索的结果评价不是很有用。人们使用搜索引擎，总是希望找到一些有用的信息，即使有些不相关的信息也是可以容忍的绝大多数情况下，信息检索中的数据存在着极度的不均衡性，比如通常情况下，超过99.9%的文档都是不相关文档。这样的话，一个简单地将所有的文档都判成不相关文档的系统就会获得非常高的精确率值，从而使得该系统的效果看上去似乎很好

信息检索与数据挖掘 2019/3/25 21 查准率和查全率。查准率/正确率：返回的相关文档占返回文档总数的百分比。查全率/召回率：返回的相关文档占所有相关文档的百分比。 Relevant Nonrelevant Retrieved 真正例伪正例 (true positives,tp) (false positives,fp) Not Retrieved 伪反例真反例 (false negatives,fn) (true negatives,tn) 查准率/正确率Precision P tp/(tp fp) 查全率/召回率Recall R=tp/(tp fn)

信息检索与数据挖掘 2019/3/25 21 查准率和查全率 • 查准率/正确率：返回的相关文档占返回文档总数的百分比 • 查全率/召回率：返回的相关文档占所有相关文档的百分比。 Relevant Nonrelevant Retrieved 真正例 (true positives, tp) 伪正例 (false positives, fp) Not Retrieved 伪反例 (false negatives,fn) 真反例 (true negatives,tn) 查准率/正确率Precision P = tp/(tp + fp) 查全率/召回率Recall R = tp/(tp + fn)

信息检索与数据挖掘 2019/3/25 23 正确率和召回率示例 ·查询Q,本应该有100篇相关文档，某个系统返回 200篇文档，其中80篇是真正相关的文档 .Recall=80/100=0.8 Precision=80/200=0.4 ·结论：召回率较高，但是正确率较低返回结果中相关文档的数目 Precision 返回结果的数目 =P(relevant|retrieved) Recall= 返回结果中相关文档的数目所有相关文档的数目 P(retrievedrelevant)

信息检索与数据挖掘 2019/3/25 23 正确率和召回率示例 • 查询Q，本应该有100篇相关文档，某个系统返回 200篇文档，其中80篇是真正相关的文档 • Recall=80/100=0.8 • Precision=80/200=0.4 • 结论：召回率较高，但是正确率较低

信息检索与数据挖掘 2019/3/25 24 关于查准率和查全率的讨论。宁可错杀一千，不可放过一人”)偏重查全率，忽视正确率。冤杀太多。 ·例如，判断是否有罪： ·如果没有证据证明你无罪，那么判定你有罪。 ·→查全率高，有些人受冤枉 ·如果没有证据证明你有罪，那么判定你无罪。 ·→查全率低，有些人逍遥法外。·不同的应用、不用的用户对两者的要求不一样垃圾邮件过滤：宁愿漏掉一些垃圾邮件，但是尽量少将。正常邮件判定成垃圾邮件 ·有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回结果准一点

信息检索与数据挖掘 2019/3/25 24 关于查准率和查全率的讨论 • “宁可错杀一千，不可放过一人”偏重查全率，忽视正确率。冤杀太多。 • 例如，判断是否有罪： • 如果没有证据证明你无罪，那么判定你有罪。 • 查全率高，有些人受冤枉 • 如果没有证据证明你有罪，那么判定你无罪。 • 查全率低，有些人逍遥法外 • 不同的应用、不用的用户对两者的要求不一样 • 垃圾邮件过滤：宁愿漏掉一些垃圾邮件，但是尽量少将正常邮件判定成垃圾邮件。 • 有些用户希望返回的结果全一点，他有时间挑选；有些用户希望返回结果准一点

点击进入文档下载页（PDF格式）

共63页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）数据挖掘经典算法概述

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录