■这种检索方法被称为根据内容检索( retrieval by content),它的最著名应用是在文本中 检索。在文本检索中,查询模式Q通常是很 短的(查询词汇列表),然后在很大的文档 合匹配这个模式。 ■这类问题由三个基本部分组成: 1如何定义对象间的相似尺度; 2如何实现高计算效率的搜索算法(对于给定的 相似尺度); 3如何在检索过程中融入用户的反馈并迸行交 互
◼ 这种检索方法被称为根据内容检索(retrieval by content),它的最著名应用是在文本中 检索。在文本检索中,查询模式Q通常是很 短的(查询词汇列表),然后在很大的文档集 合匹配这个模式。 ◼ 这类问题由三个基本部分组成: 1.如何定义对象间的相似尺度; 2.如何实现高计算效率的搜索算法(对于给定的 相似尺度); 3.如何在检索过程中融入用户的反馈并进行交 互
本章主要讨论第和第三个问题,第二个问 题通常是一种索引问题(一个好的索引可以极 大提高效率)。 在下面的分析中,我们使用“相似”这个词, 又使用“距离”这个词。对应的是相似尺度 最大化和距离尺度最小化,其他章节的相似 度和相异度 根据内容检索需要解决的几个问题 1.如何客观地评估特定检索算法的性能。 2如何决定用以计算相似尺度的表示
◼ 本章主要讨论第一和第三个问题,第二个问 题通常是一种索引问题(一个好的索引可以极 大提高效率)。 ◼ 在下面的分析中,我们使用“相似”这个词, 又使用“距离”这个词。对应的是相似尺度 最大化和距离尺度最小化,其他章节的相似 度和相异度。 ◼ 根据内容检索需要解决的几个问题: 1.如何客观地评估特定检索算法的性能。 2.如何决定用以计算相似尺度的表示
例如,通常用颜色、纹理和相似特征来地、 表示图像;用单词的出现次数来表示文本
◼ 例如,通常用颜色、纹理和相似特征来地、 表示图像;用单词的出现次数来表示文本
92检索系统的评价 评价检索性能的难之 在分类和回归中,总能以一种客观的方式 来评判模型的性能。然而,对于根据内容 检索来说,评价一个特定算法或技术的性 能要复杂和棘手的多。 主要的难点是检索系统的最终性能尺度是 由检索出的信息对用户的实用性来决定的。 检索是一种以人为中心的交互过程,这给 评价检索性能带来了很大困难
9.2 检索系统的评价 一、评价检索性能的困难之处 ◼ 在分类和回归中,总能以一种客观的方式 来评判模型的性能。然而,对于根据内容 检索来说,评价一个特定算法或技术的性 能要复杂和棘手的多。 ◼ 主要的难点是检索系统的最终性能尺度是 由检索出的信息对用户的实用性来决定的。 检索是一种以人为中心的交互过程,这给 评价检索性能带来了很大困难
首先我们假定相对一个特定的查询,可以把 对象标记为相关或不相关。换句话来说,对 于任一个查询Q,我们假定存在一个二值分类 标签的集合,该集合对应数据中的所有对象 指出哪个对象是相关的,哪个是不相关的。 最后我们假定已经以某种方式为每个对象附 加标签(假定是以一种比较客观并与人类判相 致的方式)。 基于这些假定,就可以把检索问题看作一种 特殊形式的分类问题—类标签依赖于查询Q
◼ 首先我们假定相对一个特定的查询,可以把 对象标记为相关或不相关。换句话来说,对 于任一个查询Q,我们假定存在一个二值分类 标签的集合,该集合对应数据中的所有对象, 指出哪个对象是相关的,哪个是不相关的。 最后我们假定已经以某种方式为每个对象附 加标签(假定是以一种比较客观并与人类判相 一致的方式)。 ◼ 基于这些假定,就可以把检索问题看作一种 特殊形式的分类问题—类标签依赖于查询Q