当前位置：和泉文库 > 计算机 > 浏览文档

《数据把掘概念与技术》第九章根据内容检索

一、介绍根据内容检索的基本概念。二、介绍检索系统的评介方法。讨论针对文本数据的根据内容检索问题,集中讨论向量空间表示,以及文档中匹配查询的算法、隐含语义索引和文档分类。介绍用于对个人偏好建模的自动推荐系统。

文件格式：PPT，文件大小：1.29MB，售价：10.05元

文档详细内容（约35页）

■这种检索方法被称为根据内容检索( retrieval by content),它的最著名应用是在文本中检索。在文本检索中,查询模式Q通常是很短的(查询词汇列表),然后在很大的文档合匹配这个模式。 ■这类问题由三个基本部分组成: 1如何定义对象间的相似尺度; 2如何实现高计算效率的搜索算法(对于给定的相似尺度); 3如何在检索过程中融入用户的反馈并迸行交互

◼ 这种检索方法被称为根据内容检索(retrieval by content)，它的最著名应用是在文本中检索。在文本检索中，查询模式Q通常是很短的(查询词汇列表)，然后在很大的文档集合匹配这个模式。 ◼ 这类问题由三个基本部分组成： 1.如何定义对象间的相似尺度； 2.如何实现高计算效率的搜索算法(对于给定的相似尺度)； 3.如何在检索过程中融入用户的反馈并进行交互

本章主要讨论第和第三个问题,第二个问题通常是一种索引问题(一个好的索引可以极大提高效率)。在下面的分析中,我们使用“相似”这个词, 又使用“距离”这个词。对应的是相似尺度最大化和距离尺度最小化,其他章节的相似度和相异度根据内容检索需要解决的几个问题 1.如何客观地评估特定检索算法的性能。 2如何决定用以计算相似尺度的表示

◼ 本章主要讨论第一和第三个问题，第二个问题通常是一种索引问题(一个好的索引可以极大提高效率)。 ◼ 在下面的分析中，我们使用“相似”这个词，又使用“距离”这个词。对应的是相似尺度最大化和距离尺度最小化，其他章节的相似度和相异度。 ◼ 根据内容检索需要解决的几个问题： 1.如何客观地评估特定检索算法的性能。 2.如何决定用以计算相似尺度的表示

例如,通常用颜色、纹理和相似特征来地、表示图像;用单词的出现次数来表示文本

◼ 例如，通常用颜色、纹理和相似特征来地、表示图像；用单词的出现次数来表示文本

92检索系统的评价评价检索性能的难之在分类和回归中,总能以一种客观的方式来评判模型的性能。然而,对于根据内容检索来说,评价一个特定算法或技术的性能要复杂和棘手的多。主要的难点是检索系统的最终性能尺度是由检索出的信息对用户的实用性来决定的。检索是一种以人为中心的交互过程,这给评价检索性能带来了很大困难

9.2 检索系统的评价一、评价检索性能的困难之处 ◼ 在分类和回归中，总能以一种客观的方式来评判模型的性能。然而，对于根据内容检索来说，评价一个特定算法或技术的性能要复杂和棘手的多。 ◼ 主要的难点是检索系统的最终性能尺度是由检索出的信息对用户的实用性来决定的。检索是一种以人为中心的交互过程，这给评价检索性能带来了很大困难

首先我们假定相对一个特定的查询,可以把对象标记为相关或不相关。换句话来说,对于任一个查询Q,我们假定存在一个二值分类标签的集合,该集合对应数据中的所有对象指出哪个对象是相关的,哪个是不相关的。最后我们假定已经以某种方式为每个对象附加标签(假定是以一种比较客观并与人类判相致的方式)。基于这些假定,就可以把检索问题看作一种特殊形式的分类问题—类标签依赖于查询Q

◼ 首先我们假定相对一个特定的查询，可以把对象标记为相关或不相关。换句话来说，对于任一个查询Q，我们假定存在一个二值分类标签的集合，该集合对应数据中的所有对象，指出哪个对象是相关的，哪个是不相关的。最后我们假定已经以某种方式为每个对象附加标签(假定是以一种比较客观并与人类判相一致的方式)。 ◼ 基于这些假定，就可以把检索问题看作一种特殊形式的分类问题—类标签依赖于查询Q

点击进入文档下载页（PPT格式）

共35页，可试读12页，点击继续阅读 ↓↓

您可能感兴趣的文档

《数据把掘概念与技术》第九章（9-3）文本检索
广东白云学院：《单片机原理与应用》教学大纲
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第7章常用数字接口电路
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第8章模拟量的输入输出
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计 4.2 伪指令（4.2.4-4.2.6）4.3 DOS系统功能调用介绍 4.4 汇编语言程序设计基础
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）总复习
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第6章输入输出和中断技术
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.2 减法指令
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计 4.1 汇编语言源程序 4.2 伪指令（4.2.1-4.2.3）
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第5章存储系统
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第4章汇编语言程序设计 4.5 常见程序设计举例
西安交通大学：《微机原理与接口技术》课程教学资源（PPT课件讲稿）第3章 8086/8088指令系统 3.3 8086/8088指令系统 3.3.5 程序控制指令 3.3.6 处理器控制指令
《数据把掘概念与技术》第一章数据挖掘的概念
《数据把掘概念与技术》第七章（7-4）修剪决策树
《数据把掘概念与技术》第七章决策树和决策规则
《数据把掘概念与技术》第三章数据归约
《数据把掘概念与技术》第二章数据准备
《数据把掘概念与技术》第五章（5-1）统计推断
《数据把掘概念与技术》第五章（5-5）方差分析
《数据把掘概念与技术》第八章（8-1）购物篮分析
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第八章(8-6) 多维关联规则挖掘
《数据把掘概念与技术》第六章（6-1）聚类概念
《数据把掘概念与技术》第六章(6-3) 凝聚层次聚类

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录