第9章根据内容检索 本章目标 介绍根据内容检索的基本概念。 介绍检索系统的评介方法。 讨论针对文本数据的根据内容检索问题, 集中讨论向量空间表示,以及文档中匹配 查询的算法、隐含语义索引和文档分类。 介绍用于对个人偏好建模的自动推荐系统
第9章 根据内容检索 本章目标 ◼ 介绍根据内容检索的基本概念。 ◼ 介绍检索系统的评介方法。 ◼ 讨论针对文本数据的根据内容检索问题, 集中讨论向量空间表示,以及文档中匹配 查询的算法、隐含语义索引和文档分类。 ◼ 介绍用于对个人偏好建模的自动推荐系统
第9章根据内容检索 本章目标 讨论图像检索算法中表示和检索问题。 绍匹配时间序列和序列的基本概念
第9章 根据内容检索 本章目标 ◼ 讨论图像检索算法中表示和检索问题。 ◼ 介绍匹配时间序列和序列的基本概念
9.1简介 ■传统的数据库查询定义为:查询是一种返回 精确匹配指定要求的记录集合(或表项集合)的 操作。例如,查询“[ Tlevel= MANAGER] AND[age<30]”,返回的结果是有具有重 要职务的年轻雇员的列表。 但在数据分析时,所感兴趣的是更一般的但 不很精确的查询。 例如,假设已知一个患者的人口统计学信息 比如年龄性别等等)、血液和其他常规检查的 结果,以及生物医学方面的时间序列、Ⅹ光 和图像
9.1 简介 ◼ 传统的数据库查询定义为:查询是一种返回 精确匹配指定要求的记录集合(或表项集合)的 操作。例如,查询“[level=MANAGER] AND [age<30]” , 返回的结果是有具有重 要职务的年轻雇员的列表。 ◼ 但在数据分析时,所感兴趣的是更一般的但 不很精确的查询。 ◼ 例如,假设已知一个患者的人口统计学信息 (比如年龄性别等等)、血液和其他常规检查的 结果,以及生物医学方面的时间序列、X-光 和图像
为了辅助对这个患者进行诊断,医生希望了 解医院数据库中是否包含类似的患者,如果 有类似的患者,那么他们的诊断、治疗方法 和最终结果如何? ■这个问题的难点在于如何根据不同的数据类 型(多元变量、时间序列和图像数据)来判断 各个患者间的相似性。这类问题采用精确匹 配是行不通的,因为数据库中不可能存在各 项指标完全匹配的患者
◼ 为了辅助对这个患者进行诊断,医生希望了 解医院数据库中是否包含类似的患者,如果 有类似的患者,那么他们的诊断、治疗方法 和最终结果如何? ◼ 这个问题的难点在于如何根据不同的数据类 型(多元变量、时间序列和图像数据)来判断 各个患者间的相似性。这类问题采用精确匹 配是行不通的,因为数据库中不可能存在各 项指标完全匹配的患者
因此,需要解决的是在数据库找出和指定查 询或指定对象最相似的k个对象的各种技术问 可以把这种形式的检索看是交互式的数据挖 掘,因为用户直接参与了探索数据集的过 程指定查询并解决匹配过程得到的结果。 ■如果数据集是根据内容批注的,那么检索问 题就简化为标准的数据库索引问题,如果数 据库没有被预先索引,我们仅有要寻找目标 Q(査询模式)的一个实例,根据这个查询模式 Q,我们要推论出数据集中哪些其他对象和 它相近
◼ 因此,需要解决的是在数据库找出和指定查 询或指定对象最相似的k个对象的各种技术问 题。 ◼ 可以把这种形式的检索看是交互式的数据挖 掘,因为用户直接参与了探索数据集的过 程—指定查询并解决匹配过程得到的结果。 ◼ 如果数据集是根据内容批注的,那么检索问 题就简化为标准的数据库索引问题,如果数 据库没有被预先索引,我们仅有要寻找目标 Q(查询模式)的一个实例,根据这个查询模式 Q,我们要推论出数据集中哪些其他对象和 它相近