信息检索与数据挖掘 2019/2/26 2 课程内容 第1章绪论 。1 。 第2章布尔检索及倒排索引 ·第3章词典查找及扩展的倒排索引 。 第4章索引构建和索引压缩 。 第5章向量模型及检索系统 。 第6章检索的评价 第7章相关反馈和查询扩展 。 第8章概率模型 。1 第9章基于语言建模的检索模型 。 第10章文本分类 第11章文本聚类 第12章Web搜索 第13章多媒体信息检索 ·第14章其他应用简介 2
信息检索与数据挖掘 2019/2/26 2 课程内容 • 第1章 绪论 • 第2章 布尔检索及倒排索引 • 第3章 词典查找及扩展的倒排索引 • 第4章 索引构建和索引压缩 • 第5章 向量模型及检索系统 • 第6章 检索的评价 • 第7章 相关反馈和查询扩展 • 第8章 概率模型 • 第9章 基于语言建模的检索模型 • 第10章 文本分类 • 第11章 文本聚类 • 第12章 Web搜索 • 第13章 多媒体信息检索 • 第14章 其他应用简介 2
信息检索与数据挖掘 2019/2/26 3 1.1.2信息检索 。Information Retrieval:这个术语产生于Calvin Mooers1948年在MIT的硕士论文。 ·Information Retrieval(IR):从大规模非结构化数据 (通常是文本)的集合(通常保存在计算机上)中找出 满足用户信息需求的资料(通常是文档)的过程 Mooers Law An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it.Where an information retrieval system tends not to be used,a more capable information retrieval system may tend to be used even less. 穆尔斯定律:当拥有信息比不拥有信息会使用户付出更大的努力或 给用户造成更大的麻烦时。用户会倾向于不使用信息检索系统。 3
信息检索与数据挖掘 2019/2/26 3 1.1.2 信息检索 • Information Retrieval这个术语产生于 Calvin Mooers 1948年在MIT的硕士论文。 • Information Retrieval(IR):从大规模非结构化数据 (通常是文本)的集合(通常保存在计算机上)中找出 满足用户信息需求的资料(通常是文档)的过程 3 Mooers Law : An information retrieval system will tend not to be used whenever it is more painful and troublesome for a customer to have information than for him not to have it. Where an information retrieval system tends not to be used, a more capable information retrieval system may tend to be used even less. 穆尔斯定律:当拥有信息比不拥有信息会使用户付出更大的努力或 给用户造成更大的麻烦时。用户会倾向于不使用信息检索系统
信息检索与数据挖掘 2019/2/26 4 1.1.3数据挖掘 数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程 数据挖掘的基本内容 ·特征提取、分类、聚类 。话题检测、自动摘要 ·智能问答等 信息检索可以帮助人们从海量的数据中 快速的找到有用的信息 数据挖掘可以从大数据中提取出隐含的 、先前未知的并有潜在价值的信息
信息检索与数据挖掘 2019/2/26 4 1.1.3 数据挖掘 • 数据挖掘(Data Mining)从大量的、不完全的、 有噪声的、模糊的、随机的实际应用数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在有 用的信息和知识的过程 • 数据挖掘的基本内容 • 特征提取、分类、聚类 • 话题检测、自动摘要 • 智能问答等 4 信息检索可以帮助人们从海量的数据中 快速的找到有用的信息 数据挖掘可以从大数据中提取出隐含的 、先前未知的并有潜在价值的信息
信息检索与数据挖掘 2019/2/26 5 1.4.1信息检索的基本概念 查询 文档 文档集 相关度 确定文档和查询之间的相关度是R的核心问题 5
信息检索与数据挖掘 2019/2/26 5 查询 相关度 文档 文档集 1.4.1 信息检索的基本概念 5 确定文档和查询之间的相关度是IR的核心问题
信息检索与数据挖掘 2019/2/26 6 1.4.2信息检索系统的基本组成 IR系统示意图 Collection IR Ouery System 1. Result 1 2. Result 2 Ranked 3.Result 3 results 6
信息检索与数据挖掘 2019/2/26 6 IR系统示意图 IR System Collection Ranked results Query 1. Result 1 2. Result 2 3. Result 3 . . 1.4.2 信息检索系统的基本组成 6