信息检索与数据挖掘 2019年4月16日 课程内容 。1 第1章绪论 ·第2章布尔检索及倒排索引 Information Retrieval(IR):从大规模非 第3章词项词典和倒排记录表 结构化数据(通常是文本)的集合(通 ·第4章索引构建和索引压缩 常保存在计算机上)中找出满足用户信 ·第5章向量模型及检索系统 息需求的资料(通常是文档)的过程 ·第6章检索的评价 ·第7章相关反馈和查询扩展 ·第8章概率模型 ·第9章基于语言建模的检索模型 第10章文本分类 ·文本分类及朴素贝叶斯方法 。 基于向量空间的文本分类 数据挖掘(Data Mining)从大量的、不 。支持向量机及机器学习方法 完全的、有噪声的、模糊的、随机的实 。第11章文本聚类 际应用数据中,提取隐含在其中的、人 ·第12章Web搜索 们事先不知道的、但又是潜在有用的信 ·第13章多媒体信息检索 。 息和知识的过程 第14章其他应用简介
信息检索与数据挖掘 2019年4月16日 课程内容 • „第1章 绪论 • 第2章 布尔检索及倒排索引 • 第3章 词项词典和倒排记录表 • 第4章 索引构建和索引压缩 • 第5章 向量模型及检索系统 • 第6章 检索的评价 • 第7章 相关反馈和查询扩展 • 第8章 概率模型 • 第9章 基于语言建模的检索模型 • 第10章 文本分类 • 文本分类及朴素贝叶斯方法 • 基于向量空间的文本分类 • 支持向量机及机器学习方法 • 第11章 文本聚类 • 第12章 Web搜索 • 第13章 多媒体信息检索 • 第14章 其他应用简介 数据挖掘(Data Mining)从大量的、不 完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信 息和知识的过程 Information Retrieval(IR):从大规模非 结构化数据(通常是文本)的集合(通 常保存在计算机上)中找出满足用户信 息需求的资料(通常是文档)的过程 6
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 第10章文本分类 。文本分类及朴素贝叶斯方法 ·基于向量空间的文本分类 ·Rocchio方法 ·kNN(k近邻)方法 。线性分类器 ·支持向量机及机器学习方法 多项式模型:<t,…,tnd>是在d中出现的词项序列 贝努利模型:<e,,eM>是一个M维的布尔向量 向量空间模型:每个词项对应一个维度(分量) 7
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 • 第10章 文本分类 • 文本分类及朴素贝叶斯方法 • 基于向量空间的文本分类 • Rocchio方法 • kNN(k 近邻)方法 • 线性分类器 • 支持向量机及机器学习方法 多项式模型:< t1 ,… , tnd >是在d 中出现的词项序列 贝努利模型:<e1 ,…, eM>是一个M维的布尔向量 向量空间模型:每个词项对应一个维度(分量) 7
信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 长度归一化的欧式距离计算与余弦相似 向量空间模型 度计算结果是一致的 。词项-文档矩阵:二值计数→权重矩阵(tf-idf值) ·相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis) ①同一类的文档会构成一个邻近 区域,②而不同类的邻近区域 之间是互不重叠的。 ● Government 核心问题是如何找到分类面 O Science 决策边界(decision boundary), ●ArtS
信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 • 向量空间模型 • 词项-文档矩阵:二值→ 计数 → 权重矩阵( tf-idf值) • 相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis): ①同一类的文档会构成一个邻近 区域, ②而不同类的邻近区域 之间是互不重叠的。 核心问题是如何找到分类面 决策边界(decision boundary) Government Science Arts 长度归一化的欧式距离计算与余弦相似 度计算结果是一致的 9
信息检索与数据挖掘 2019年4月16日 Test Document Government? Test Document Science? ·给定训练集可能存在多种分类面方案 ·选定的分类面方案有可能将测试文档归入错误的类中 ●Government O Science ●Arts
信息检索与数据挖掘 2019年4月16日 Test Document = Government? Test Document = Science? • 给定训练集可能存在多种分类面方案 • 选定的分类面方案有可能将测试文档归入错误的类中 Government Science Arts10
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 .A hyperplane is a set of the form {x aTx=b),where a∈Rn,a≠0,andb∈R. Geometrically,the hyperplane {x aTx=b}can be interpreted as the set of points with a constant inner product to a given vector a,or as a hyperplane with normal vector a;the constant b E R determines the offset of the hyperplane from the origin. A hyperplane divides Rn into two halfspaces.A (closed)halfspace is a set of the form {x aTx<b), 11
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 • A hyperplane is a set of the form {x | aTx = b}, where a ∈ Rn , a ≠ 0, and b ∈ R. • Geometrically, the hyperplane {x | aTx = b} can be interpreted as the set of points with a constant inner product to a given vector a, or as a hyperplane with normal vector a; the constant b ∈ R determines the offset of the hyperplane from the origin. • A hyperplane divides Rn into two halfspaces. A (closed) halfspace is a set of the form {x | aTx ≤ b}, 11