信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 A hyperplane divides Rn into two halfspaces.A (closed)halfspace is a set of the form {x alx b, a arx≥b To 超平面只能将 空间分成两类 aTx≤b aTx =b n=2→直线、n=3→平面、n>3→超平面
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 • A hyperplane divides Rn into two halfspaces. A (closed) halfspace is a set of the form {x | aTx ≤ b}, n=2 → 直线、 n=3 →平面、 n>3 →超平面 12 超平面只能将 空间分成两类
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 aTx≤b 凸集分离定理(超平面分离定理) 是应用凸集到最优化理论中的重要 结果,这个结果在最优化理论中有 重要的位置。所谓两个凸集分离, 直观地看是指两个凸集合没有交叉 和重合的部分,因此可以用一张超 平面将两者隔在两边。 存在多个这样的超平面 设S1,S2二R”为两个非空集合,如果存在非零向量p∈R”及α∈R使得 S1sH={xeR"lpTx≤a} S2cHt={xeR"lp'x≥a 则称超平面H={x∈R”lp'x=a分离了集合S1与S2
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 凸集分离定理(超平面分离定理) 是应用凸集到最优化理论中的重要 结果,这个结果在最优化理论中有 重要的位置。所谓两个凸集分离, 直观地看是指两个凸集合没有交叉 和重合的部分,因此可以用一张超 平面将两者隔在两边。 13 存在多个这样的超平面
信息检索与数据挖掘 2019年4月16日 小结:基于向量空间的分类 文档集是否会映射成邻近 .邻近假设(contiguity hypothesis) 区域取决于在文档表示中 的很多选项,例如权重计 ·①同一类的文档会构成一个邻近区域, 算方法、停用词表等。 ,②而不同类的邻近区域之间是互不重叠的 ·核心问题是如何找到分类面 ·决策边界(decision boundary) hyperplane is a set of the form {x alx=b ·n=2→直线、n=3→平面、n>3→超平面 14
信息检索与数据挖掘 2019年4月16日 小结:基于向量空间的分类 • 邻近假设(contiguity hypothesis) • ①同一类的文档会构成一个邻近区域, • ②而不同类的邻近区域之间是互不重叠的 • 核心问题是如何找到分类面 • 决策边界(decision boundary) • hyperplane is a set of the form {x | aTx = b} • n=2 → 直线、 n=3 →平面、 n>3 →超平面 14 文档集是否会映射成邻近 区域取决于在文档表示中 的很多选项,例如权重计 算方法、停用词表等
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 ·第10章文本分类 。文本分类及朴素贝叶斯方法 ·基于向量空间的文本分类 ·Rocchio方法 ·kNN(k近邻)方法 ·线性分类器 ·支持向量机及机器学习方法 15
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 • 第10章 文本分类 • 文本分类及朴素贝叶斯方法 • 基于向量空间的文本分类 • Rocchio方法 • kNN(k 近邻)方法 • 线性分类器 • 支持向量机及机器学习方法 15
信息检索与数据挖掘 2019年4月16日 回顾:相关反馈(Relevance feedback) Rocchio.算法 教材9.1.1章节,p122 ·我们将文档看作高维空间中的点,质心是一堆点的 质量的中心 C ·Rocchi0算法试图寻找一个查询→9opr,使得: dopr=arg max[cos(q,(C))-cos(.(C))] 原始查询 X .Rocchio1971算法(SMART) 成+向 00 优化过的查询× X ×已知不相关文档 16 o已知相关文档
信息检索与数据挖掘 2019年4月16日 回顾:相关反馈(Relevance feedback) Rocchio算法 • 我们将文档看作高维空间中的点,质心是一堆点的 质量的中心 • Rocchio 算法试图寻找一个查询 →qopt ,使得: • Rocchio 1971 算法 (SMART) 教材9.1.1章节,p122 16