信息检索与数据挖掘 2019/4/28 9 分类vs.聚类 ·分类:有监督的学习 。聚类:无监督的学习 。分类:类别事先人工定义好,并且是学习算法的输 入的一部分 ·聚类:簇在没有人工输入的情况下从数据中推理而 得 ·但是,很多因素会影响聚类的输出结果:簇的个数、相 似度计算方法、文档的表示方式,等等 乍看起来,聚类和分类的区别并不大,两种任务都会将文档分到不同的组中。 然而,这两个问题之间存在着本质的差异。分类是监督学习的一种形式,其 目标是对人类赋予数据的类别差异进行学习或复制。而在以聚类为重要代表 的无监督学习当中,并没有这样的人来对类别的差异进行引导
信息检索与数据挖掘 2019/4/28 9 分类 vs. 聚类 • 分类:有监督的学习 • 聚类:无监督的学习 • 分类:类别事先人工定义好,并且是学习算法的输 入的一部分 • 聚类:簇在没有人工输入的情况下从数据中推理而 得 • 但是,很多因素会影响聚类的输出结果:簇的个数、相 似度计算方法、文档的表示方式,等等 乍看起来,聚类和分类的区别并不大,两种任务都会将文档分到不同的组中。 然而,这两个问题之间存在着本质的差异。分类是监督学习的一种形式,其 目标是对人类赋予数据的类别差异进行学习或复制。而在以聚类为重要代表 的无监督学习当中,并没有这样的人来对类别的差异进行引导
信息检索与数据挖掘 2019/4/28 10 聚类假设 聚类假设:在考虑文档和信息需求之间的相关性时,同一 簇中的文档表现互相类似 ·聚类在R中的所有应用都直接或间接基于上述聚类假设 ·Van Rijsbergent的原始定义:closely associated documents tend to be relevant to the same requests'”(彼此密切关联的文 档和同一信息需求相关 聚类假设所表达的是,如果簇中某篇文档和查询需求相关, 那么同一簇中的其他文档也和查询需求相关。这是因为聚类 算法将那些共有很多词项的文档聚在一起。聚类假设实质上 就是第14章的邻近假设。两种情况下,我们都认为内容相 似的文档在相关性上的表现也相似
信息检索与数据挖掘 2019/4/28 10 聚类假设 • 聚类假设:在考虑文档和信息需求之间的相关性时,同一 簇中的文档表现互相类似。 • 聚类在IR中的所有应用都直接或间接基于上述聚类假设 • Van Rijsbergen的原始定义: “closely associated documents tend to be relevant to the same requests” (彼此密切关联的文 档和同一信息需求相关) 聚类假设所表达的是,如果簇中某篇文档和查询需求相关, 那么同一簇中的其他文档也和查询需求相关。这是因为聚类 算法将那些共有很多词项的文档聚在一起。聚类假设实质上 就是第14 章的邻近假设。两种情况下,我们都认为内容相 似的文档在相关性上的表现也相似
信息检索与数据挖掘 2019/4/28 11 C.J.van Rijsbergen C.J."Keith"van Rijsbergen (Cornelis Joost van Rijsbergen)(born 1943)is a professor of computer science and the leader of the Glasgow Information Retrieval Group based at the University of Glasgow. He is one of the founders of modern Information Retrieval and the author of the seminal monograph Information Retrieval and of the textbook The Geometry of Information Retrieval. In 2003 he was inducted as a Fellow of the Association for Computing Machinery.In 2004 he was awarded the Tony Kent Strix award.In 2006,he was awarded the Gerard Salton Award for Quantum haystacks. http://en.wikipedia.org/wiki/C.J._van_Rijsbergen http://www.dcs.gla.ac.uk/-keith/
信息检索与数据挖掘 2019/4/28 11 C. J. van Rijsbergen http://en.wikipedia.org/wiki/C._J._van_Rijsbergen http://www.dcs.gla.ac.uk/~keith/ C. J. "Keith" van Rijsbergen (Cornelis Joost van Rijsbergen) (born 1943) is a professor of computer science and the leader of the Glasgow Information Retrieval Group based at the University of Glasgow. He is one of the founders of modern Information Retrieval and the author of the seminal monograph Information Retrieval and of the textbook The Geometry of Information Retrieval. In 2003 he was inducted as a Fellow of the Association for Computing Machinery. In 2004 he was awarded the Tony Kent Strix award. In 2006, he was awarded the Gerard Salton Award for Quantum haystacks
信息检索与数据挖掘 2019/4/28 12 聚类在R中的应用 应用 聚类对象 优点 搜索结果聚类 搜索结果 提供面向用户的更有效 的展示 “分散一集中”界面 提供了另一种用户界面, 文档集和文档子集 即不需要人工输入关键 词的搜索界面 提供了一种面向探索式 文档集聚类 文档集 浏览的有效的信息展示 方法 基于语言建模的IR文档 提高了正确率和/或召回 集 文档集 率 基于聚类的检索 文档集 加快了搜索的速度
信息检索与数据挖掘 2019/4/28 12 聚类在IR中的应用 应 用 聚类对象 优 点 搜索结果聚类 搜索结果 提供面向用户的更有效 的展示 “分散—集中”界面 文档集和文档子集 提供了另一种用户界面, 即不需要人工输入关键 词的搜索界面 文档集聚类 文档集 提供了一种面向探索式 浏览的有效的信息展示 方法 基于语言建模的IR文档 集 文档集 提高了正确率和/或召回 率 基于聚类的检索 文档集 加快了搜索的速度
信息检索与数据挖掘 2019/4/28 13 Yahoo!目录式检索的效果 ..(30) ★ agriculture biology physics cs space dairy crops botany cell Al courses craft magnetism forestry agronomy evolution HCI missions relativity Hierarchy isnt clustering but is the kind of output you want from clustering
信息检索与数据挖掘 2019/4/28 13 Yahoo! 目录式检索的效果 dairy crops agronomy forestry AI HCI craft missions botany evolution cell magnetism relativity courses agriculture biology physics CS space ... ... ... … (30) ... ... Hierarchy isn’t clustering but is the kind of output you want from clustering