信息检索与数据挖掘 2019年4月15日18 分类方法:3机器学习的方法 ·机器学习 ·除了手工分类和人工编写规则之外,还存在第3种文本分 类的方法,即基于机器学习的方法。我们主要关注这种 方法。在机器学习中,规则测集(更通用的说法是分类决 策准则)是从训练数据中自动学习得到的。 后面将介绍一系列分类方法:朴 统计文本分类 素贝叶斯,Rocchio,kNN,SVM ·当学习方法基于统计时,这种方法也称为统计文本分类 (statistical text classification)。在统计文本分类中,对 于每个类别我们需要一些好的文档样例(或者称为训练 文档)。由于需要人来标注训练文档,所以对人工分类 的需求仍然存在。这里的标注(labeling)指的是对每篇 文档赋予类别标签的过程
信息检索与数据挖掘 2019年4月15日 18 分类方法: 3.机器学习的方法 • 机器学习 • 除了手工分类和人工编写规则之外,还存在第3 种文本分 类的方法,即基于机器学习的方法。我们主要关注这种 方法。在机器学习中,规则集(更通用的说法是分类决 策准则)是从训练数据中自动学习得到的。 • 统计文本分类 • 当学习方法基于统计时,这种方法也称为统计文本分类 (statistical text classification)。在统计文本分类中,对 于每个类别我们需要一些好的文档样例(或者称为训练 文档)。由于需要人来标注训练文档,所以对人工分类 的需求仍然存在。这里的标注(labeling)指的是对每篇 文档赋予类别标签的过程。 后面将介绍一系列分类方法: 朴 素贝叶斯, Rocchio, kNN, SVM
信息检索与数据挖掘 2019年4月15日19 基于学习的文本分类 文档空间X ·文档都在该空间下表示(通常都是某种高维空间) ■固定的类别集合C={C1,c2,..,C} ■类别往往根据应用的需求来认为定义 ·训练集D,文档d的类别用c标记,<d,c>∈X×C ·利用学习算法,根据给定的<d,c>可以学习一个分类器Y ,它可以将文档映射成类别: Y:X→C ·文档分类的实现 ·对于文档空间中文档,d∈X,可确定Y()∈C,即确 定d最可能属于的类别c=Y(d),c∈C
信息检索与数据挖掘 2019年4月15日 19 基于学习的文本分类 文档空间X 文档都在该空间下表示(通常都是某种高维空间) 固定的类别集合C= {c1 , c2 , . . . , cJ } 类别往往根据应用的需求来认为定义 训练集 D,文档d的类别用c标记,<d, c> ∈ X × C • 利用学习算法,根据给定的<d, c>可以学习一个分类器 ϒ ,它可以将文档映射成类别: ϒ : X → C • 文档分类的实现 • 对于文档空间中文档, d ∈ X ,可确定ϒ (d) ∈ C, 即确 定d最可能属于的类别ci =ϒ (d), ci∈ C
信息检索与数据挖掘 2019年4月15日20 文本分类 ·给定训练集 <d,c>=<Beijing joins the World Trade Organization,China> 。 表示的是单句文档Beijing joins the World Trade Organization被标记 为China类。 ·利用某种学习方法(learning method)或学习算法 (learning algorithm),我们希望学到某个分类函 数(classification function)y,它可以将文档映射 到类别 r:X→C ·判断文档d'最可能属于的类别c,=Y(d),c∈C
信息检索与数据挖掘 2019年4月15日 20 文本分类 • 给定训练集 • <d, c> = <Beijing joins the World Trade Organization, China> • 表示的是单句文档Beijing joins the World Trade Organization 被标记 为China 类。 • 利用某种学习方法(learning method)或学习算法 (learning algorithm),我们希望学到某个分类函 数(classification function)γ,它可以将文档映射 到类别 • 判断文档d’最可能属于的类别ci =ϒ (d’), ci∈ C ϒ : X → C
信息检索与数据挖掘 2019年4月15日21 文本分类中的类别、训练集及测试集 Classes,training set,and test set in text classification Y(d)=China regions industries subject areas 类别: China poultry coffee elections sports 训练集: d利 first congestion Olympics feed roasting recount diamond test private London Beijing chicken beans votes baseball Chinese set: airline Parliament tourism pate arabica seat forward Big Ben Great Wall ducks robusta run-off soccer Windsor Mao bird flu Kenya TV ads team the Queen communist turkey harvest campaign captain
信息检索与数据挖掘 2019年4月15日 21 文本分类中的类别、训练集及测试集 Classes, training set, and testset in text classification
信息检索与数据挖掘 2019年4月15日22 无监督/有监督的学习 ·supervised learning监督学习 ·利用一组已知类别的样本调整分类器的参数,使其达到 所要求性能的过程,也称为监督训练或有教师学习。正 如人们通过已知病例学习诊断技术那样,计算机要通过 学习才能具有识别各种事物和现象的能力。用来进行学 习的材料就是与被识别对象属于同类的有限数量样本。 监督学习中在给予计算机学习样本的同时,还告诉计算 各个样本所属的类别。 ·无监督学习 ·若所给的学习样本不带有类别信息,就是无监督学习
信息检索与数据挖掘 2019年4月15日 22 无监督/有监督的学习 • supervised learning 监督学习 • 利用一组已知类别的样本调整分类器的参数,使其达到 所要求性能的过程,也称为监督训练或有教师学习。正 如人们通过已知病例学习诊断技术那样,计算机要通过 学习才能具有识别各种事物和现象的能力。用来进行学 习的材料就是与被识别对象属于同类的有限数量样本。 监督学习中在给予计算机学习样本的同时,还告诉计算 各个样本所属的类别。 • 无监督学习 • 若所给的学习样本不带有类别信息,就是无监督学习