本科:Web信息搜索 §4.2文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn/xuyueshen@163.com 知识与数据工程研究中心 历些毛子种技大学 XIDIAN UNIVERSITY
§4.2 文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索
本节提纲 历些毛子种技大学 XIDIAN UNIVERSITY ▣文本分类(Text Classification) ■示例、定义与范畴 ■文档表示与特征选择 ■中文文本类别与层次分类结构(人工) ■文本分类方法 >分类流程 >基于划分的方法(e.g,K近邻) >基于模型的方法(不细讲) ■分类效果评估 2017/5/6 软件工程系
2017/5/6 软件工程系 本节提纲 文本分类(Text Classification) 示例、定义与范畴 文档表示与特征选择 中文文本类别与层次分类结构(人工) 文本分类方法 ➢ 分类流程 ➢ 基于划分的方法(e.g., K近邻) ➢ 基于模型的方法(不细讲) 分类效果评估
示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY 一般性分类任务举例 口举例 ■形状分组(已知四类) 第一类:圆 第二类:长方形 A 第三类:三角形 第四类:不规侧 各自应该属于哪个类? 第一类、第二类、 第三类、第四类:已知标记 ←→对比,聚类问题中是没有任何已知标记的 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 一般性分类任务举例 举例 形状分组(已知四类) 3 第一类:圆 第三类:三角形 第二类:长方形 第四类:不规则 各自应该属于哪个类? 第一类、第二类、第三类、第四类:已知标记 对比,聚类问题中是没有任何已知标记的
示例、定义与范畴 历些毛子科枚大多 XIDIAN UNIVERSITY →范畴与示例 口一般性分类 ■事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 口文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 井监贸微整美 热 边免捉 方入市党委书记易人 失散19年,儿子问家 民族复兴 新闻类 体育类 应该属于哪一类?
2017/5/6 软件工程系 一般性分类 事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 示例、定义与范畴 范畴与示例 新闻类 体育类 应该属于哪一类?
示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY →范畴与示例 口文本分类与信息检索的关系 ■每一本信息检索的教材中都会讲到“文本分类 >相似网页归类(主要由文本组成, →发现相似内容的网页,组成相似网页组 →提升搜索体验,提升搜索结果的多样性 →对于后台,节省计算时间,提高排序/建索引效率 >垃圾网页识别 中360安全中心量您 >病毒/异常网页识别 您访问的是木马网站 >垃圾邮件识别 当前页面带有木马或病毒,木马或病毒会给的电脑安全造成威胁,建议立即关闭此页面。 > 异常网页文本内容识 您访问g的网址是:http://www1com/ 2017/5/6 忽缩警告,继续访问 关闭页面
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 每一本信息检索的教材中都会讲到“文本分类” ➢ 相似网页归类 (主要由文本组成) 发现相似内容的网页,组成相似网页组 提升搜索体验,提升搜索结果的多样性 对于后台,节省计算时间,提高排序/建索引效率 5 ➢ 垃圾网页识别 ➢ 病毒/异常网页识别 ➢ 垃圾邮件识别 ➢ 异常网页文本内容识别