示例、定义与范畴 历些毛子科枚大》 XIDIAN UNIVERSITY →范畴与示例 ▣文本分类与信息检索的关系 >我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 面向人民群众v.s.面向专业数据人员 >我们也不是在学《搜索引擎优化技巧(SEO)》 面向网站运营人员V.s.面向专业数据人员 Seorch Ege SE0教程 高‘ 达人述DUMMIES 援索引擎优化入门与进阶 接亲警优化(SE0】 方法与技巧) 电脑上网叠 SEO te mard m w出 清大系社 多A2 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 ➢ 我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 - 面向人民群众 v.s. 面向专业数据人员 ➢ 我们也不是在学《搜索引擎优化技巧(SEO)》 - 面向网站运营人员 v.s. 面向专业数据人员
文本分类任务 面些毛子种枝大等 XIDIAN UNIVERSITY )文档表示 口预处理:分词(中文) ■对文档进行分词,去掉与分类关联不大的词汇(如停用词) > 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 > 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 口文档表示(通用方法) 词表 ■向量空间法→将文档表示成一个向量 词频表示法 人民:10 日报:11 引领:12 位置编号 01234567 89… 民族:13 引领民族复兴的战 这个D0c=(14,15,10,10,11,11,13,… 复兴:14 战略:15
2017/5/6 软件工程系 文本分类任务 文档表示 预处理:分词(中文) 对文档进行分词,去掉与分类关联不大的词汇(如停用词) ➢ 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 ➢ 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 文档表示(通用方法) 向量空间法 将文档表示成一个向量 ➢ 词频表示法 词表 … 人民:10 日报:11 引领:12 民族:13 复兴:14 战略:15 … 0 1 2 3 4 5 6 7 8 9… (14, 15, 10, 10, 11, 11, 13, …) 位置编号 这个Doc=
文本分类任务 历些莞子种拔大 XIDIAN UNIVERSITY )文档表示 ▣常用词表构建方法 ■通用电子词典 Pocket. LONGMAN Oxford PRONUNCIATION DICTIONARY >词汇量大,全面 ENGLISH Collegiate Dictionary Dictionary C Wells eventh Elici >同时,也过于全面 ■特定领域词库 >市场的要求:电信、旅游、教育、 互联网等领域均有自己的词汇 > 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 > 针对性强,需要积累与收集 Medical Terminology CHEMICAL PHARMACY Systems ■用户贡献(评论与标签) TECHNOLOGY TERMINOLOGY 2017/5/6
2017/5/6 软件工程系 文本分类任务 文档表示 常用词表构建方法 通用电子词典 ➢ 词汇量大,全面 ➢ 同时,也过于全面 特定领域词库 ➢ 市场的要求:电信、旅游、教育、互联网等领域均有自己的词汇 ➢ 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 ➢ 针对性强,需要积累与收集 用户贡献(评论与标签)
文档表示与特征选择 历粤毛子种技大》 XIDIAN UNIVERSITY →特征选择 口特征选择 >去除了的、啊、了、么之后,哪些词更能代表一个类? >举例 体育类 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 七边晚报 图为狐 入市党委书记易人 新闻类 失散19年,儿了叫家 这些词:会议,政策,战略,报告,主席,市长
2017/5/6 软件工程系 文档表示与特征选择 特征选择 特征选择 ➢ 去除了的、啊、了、么之后 ,哪些词更能代表一个类? ➢ 举例 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 这些词:会议,政策,战略,报告,主席,市长,… 新闻类 体育类
文档表示与特征选择 历些毛子科枝大多 XIDIAN UNIVERSITY →特征选择 ■缺点 >人工指定耗时费力,不一定准确 >如何应对新文档的加入? ■如何将这些代表某一类的词自动地选出来呢? >一种方法:在每一个类中计算每一个词的词频值 想法:某词t在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 两个要素: 1)一个词在当前类别中出现了多少次 2)有多少类别含有这个词 2017/5/6 软件工程系
2017/5/6 软件工程系 文档表示与特征选择 特征选择 缺点 ➢ 人工指定耗时费力,不一定准确 ➢ 如何应对新文档的加入? 如何将这些代表某一类的词自动地选出来呢? ➢ 一种方法:在每一个类中计算每一个词的词频值 - 想法:某词 t 在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 - 两个要素: 1) 一个词在当前类别中出现了多少次 2) 有多少类别含有这个词