文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋
文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋
提纲 ■文本分类概述 ■特征提取 ■主要分类算法 ·Rocchio法 ▣贝叶斯 ·K近邻 。决策树
提纲 文本分类概述 特征提取 主要分类算法 Rocchio 法 贝叶斯 K近邻 决策树
文本分类概述
文本分类概述
分类的概念 ■给定: ■一个实例的描述,XX是实例空间 ·一个固定的文本分类体系:C={C1,C2.G} ·由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) ■确定: ■实例的类别(x)ECG(x)是一个分类函 数,定义域是X,值域是C
分类的概念 给定: 一个实例的描述, x∈ X, X是实例空间 一个固定的文本分类体系: C={ c1, c2 , … cn } 由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) 确定: 实例 x的类别 c( x) ∈C, c( x) 是一个分类函 数,定义域是 X ,值域是 C
说明 分类模式 。2类问题, 属于或不属于(binary) ■于 多类问题,多个类别(multi--class), 可拆分成2 类问题 ·一个文本可以属于多类(muti-label) ■分类体系一般人工构造 ·政治、体育、军事 。中美关系、恐怖事件 ■很多分类体系:Reuters分类体系、中图分类
说明 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2 类问题 一个文本可以属于多类(multi-label) 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 很多分类体系: Reuters分类体系、中图分类