BEP和F测度 BEP (break-even point) ·当准确率和召回率相等时的值即为BEP ■F测度,取B=1 Fa,)=B2+pm F=2pr B2p+r p+r ■BEP和F测度的值越大,则表示分类器的性能越 好。 ■BEP只是F1所有可能取值中的一个特定值(当p =r时),因此BEP小于或等于F1的最大值
BEP和F测度 BEP(break-even point) 当准确率和召回率相等时的值即为BEP F测度,取β=1 BEP和F测度的值越大,则表示分类器的性能越 好。 BEP只是F1所有可能取值中的一个特定值(当p = r时),因此BEP小于或等于F1的最大值。 ( ) ( ) p r pr F p r β + + = 22 1 , ββ p r pr F + = 2 1
多类分类问题的评价 ■宏平均(macro-averaging) ·先对每个分类器计算上述量度,再对所有分 类器求平均 ·是关于类别的均值 ■微平均(micro-averaging) ■先合并所有分类器的偶然事件表中的各元 素,得到一个总的偶然事件表,再由此表计 算各种量度。 。是关于文本的均值
多类分类问题的评价 宏平均(macro-averaging ) 先对每个分类器计算上述量度,再对所有分 类器求平均 是关于类别的均值 微平均(micro-averaging ) 先合并所有分类器的偶然事件表中的各元 素,得到一个总的偶然事件表,再由此表计 算各种量度。 是关于文本的均值
层次分类 ■分类系统可以是层次结构 ·如Yahoo、中图分类 ■将文本分到一个类别体系(topic hierarchy)中 ·通常是一个叶结点 ·有时是中间结点 ■层次分类的方法 ·一系列N-way的分类决策 ·从分类体系的根部开始,每次选择最好的子类 ·在不同的分支处,有不同的特征提取 ·数据更充分,但是可能引入错误累积 ·单独的N-way分类决策 ·简单地从所有可能的最终类别中选择最佳类别
层次分类 分类系统可以是层次结构 如Yahoo、中图分类 将文本分到一个类别体系(topic hierarchy)中 通常是一个叶结点 有时是中间结点 层次分类的方法 一系列 N-way 的分类决策 从分类体系的根部开始,每次选择最好的子类 在不同的分支处,有不同的特征提取 数据更充分,但是可能引入错误累积 单独的 N-way 分类决策 简单地从所有可能的最终类别中选择最佳类别
文本分类的应用 ■新闻出版按照栏目分类 ·类别{政治,体育,军事,} ■网页分类 .类似于Yahoo的分类 ·个性化新闻 ■智能推荐 ■垃圾邮件过滤 m类别{spam,not-spam
文本分类的应用 新闻出版按照栏目分类 类别 {政治 ,体育 ,军事 , … } 网页分类 类似于Yahoo的分类 个性化新闻 智能推荐 垃圾邮件过滤 类别 {spam, not-spam}
特征提取
特征提取