信息检索与数据挖掘 2019年4月15日13 文本分类的定义 .Text classification.或者Text Categorization ·给定分类体系(taxonomy),将一篇文本分到其中一个 或者多个类别中的过程。 ·文本分类中,给定文档d∈X和一个固定的类别集 合C={C1,c2,,c},其中X表示文档空间( document space).,类别(class)也通常称为类( category)或类标签(label)。 。按类别数日:binary vs.multi-class ·按每篇文档赋予的标签数目:sing label vs.multi label
信息检索与数据挖掘 2019年4月15日 13 文本分类的定义 • Text classification或者 Text Categorization • 给定分类体系( taxonomy),将一篇文本分到其中一个 或者多个类别中的过程。 • 文本分类中,给定文档d ∈ X和一个固定的类别集 合C= {c1 , c2 , . . . , cJ },其中X表示文档空间 ( document space),类别(class)也通常称为类( category) 或类标签( label)。 • 按类别数目:binary vs. multi-class • 按每篇文档赋予的标签数目:sing label vs. multi label
信息检索与数据挖掘 2019年4月15日14 分类方法:1.手工方法 ·Web发展的初期,Yahoo使用人工分类方法来组织 Yahoo目录,类似工作还有:ODP,PubMed ·如果是专家来分类精度会非常高 如果问题规模和分类团队规模都很小的时候,能否 保持分类结果的一致性 ·但是对人工分类进行规模扩展将十分困难,代价昂 贵 ·→因此,需要自动分类方法
信息检索与数据挖掘 2019年4月15日 14 分类方法: 1. 手工方法 • Web发展的初期,Yahoo使用人工分类方法来组织 Yahoo目录,类似工作还有: ODP, PubMed • 如果是专家来分类精度会非常高 • 如果问题规模和分类团队规模都很小的时候,能否 保持分类结果的一致性 • 但是对人工分类进行规模扩展将十分困难,代价昂 贵 • → 因此,需要自动分类方法
信息检索与数据挖掘 2019年4月15日15 图htps/小nw.goo..C☒Goog1e快讯-随时瞬踪.× 合★京 分类方法:2.规则法 用 3 gmail.co 只要进入Google快讯主页 快讯 西时我网上是吉有兴地的新内客 0 输入您的搜索字词、您 Q何以笙箫默 要的搜索结果类型(新闻 频率 有新动迹时 , 网页或新闻与网页及论 来派 白动 语 中文(简体中文) 坛)、希望我们检查搜索 国家/地区 不彩区域 结果的频率,以及您的电 救量 仅展品住结果 子邮件地址。然后,单击 发送到 gmail.com 壁快讯 购选项▲ “创建快讯”按钮。我们 将向您发送确认电子邮件 快讯预览 。在您单击确认电子邮件 新阀 电影《何以笙巢默)被封烂片王评分远低于钟汉肉版 中的链接后,快讯即可启 华龙网 尽信在重庆各大影院,《何以笙萧默)五一档的排片超过了《左耳),但电影《何以笙第 0在豆籍网上的评分只有3.6,远低于钟汉良主演《何以笙满默)电视版 动您还可以通过访问我们 《何以笙笑默):有颜估没法技缺良心新被网客割 《何以笙簧默》私人订的大众之战百度娱乐 《何以笙第默)将登韩国荧屏-光男网 的“管理快讯”页面一次 专联册注 完成快讯的创建和确认。 《何以笙染默》:杨幂上身的赵默笙 百度埃乐
信息检索与数据挖掘 2019年4月15日 15 分类方法: 2. 规则方法 只要进入Google 快讯主页 ,输入您的搜索字词、您 要的搜索结果类型(新闻 ,网页或新闻与网页及论 坛)、希望我们检查搜索 结果的频率,以及您的电 子邮件地址。然后,单击 “创建快讯”按钮。我们 将向您发送确认电子邮件 。在您单击确认电子邮件 中的链接后,快讯即可启 动您还可以通过访问我们 的“管理快讯”页面一次 完成快讯的创建和确认
信息检索与数据挖掘 规则向导 想要检测何种条件? 步漂]:选择条件9 分类方法:2.规法 发送给oxh@ustc.edu.cn 主题或正文中包含网上购票系统一用户支付浦知 回 通过指定帐户 只发送给我 Outlook Express使用邮件规则: 口 我的姓名在收件人"框中 标记为重要性 按照发件人分类; 口标记为敏感度 ▣ 做动作标示记 按照主题中的关键词分类; 口 我的姓名在抄送"框中 □ 我的姓名在收件人"或抄送"框中 正文中包含关键词… 0 我的姓名不在收件人”框中 收件人邮件低秩包含关键词. 正文中包含特定词适 口 邮件头中包含特定词语 发件人邮件低秩包含关键词. 收件人电子邮件地址中包含特定词遁 口 发件人电子邮件地址中包含定词逼 口分配为类别类别 步漂2:编提规则说明(单击带下划线的值D) 规则应用时间:邮件到达后
信息检索与数据挖掘 2019年4月15日 16 分类方法: 2. 规则方法 Outlook Express使用邮件规则: 按照发件人分类; 按照主题中的关键词分类; 正文中包含关键词… 收件人邮件低秩包含关键词… 发件人邮件低秩包含关键词…
信息检索与数据挖掘 2019年4月15日17 分类方法:2.规则方法 J624.1 《中图法》分类号 H25 一著者号 分类/著者字索书号 ·规则:如含有“多媒体”的书籍归入“TP37” G 、一工具书标识符 http://ztflh.jourserv.com/ Z227 ←—《中图法》分类号 1 书次号 中图分类号查询>工业技术>自动化技术、计算机技术>计算技术、计算机技术>多媒体技术与多媒体计算机 5:4 部次号 检索词: 检索 分类/图书编目次序素书号 TP37 多煤体技术与多媒体计算机 ·对于p234提到的multicore computer chips的例子,一个可能 的规则是(multicore OR multi-core)AND(chip OR processor OR microprocessor)。 ·有时规则即等价于布尔表达式。 ·如果规则经过专家长时间的精心调优,精度会非常高 ·建立和维护基于规则的分类系统非常繁琐,开销也大
信息检索与数据挖掘 2019年4月15日 17 分类方法: 2. 规则方法 • 规则:如含有“多媒体”的书籍归入“TP37” • 对于p234提到的multicore computer chips 的例子,一个可能 的规则是(multicore OR multi-core) AND (chip OR processor OR microprocessor)。 • 有时规则即等价于布尔表达式。 • 如果规则经过专家长时间的精心调优,精度会非常高 • 建立和维护基于规则的分类系统非常繁琐,开销也大 http://ztflh.jourserv.com/