当前位置：和泉文库 > 计算机 > 浏览文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）

文本分类概述特征提取主要分类算法 Rocchio 法贝叶斯 K近邻决策树

文件格式：PDF，文件大小：716.83KB，售价：22.32元

共122页，可试读30页，点击往前阅读 ↑↑

文档详细内容（约122页）

举例 ■对每类构造k个最有区别能力的term ■例如： ·计算机领域： ·主机、芯片、内存、编译… ·汽车领域： ·轮胎，方向盘，底盘，气缸

举例对每类构造k 个最有区别能力的term 例如：计算机领域：主机、芯片、内存、编译 … 汽车领域: 轮胎，方向盘，底盘，气缸，…

文本表示向量空间模型(Vector Space Model)) ·M个无序标引项t(特征) ■词根/词/短语/其他 ·每个文档d可以用标引项向量来表示 .(aya2y…,am ·权重计算，N个训练文档 -AM+N=(a) ·相似度比较 Cosine计算 ·内积计算

文本表示向量空间模型(Vector Space Model) M个无序标引项ti(特征) 词根/词/短语/其他每个文档dj可以用标引项向量来表示 (a1j,a2j,…,amj) 权重计算，N个训练文档 AM*N= (aij) 相似度比较 Cosine计算内积计算

Term的粒度 ■字(Character):中 ■词(Word):中国 ·短语(Phrase):中国人民银行。7 概念(Concept): ■同义词：开心/高兴兴奋 ·相关词词簇(word cluster):葛非/顾俊 "N-gram(N元组)： ·中国/国人/人民/民银/银行 ■某种规律性模式：比如某个window中出现的固定模式 David Lewis等一致地认为：（英文分类中）使用优化合并后的Words比较合适

Term的粒度字(Character)：中词(Word)：中国短语(Phrase)：中国人民银行概念(Concept)：同义词：开心/高兴/兴奋相关词词簇(word cluster)：葛非/顾俊 N-gram(N元组)：中国/国人/人民/民银/银行某种规律性模式：比如某个window中出现的固定模式 David Lewis等一致地认为：(英文分类中)使用优化合并后的 Words比较合适

用文档频率选特征词频 TF (Term Frequency) ·TF:特征在文档冲出现次数 ■文档频率 DF Document Frequency) ■DFi:所有文档集合中出现特征的文档数目 ■基本假设：稀少的词或者对于目录预测没有帮助，或者不会影响整体性能。实现方法：，先计算所有词的DF,然后删除所有DF小于某个阈值的词，从而降低特征空间的维数。 ■优缺点：。最简单的降低特征空间维数的方法 ·稀少的词具有更多的信息，因此不宜用DF大幅度地删除词

用文档频率选特征词频 TF (Term Frequency) TFi,j：特征 i在文档j中出现次数文档频率 DF (Document Frequency) DFi：所有文档集合中出现特征 i的文档数目基本假设：稀少的词或者对于目录预测没有帮助，或者不会影响整体性能。实现方法：先计算所有词的DF，然后删除所有DF小于某个阈值的词，从而降低特征空间的维数。优缺点：最简单的降低特征空间维数的方法稀少的词具有更多的信息，因此不宜用DF大幅度地删除词

权重计算方法布尔权重(boolean weighting) ·a=1(TFm>0)or(TF=0)0 ■TFIDF型权重 TF:an=TFy TF*IDF:ai=TFlog(N/DF) ·TFC:对上面进行归一化 TF,*log(N/DF,)》 ■LTC:降低TF的作用 ∑[TF4*log(NIDF log(TF,+1.0)*log(N/DF) 0 √∑log(TF,+1.0)*IogN/DE

权重计算方法布尔权重(boolean weighting) aij=1(TFij>0) or (TFij=0)0 TFIDF型权重 TF: aij=TFij TF*IDF: aij=TFij*log(N/DFi ) TFC: 对上面进行归一化 LTC: 降低TF的作用 ∑ = k kj k ij i ij TF N DF TF N DF a 2 [ * log( / )] * log( / ) ∑ + + = k kj k ij i ij TF N DF TF N DF a 2 [log( 1.0 ) *log( / )] log( 1.0 ) *log( / )

点击进入文档下载页（PDF格式）

共122页，可试读30页，点击继续阅读 ↓↓

您可能感兴趣的文档

北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 13 神经网络与深度学习
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 09 AI Planning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 08 First-Order Logic and Inference in FOL
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 11 马尔可夫决策过程
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）05 Infrastructure and Cloud
河南科技学院：信息工程学院本科课程教学大纲汇编（计算机科学与技术专业）
广东茂名农林科技职业学院：计算机网络技术人才培养方案（2020级）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录