其它term处理(续) 词性标注 ·采用HM的算法 ·参加下页词性标记表 ■词义消歧 ·采用贝叶斯等算法 。《同义词词林》,参见后文 ■停用词表 ·没有固定的标准 ,英文:the,a,and,. 。中文:的,了,和
其它term处理(续) 词性标注 采用HMM的算法 参加下页词性标记表 词义消歧 采用贝叶斯等算法 《同义词词林》,参见后文 停用词表 没有固定的标准 英文:the, a, and, …… 中文:的,了,和, ……
词性标注表 普通名词: 时间名词: 方位名词: 处所名词: 人名:nh 地名: n nt nd nl ns 团体、机 其它专名: 动词:V 形容词: a 区别词: 副词:d 构、组织的 nz 6 专名:ni 数词:m 量词:q 代词:r 介词:p 连词:c 叹词:e 拟声词:0 助词:u 前接成分: 后接成分:k 习用语: 简称:j h i 语素字:g 非语素字:X 标点:wp 字符串:wS
词性标注表 习用语: 简称:j i 前接成分: 后接成分:k h 拟声词:o 助词:u 语素字:g 非语素字:x 标点:wp 字符串:ws 数词:m 量词:q 代词;r 介词:p 连词:c 叹词:e 区别词: 副词:d b 其它专名: 动词:v 形容词:a nz 团体、机 构、组织的 专名:ni 地名: ns 处所名词: 人名:nh nl 方位名词: nd 时间名词: nt 普通名词: n
文本处理 文本的特性
文本处理 ——文本的特性
词频 ■不同词的频率是怎样分布的? ■极少的词是非常常见的 ·英文中最常用的两个词是:the”,“of”,他 们的出现频率占全部英文词的10% ■大多数词很少出现 ·语料库中的一半词只出现一次 ·称为heavy tailed?分布,因为大多数的概率 值都是tail
词频 不同词的频率是怎样分布的? 极少的词是非常常见的 英文中最常用的两个词是: “the”, “of”,他 们的出现频率占全部英文词的10% 大多数词很少出现 语料库中的一半词只出现一次 称为“heavy tailed”分布, 因为大多数的概率 值都是 “tail
样本次品数据 (from B.Croft,UMass) Frequent Number of Percentage Word Occurrences of Total the 7,398,934 5.9 of 3,893,790 3.1 to 3,364,653 2.7 and 3,320,687 2.6 in 2,311,785 1.8 is 1,559,147 1.2 for 1,313,561 1.0 The 1,144,860 0.9 that 1,066,503 0.8 said 1,027,713 0.8 Frequencies from 336,310 documents in the 1GB TREC Volume 3 Corpus 125,720,891 total word occurrences;508,209 unique words
样本次品数据 (from B. Croft, UMass)