Zipf's Law Rank(R)Term Frequency(F) R*F(10*6) 1 the 69,971 0.070 2 of 36,411 0.073 3 and 28,852 0.086 4 to 26,149 0.104 5 a 23,237 0.116 6 in 21,341 0.128 7 that 10,595 0.074 8 is 10,009 0.081 9 was 9,816 0.088 10 he 9,543 0.095
Zipf’s Law Rank(R) Term Frequency (F) R*F (10**6) 1 the 69,971 0.070 2 of 36,411 0.073 3 and 28,852 0.086 4 to 26,149 0.104 5 a 23,237 0.116 6 in 21,341 0.128 7 that 10,595 0.074 8 is 10,009 0.081 9 was 9,816 0.088 10 he 9,543 0.095
Zipf(齐普夫)s定律 o Rank():在按词频(f)降序排列的词表中 所处的位置, ■Zipf(1949)“发现”: fof.r=k (for constant k) 如果rank为的词的概率位pp,W是所有 词出现的次数: p.==4 for corpus indp.const.40.1 Nr
Zipf(齐普夫 ) ’ s定律 Rank ( r): 在按词频 (f )降序排列的词表中 所处的位置. Zipf (1949) “发现 ” : 如果rank 为 r的词的概率位 pr , N 是所有 词出现的次数: r f 1 ∝ f ⋅r = k (for constant k ) = = for corpusindp. const. A ≈ 0.1 r A N f p r
Brown语料库验证Zipf定律 300 1030 0009 100000
Brown语料库验证Zipf定律 k = 100,000
Zipf定律对IR的影响 好消息: ·停用词占文本中的很大一部分,因此删除停 用词可以大量减少倒排文档的存储空间 ■坏消息: ·对大多数词来说,进行词汇之间的相关分析 并不容易,因为它们出现的比较少
Zipf定律对IR的影响 好消息: 停用词占文本中的很大一部分,因此删除停 用词可以大量减少倒排文档的存储空间 坏消息: 对大多数词来说,进行词汇之间的相关分析 并不容易,因为它们出现的比较少
词表增长 ■随着语料库的增长,词表以什么样的速 度相应地增长? ■这决定了随着语料库规模的增长,倒排 文件需要怎样增长 ■由于专名的存在,词表实际上没有上限
词表增长 随着语料库的增长,词表以什么样的速 度相应地增长? 这决定了随着语料库规模的增长,倒排 文件需要怎样增长 由于专名的存在,词表实际上没有上限