信息检索与数据挖掘 2019/3/7 12 M:词项总数 Heaps定律 T:词条总数 对RCV1文档集来说,虚线 1og10M=0.491og10T+1.64 是基于最小二乘法的最佳拟合 结果。 则M=101.64T0.49,所以k= 101.64≈44,b=0.49 对RCV1是一个很好的经验拟合! 对于前1,000,020个词条, Heaps定律会估计得到大约 38,323个词项; 0 2 4 8 而实际数目是38365,和估计 log10 T 值非常接近 10g1oM=0.49×1og10T+1.64
信息检索与数据挖掘 2019/3/7 12 Heaps定律 对RCV1文档集来说,虚线 log10M = 0.49log10T + 1.64 是基于最小二乘法的最佳拟合 结果。 则 M = 101.64T 0.49 , 所 以 k = 101.64 ≈ 44,b = 0.49 对RCV1是一个很好的经验拟合! 对于前1,000,020个词条, Heaps 定 律 会 估 计 得 到 大 约 38,323个词项; 而实际数目是38365,和估计 值非常接近 M:词项总数 T:词条总数
信息检索与数据挖掘 2019/3/7 13 Zipf定律 ·Heaps定律提供了对文档集中词汇量的估计 ·我们还想了解词项在文档中的分布情况 ·在自然语言中,只有很少一些非常高频的词项,而 其它绝大部分都是很生僻的词项。 ·Zipf定律:排名第i多的词项的文档集频率与1/i 成正比 ·cf:∝1/i=K/红,是一个归一化常数 Cf是文档集频率:词项t在文档集中出现的次数 Zipf定律是Zipf在1949年的一本关于人类定位的最小作用原理的书中首先 提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次 将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到 一条幂函数曲线。这个定律被发现适用于大量复杂系统
信息检索与数据挖掘 2019/3/7 13 Zipf定律 • Heaps定律提供了对文档集中词汇量的估计 • 我们还想了解词项在文档中的分布情况 • 在自然语言中,只有很少一些非常高频的词项,而 其它绝大部分都是很生僻的词项。 • Zipf定律:排名第i多的词项的文档集频率与1/i 成正比 • cfi ∝ 1/i = K/i,K是一个归一化常数 • Cfi是文档集频率:词项ti在文档集中出现的次数 Zipf定律是Zipf在1949年的一本关于人类定位的最小作用原理的书中首先 提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次 将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到 一条幂函数曲线。这个定律被发现适用于大量复杂系统
信息检索与数据挖掘 2019/3/7 14 Zipf定律推论 ·如果最高频的词项(the)出现了cf次 ·那么第二高频的词项(of)出现了cf/2次 ·第三高频的词项(and)出现了cf,/3次 ·等价的:cf,=/i中K是归一化因子,所以 ·Log cf;=1ogK-logi ·1ogcf和1og之间存在着线性关系 ·另一个幂定律关系
信息检索与数据挖掘 2019/3/7 14 Zipf定律推论 • 如果最高频的词项(the)出现了cf1次 • 那么第二高频的词项(of)出现了cf1/2次 • 第三高频的词项(and)出现了cf1/3次 • 等价的:cfi = K/i 中K是归一化因子,所以 • Log cfi = log K - log i • log cfi和log i之间存在着线性关系 • 另一个幂定律关系
信息检索与数据挖掘 2019/3/7 15 Reuters--RCV1文档集上的Zipf定律 cf:词项t,在文档 集中出现的次数 21b0 rank:词项的排名 5 log10 rank
信息检索与数据挖掘 2019/3/7 15 Reuters-RCV1文档集上的Zipf定律 cf:词项 t i在文档 集中出现的次数 rank:词项的排名
信息检索与数据挖掘 2019/3/7 16 中文字频 10-1 b △一史记(总字数449064,含字4329个) -0 唐诗(总字数2835949,含字7572个) 102 宋词(总字数142549,含字3794个) 0 10-2 红楼梦(总字数744507,含字4527个) 10-3 10-9 10-4 10-4 △ 甲骨文(总字数622130,含字2781个) 10-5 0一青铜器铭文(总字数107731,含字4831个) 诗经(总字数29594,含字3103个】 106 尔雅(总字数10455,含字3225个) 10-5 10° 10 10 10 6.0×10 1.2×10 1.8×103 2.4×10 d 10- 莎士比亚选集(总字数882253,含字32519个) 10-1 一4一毛泽东选集(总字数534309,含字2925个) 毛泽东选集(总字数534309,含字2925个) 魔法学徒(总字数2162269,含字3875个) ☆一 亮剑(总字数315640,含字3481个) 10-2 102 10-3 10- 10- 104 10- 10 10-6 LLII 5.0×1021.0×1031.5×1032.0×1032.5×103 10 10 10 10 10㎡ 汉语言文学作品中词频的Zipf分布, 刘字凡,陈清华,北京师范大学学报(自然科学版2009 字频排序
信息检索与数据挖掘 2019/3/7 16 中文字频 汉语言文学作品中词频的Zipf分布,王洋,刘宇凡,陈清华,北京师范大学学报(自然科学版)2009