信息检索与数据挖掘 2019/3/7 17 中文词频规律示例 表1文学作品中的词频 《红楼梦》 《毛泽东选集》 《邓小平文选》 《莎士比亚全集》 排序 词 词频 词 词频 词 词频 词 词频 了 004073 的 008548 的 007946 the 003183 2 的 002715 和 001642 了 001570 and 002937 3 我 001088 在 001504 我们 001512 I 002354 4 不 001066 了 001450 是 001266 to 002155 贾 001010 是 001157 在 001149 of 001951 6 道 000869 000582 和 001040 a 001656 7 你 000850 我们 000578 要 000855 you 001569 8 也 000781 中国 000544 问题 00079 my 001392 9 宝玉 000775 为 000488 有 000743 加 001227 10 来 000767 有 000448 不 000729 that 001217 11 又 000711 不 000439 党 000643 is 001035 12 便 000665 地 000417 就 000545 not 000959 13 000630 革命 000408 工作 000522 me 000878 14 这 000609 而 000392 也 000505 it 000875 15 去 000555 国民党 000391 一个 000436 with 000870 汉语言文学作品中词频的Zf分布,王洋,刘宇凡,陈清华,北京师范大学学报(自然科学版)2009
信息检索与数据挖掘 2019/3/7 17 中文词频规律示例 汉语言文学作品中词频的Zipf分布,王洋,刘宇凡,陈清华,北京师范大学学报(自然科学版)2009
信息检索与数据挖掘 2019/3/7 18 题外话 。1 很多复杂系统同时满足Zipf定律和Heaps?定律,但是对于两者关 系,学术界存在长期争论。通过一些随机过程模型,有些学者认 为Zipf定律是本质的,Heaps?定律是衍生的,可以从Zipf定律推 出;有些学者(Zanette,Moutemurro)认为Heaps定律是本质的, Zipf定律是衍生的;有的学者认为这两种定律相互独立。 我们不依赖于任何随机过程,证明了Zipf定律更本质,而Heaps 定律是衍生律。进一步地,我们证明了以前的两个定律指数之间 的解析关系,只是在Zipf指数远大于1或远小于1或系统规模无穷 大的时候的一种渐进解。遗憾的是,真实系统不满足三种条件中 的任何一种。,我们提出了新的解析方法,得到了更精确的解析结 果,在35个真实数据中进行验证,发现有34个数据新结果都好于 以前的结果。 Linyuan Lu,Zi-Ke Zhang,Tao Zhou,"Zipf's Law Leads to Heaps'Law:Analyzing Their Relation in Finite-Size Systems",PLoS ONE 5 (2010)e14139
信息检索与数据挖掘 2019/3/7 18 题外话 • 很多复杂系统同时满足Zipf定律和Heaps定律,但是对于两者关 系,学术界存在长期争论。通过一些随机过程模型,有些学者认 为Zipf定律是本质的,Heaps定律是衍生的,可以从Zipf定律推 出;有些学者(Zanette, Moutemurro)认为Heaps定律是本质的, Zipf定律是衍生的;有的学者认为这两种定律相互独立。 • 我们不依赖于任何随机过程,证明了Zipf定律更本质,而Heaps 定律是衍生律。进一步地,我们证明了以前的两个定律指数之间 的解析关系,只是在Zipf指数远大于1或远小于1或系统规模无穷 大的时候的一种渐进解。遗憾的是,真实系统不满足三种条件中 的任何一种。我们提出了新的解析方法,得到了更精确的解析结 果,在35个真实数据中进行验证,发现有34个数据新结果都好于 以前的结果。 • Linyuan Lü, Zi-Ke Zhang, Tao Zhou, “Zipf’s Law Leads to Heaps’ Law: Analyzing Their Relation in Finite-Size Systems”, PLoS ONE 5 (2010) e14139
信息检索与数据挖掘 2019/3/7 19 关于数字的统计规律 第一数字定律(Benford law). d p 描述的是自然数1到9的使用频率F(d)=log[1+(1/d)] 30.1% (d为自然数),其中1使用最多接近三分之一,2为 2 17.6% 17.6%,3为12.5%,依次递减,9的频率是4.6%。 12.5% 科学家们仔细研究第一数字定律后,无法对这种现象 9.7% 做出合理解释。定律的主要奠基人Frank Benford对 5 7.9% 人口出生率、死亡率、物理和化学常数、素数数字等 6 6.7% 各种现象进行统计分析后发现,由度量单位制获得的 数据都符合第一数字定律。当然彩票上随机数据并不 5.8% 符合。 8 5.1% 9 4.6%
信息检索与数据挖掘 2019/3/7 19 关于数字的统计规律 第一数字定律(Benford law) 描述的是自然数1到9的使用频率F(d)=log[1+(1/d)] (d为自然数),其中1使用最多接近三分之一,2为 17.6%,3为12.5%,依次递减,9的频率是4.6%。 科学家们仔细研究第一数字定律后,无法对这种现象 做出合理解释。定律的主要奠基人Frank Benford对 人口出生率、死亡率、物理和化学常数、素数数字等 各种现象进行统计分析后发现,由度量单位制获得的 数据都符合第一数字定律。当然彩票上随机数据并不 符合