Heaps'Law ■V是词表大小,n是语料库的长度(词 书) V=KnB with constants K 0<B<1 ■典型的常数: ■K≈10-100 ■B≈0.40.6 (approx.square-root)
Heaps’ Law V 是词表大小,n 是语料库的长度(词 书) 典型的常数: K ≈ 10−100 β ≈ 0.4−0.6 (approx. square-root) = with constants , 0 < β <1 β V Kn K
Heaps'定律 250 20 150 之之一 100 …zf2 50 ap2 wsi2 --2 0 0 Words in Collection,N(millions)
Heaps’ 定律
词的分辨力 分辨力是一个词作为特征将它所在的文档 与其它文档区别开来的能力 无意义的 无意义的 高频词 低频词 有意义的分辨力最强 按词频降序排列
词的分辨力 按词频降序排列 无意义的 高频词 无意义的 低频词 有意义的分辨力最强 分辨力是一个词作为特征将它所在的文档 与其它文档区别开来的能力
索引项的分辨力 ■好的索引项能够将文档尽可能地离散开 ·例如:在一个关于“计算机科学”的文档集合中 xx 原始文档空间: 添加了好的索引项: 添加了不好的索引项: system system,database system,computer
索引项的分辨力 好的索引项能够将文档尽可能地离散开 例如:在一个关于 “计算机科学 ”的文档集合中 X X X X X X X X X X X X 添加了好的索引项: system, database 添加了不好的索引项: system, computer 原始文档空间: system
索引项分辨力举例 all terms indexed bad good d1 (a,b,c,d,r) (b,c,d) (a,b,c,d) (b,c,d,r) d2 (a,b,n,d,r) (b,n,d) (a,b,n,d) (b,n,d,r) d3 (a,m,p,q) (m,p,q) (a,m,p,q) (m,p,q) d4 (a,x,p,q) (&P,q) (a,x,p,q)(x,p,q) ■a就不是一个好的索引项,因为各个文档都包 含a ■r可以使d1和d2靠近,并使它们远离d3和d4
索引项分辨力举例 a就不是一个好的索引项,因为各个文档都包 含 a r可以使d1和d2 靠近,并使它们远离 d3和d4 all terms indexed bad good d1 (a,b,c,d,r) (b,c,d) (a,b,c,d) (b,c,d,r) d2 (a,b,n,d,r) (b,n,d) (a,b,n,d) (b,n,d,r) d3 (a,m,p,q) (m,p,q) (a,m,p,q) (m,p,q) d4 (a,x,p,q) (x,p,q) (a,x,p,q) (x,p,q)