当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩

文件格式：PDF，文件大小：2.11MB，售价：15元

文档详细内容（约54页）

信息检索与数据挖掘 2019/3/7 7 回顾Reuters-RCV1语料库符号含义值 N 文档总数 800,000 L 每篇文档的平均词条数目 200 M 词项总数 400,000 每个词条的平均字节数 6 (含空格和标点符号) 每个词条的平均字节数 4.5 (不含空格和标点符号) 每个词项的平均字节数 7.5 倒排记录总数 160,000,000

信息检索与数据挖掘 2019/3/7 7 回顾 Reuters-RCV1语料库符号含义值 N 文档总数 L 每篇文档的平均词条数目 200 M 词项总数 400,000 每个词条的平均字节数 (含空格和标点符号) 6 每个词条的平均字节数 (不含空格和标点符号) 4.5 每个词项的平均字节数 7.5 倒排记录总数 160,000,000

信息检索与数据挖掘 2019/3/7 8 索引参数vs.索引内容不同词项无位置信息倒排记录词条词典无位置信息索引包含位置信息的索引数目(K △% T% 数目(K) △%T% 数目(K △%T% 未过滤 484,494 109,971 197,879 无数字 474,723 -2 -2 100,680 -8 -8 179,158.2 -9 -9 大小写转换 391,523 -17 -19 96,969 -3 -12 179,157.8 0 -9 30个停用词 391,493 -0 -19 83,390 -14 -24 121,858 -31 -38 150个停用词 391,373 -0 -19 67,002 -30 -39 94,517 -47 -52 词干还原 322,383-17 -33 63,812 -4 -42 94,517 0 -52 讨论：0的原因？

信息检索与数据挖掘 2019/3/7 8 索引参数 vs. 索引内容不同词项无位置信息倒排记录词条词典无位置信息索引包含位置信息的索引数目(K) ∆% T% 数目(K) ∆% T% 数目(K) ∆% T% 未过滤 484,494 109,971 197,879 无数字 474,723 -2 -2 100,680 -8 -8 179,158.2 -9 -9 大小写转换 391,523 -17 -19 96,969 -3 -12 179,157.8 0 -9 30个停用词 391,493 -0 -19 83,390 -14 -24 121,858 -31 -38 150个停用词 391,373 -0 -19 67,002 -30 -39 94,517 -47 -52 词干还原 322,383 -17 -33 63,812 -4 -42 94,517 0 -52 讨论：0的原因？

信息检索与数据挖掘 2019/3/7 9 无损vs.有损压缩。无损压缩：压缩之后所有原始信息都被保留。 ·在IR系统中常采用无损压缩 ·有损压缩：丢掉一些信息。一些预处理步骤可以看成是有损压缩：大小写转换，停用词剔除，词干还原，数字去除。 ·第7章：那些削减的倒排记录项都不太可能在查询结果的前k个列表中出现。 ·对于前k个返回结果来说，这几乎是无损的有损还是无损与需求相关！！

信息检索与数据挖掘 2019/3/7 9 无损 vs. 有损压缩 • 无损压缩：压缩之后所有原始信息都被保留。 • 在IR系统中常采用无损压缩 • 有损压缩：丢掉一些信息 • 一些预处理步骤可以看成是有损压缩：大小写转换，停用词剔除，词干还原，数字去除。 • 第7章：那些削减的倒排记录项都不太可能在查询结果的前k个列表中出现。 • 对于前k个返回结果来说，这几乎是无损的有损还是无损与需求相关！！

信息检索与数据挖掘 2019/3/7 10 词汇量vs.文档集大小。词项的词汇量有多大？ ·也就是说，有多少个不同的词？ ·我们可以假定一个上界吗？ ·实际上并不可以：长度为20的不同单词至少有7020=1037个 •实际中，词汇量会随着文档集大小的增大而增长 ·尤其当采用Unicode编码时

信息检索与数据挖掘 2019/3/7 10 词汇量 vs. 文档集大小 • 词项的词汇量有多大？ • 也就是说，有多少个不同的词？ • 我们可以假定一个上界吗？ • 实际上并不可以：长度为20的不同单词至少有7020=1037个 • 实际中，词汇量会随着文档集大小的增大而增长 • 尤其当采用Unicode编码时

信息检索与数据挖掘 2019/3/7 11 词汇量vs.文档集大小 Heaps定律：M=kTb ·M是词项的数目，T是文档集中词条的个数 ·参数k和b的典型取值为：30≤≤100和b≈0.5 词汇量大小M和文档集大小T在对数空间中，存在着。斜率为的线性关系 ·在对数空间中，这是这两者之间存在的最简单的关系 ·这是一个经验发现(“empirical law”) Heaps.定律是Heaps在1978年一本关于信息挖掘的专著中提出的。事实上，他观察到在语言系统中，不同单词的数目与文本篇幅（所有出现的单词累积数目)之间存在幂函数的关系，其幂指数小于1

信息检索与数据挖掘 2019/3/7 11 词汇量 vs. 文档集大小 • Heaps定律：M = kT b • M是词项的数目，T是文档集中词条的个数 • 参数k和b的典型取值为：30≤k≤100和b≈0.5 • 词汇量大小M和文档集大小T在对数空间中，存在着斜率为½的线性关系 • 在对数空间中，这是这两者之间存在的最简单的关系 • 这是一个经验发现(“empirical law”) Heaps定律是Heaps在1978年一本关于信息挖掘的专著中提出的。事实上，他观察到在语言系统中，不同单词的数目与文本篇幅（所有出现的单词累积数目）之间存在幂函数的关系，其幂指数小于1

点击进入文档下载页（PDF格式）

共54页，可试读18页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）BitFunnel Revisiting Signatures for Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Beliefs and Biases in Web Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Accelerating Innovation Through Analogy Mining
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录