当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型

❶ 回顾 ❷ 排序式检索 ❸ 词项频率 ❹ tf-idf权重计算 ❺ 向量空间模型

文件格式：PDF，文件大小：1.58MB，售价：15.71元

文档详细内容（约64页）

信息检索与数据挖掘 2019/3/16 12 回顾：索引压缩对间隔编码编码对象倒排记录表 the 文档D 283042 283043 283044 283045 文档D间距 1 1 2 computer 文档D 283047 283154 283159 283202 文档D间距 107 5 43 arachnocentric 文档D 252000 500100 文档D间距 252000 248100

信息检索与数据挖掘 2019/3/16 12 对间隔编码回顾：索引压缩

信息检索与数据挖掘 2019/3/16 13 回顾：索引压缩可变字节(VB)码 ■被很多商用/研究系统所采用 ■设定一个专用位（高位）c作为延续位(continuation bit) ■如果间隔表示少于7比特，那么c置1，将间隔编入一个字节的后7位中 ■否则：将低7位放入当前字节中，并将c置0，剩下的位数采用同样的方法进行处理，最后一个字节的c置1（表示结束)

信息检索与数据挖掘 2019/3/16 13 可变字节(VB)码 被很多商用/研究系统所采用 设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特，那么c 置 1，将间隔编入一个字节的后7位中 否则：将低7位放入当前字节中，并将c 置 0，剩下的位数采用同样的方法进行处理，最后一个字节的c置1（表示结束）回顾：索引压缩

信息检索与数据挖掘 2019/3/16 14 回顾：索引压缩 Y编码 ■将G表示成长度(1 ength)和偏移(offset)两部分偏移对应G的二进制编码，只不过将首部的1去掉 ■例如13→1101→101=偏移 ■长度部分给出的是偏移的位数 ■比如G=13(偏移为101)，长度部分为3 长度部分采用一元编码：1110， ■于是G的丫编码就是将长度部分和偏移部分两者联接起来得到的结果

信息检索与数据挖掘 2019/3/16 14 ϒ编码 将G 表示成长度(length)和偏移(offset)两部分 偏移对应G的二进制编码，只不过将首部的1去掉 例如 13 → 1101 → 101 = 偏移 长度部分给出的是偏移的位数 比如G=13 (偏移为 101), 长度部分为 3 长度部分采用一元编码: 1110. 于是G的ϒ编码就是将长度部分和偏移部分两者联接起来得到的结果。回顾：索引压缩

信息检索与数据挖掘 2019/3/16 15 本讲结构图布尔检索结果太布尔模型少或太多布尔词项-文档关联矩阵接词项-文档计数文档和词项频率TF 查询均评矩阵表示成分向量，计算词项-文档权重 TF-IDF 余弦矩阵相似度对结果进行排序向量空间模型

信息检索与数据挖掘 2019/3/16 15 本讲结构图文档评分布尔检索结果太少或太多对结果进行排序词项频率TF TF-IDF 布尔词项-文档计数矩阵词项-文档权重矩阵词项-文档关联矩阵布尔模型向量空间模型文档和查询均表示成向量，计算余弦相似度

信息检索与数据挖掘 2019/3/16 16 本讲提纲 1 回顾排序式检索 3 词项频率 tf-idf权重计算 ⑤向量空间模型

信息检索与数据挖掘 2019/3/16 16 本讲提纲 ❶ 回顾 ❷ 排序式检索 ❸ 词项频率 ❹ tf-idf权重计算 ❺ 向量空间模型

点击进入文档下载页（PDF格式）

共64页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）BitFunnel Revisiting Signatures for Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Beliefs and Biases in Web Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录