当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统

❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统

文件格式：PDF，文件大小：4.5MB，售价：22.19元

文档详细内容（约96页）

信息检索与数据挖掘 2019/3/16 17 文档长度的回转归一化。基于欧氏长度将每个文档向量归一化成单位向量，这样做会丢失原始的文档长度信息，也可能会隐藏长文档的一些细微性质：第一，由于长文档包含更多的词项数目，因此长文档中词项的频率tf可能更高；第二，长文档可能包含更多的不同词项，即词汇量可能更大。这些因素会提高长文档的评分结果，这至少对某些信息需求来说是很不正常的。可以将相关概率(probability of relevance )看成文档长度的函数。相关性余弦归一化得到的计算结果的相关度和真实的相关度之间存在着差异。回转文档长度归一化的思路是，将余弦归一化结果曲线以p点为轴逆时针旋转，使之能够和真实的基于文档长度的相关度曲线高度吻合。文档长度 Ep 图6-16回转文档长度归一化 17

信息检索与数据挖掘 2019/3/16 17 文档长度的回转归一化 • 基于欧氏长度将每个文档向量归一化成单位向量，这样做会丢失原始的文档长度信息，也可能会隐藏长文档的一些细微性质：第一，由于长文档包含更多的词项数目，因此长文档中词项的频率tf 可能更高；第二，长文档可能包含更多的不同词项，即词汇量可能更大。这些因素会提高长文档的评分结果，这至少对某些信息需求来说是很不正常的。 17 可以将相关概率（probability of relevance ）看成文档长度的函数。余弦归一化得到的计算结果的相关度和真实的相关度之间存在着差异。回转文档长度归一化的思路是，将余弦归一化结果曲线以p 点为轴逆时针旋转，使之能够和真实的基于文档长度的相关度曲线高度吻合

信息检索与数据挖掘 2019/3/16 18 文档权重和query权重(p89) ·不同检索系统中的权重机制并不相同 ·SMART:标记：即对于每种不同的权重计算方法采用不同的标记。文档向量和query向量权重计算方法的组合字母表示为ddd.qgg 例如：lnc.Itn ·文档：对数tf,无idf因子，余弦长度归一化 ·查询：对数tf,idf,无归一化

信息检索与数据挖掘 2019/3/16 18 文档权重和query权重（p89） • 不同检索系统中的权重机制并不相同 • SMART标记：即对于每种不同的权重计算方法采用不同的标记。文档向量和query向量权重计算方法的组合字母表示为ddd.qqq •例如: lnc.ltn • 文档: 对数tf，无idf因子，余弦长度归一化 • 查询: 对数tf，idf，无归一化

信息检索与数据挖掘 2019/3/16 19 回顾：f-idf权重机制变形 Term frequency Document frequency Normalization n (natural) tft,d n (no) 1 n (none) 1 I(logarithm) 1+log(tfr.d) t(idf) log c(cosine) 1 Vwj+w+...+wu a (augmented) 0.5+05xtfg maxt(tf:.d) P(prob idf)max(0,logN) u (pivoted 1/u unique) b(boolean) if tft.d> b(byte size) 1/CharLength, otherwise <1 L (log ave) 1+log(tft,d） 1+log(avetsd(tf::.d】例如：Inc.Itn 文档：对数tf,无idf因子，余弦长度归一化查询：对数tf,idf,无归一化 19

信息检索与数据挖掘 2019/3/16 19 回顾：tf-idf 权重机制变形 19 例如: lnc.ltn 文档: 对数tf，无idf因子，余弦长度归一化查询: 对数tf，idf，无归一化

信息检索与数据挖掘 2019/3/16 20 Inc.ltc举例（p86) 。文档：car insurance auto insurance Query:best car insurance 词项查询文档内积 tf- f df idf wt n'lize tf- tf-wt wt n'lize raw wt raw auto 0 5000 2.3 0 0 1 1 1 0.52 0 best 1 50000 1.3 1.3 0.34 0 0 0 0 0 car 1 1 10000 2.0 2.0 0.52 1 1 1 0.52 0.27 insurance 1000 3.0 3.0 0.78 2 1.3 1.3 0.68 0.53 ·tf-raw:未计算权重的词项频率文档长度=V12+02+12+1.32≈1.92 ·tf-wt:采用了对数计算方法的词项频率。n'Iize:归一化后的权重 Score=0+0+0.27+0.53=0.8

信息检索与数据挖掘 2019/3/16 20 Inc.ltc举例（p86） • 文档：car insurance auto insurance • Query：best car insurance • tf-raw:未计算权重的词项频率 • tf-wt :采用了对数计算方法的词项频率 • n'lize：归一化后的权重文档长度=  1 2  0 2 1 2 1.3 2 1.92 Score = 0+0+0.27+0.53 = 0.8 词项查询文档内积 tfraw tfwt df idf wt n’lize tfraw tf-wt wt n’lize auto 0 0 5000 2.3 0 0 1 1 1 0.52 0 best 1 1 50000 1.3 1.3 0.34 0 0 0 0 0 car 1 1 10000 2.0 2.0 0.52 1 1 1 0.52 0.27 insurance 1 1 1000 3.0 3.0 0.78 2 1.3 1.3 0.68 0.53

信息检索与数据挖掘 2019/3/16 21 提纲 ①上一讲回顾 2结果排序的重要性结果排序的实现 ④完整的搜索系统 21

信息检索与数据挖掘 2019/3/16 21 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 21

点击进入文档下载页（PDF格式）

共96页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）BitFunnel Revisiting Signatures for Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录