当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统

❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统

文件格式：PDF，文件大小：4.5MB，售价：22.19元

文档详细内容（约96页）

信息检索与数据挖掘 2019/3/16 7 回顾：idf权重 ·df,是出现词项t的文档数目 ·df,是和词项t的信息量成反比的一个值 ·于是可以定义词项t的idf权重： N idf=og.） (其中W是文档集中文档的数目) ·idf,是反映词项t的信息量的一个指标逆文档频率：多个文档中都会出现的常见词、高频词idf较低；反之罕见词的idf高

信息检索与数据挖掘 2019/3/16 7 回顾：idf权重 • dft 是出现词项t的文档数目 • dft 是和词项t的信息量成反比的一个值 • 于是可以定义词项t的idf权重: (其中N 是文档集中文档的数目) • idft 是反映词项t的信息量的一个指标 7 逆文档频率：多个文档中都会出现的常见词、高频词idf较低；反之罕见词的idf高 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 8 ▣顾：f-idf权重。tf-idf权重 N wia=(1+lo)) ·tf-idf是信息检索中最著名的权重计算方法。tf-idf值随着词项在单个文档中出现次数增加而增大 ·tf-idf值随着词项在文档集中数目减少而增加某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF IDF倾向于过滤掉常见的词语，保留重要的词语。 8

信息检索与数据挖掘 2019/3/16 8 回顾：tf-idf权重 • tf-idf权重 • tf-idf 是信息检索中最著名的权重计算方法 • tf-idf值随着词项在单个文档中出现次数增加而增大 • tf-idf值随着词项在文档集中数目减少而增加 8 某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TFIDF倾向于过滤掉常见的词语，保留重要的词语。 𝑤𝑡,𝑑 = (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑) × 𝑙𝑜𝑔10( 𝑁 𝑑𝑓𝑡 )

信息检索与数据挖掘 2019/3/16 9 词袋模型(Bag of Words) 。不考虑词在文档中出现的顺序。“John is quicker than Mary”和“Mary is quicker than John”的表示结果一样 ·这就是词袋模型 ·TF、DF、IDF、TF-IDF都只考虑：词袋模型

信息检索与数据挖掘 2019/3/16 9 词袋模型（Bag of Words ） • 不考虑词在文档中出现的顺序 • “John is quicker than Mary ” 和“Mary is quicker than John ”的表示结果一样 • 这就是词袋模型 • TF、DF、IDF、TF-IDF都只考虑：词袋模型

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image Object Bag-of-words

信息检索与数据挖掘 2019/3/16 10 图像的特征 Bag-of-words representation for an image

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵 Anthony Julius The Hamlet( Othello Macbet and Caesar Tempest h.. Cleopatra ANTHONY 1 1 0 0 001 1 BRUTUS 1 1 0 1 0 CAESAR 1 1 0 1 1 CALPURNIA 0 1 0 0 0 0 CLEOPATRA 1 0 0 0 0 0 MERCY 1 0 1 1 1 1 WORSER 1 0 1 1 1 0 每篇文档表示成一个二值向量∈{0,1yM

信息检索与数据挖掘 2019/3/16 11 二值关联矩阵每篇文档表示成一个二值向量∈ {0, 1}|V| Anthony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbet h . . . ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER . . . 1 1 1 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 1 1 0 0 1 0 0 1 1 1 0 1 0 0 1 0

点击进入文档下载页（PDF格式）

共96页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）BitFunnel Revisiting Signatures for Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录