当前位置：和泉文库 > 计算机 > 浏览文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索模型 IRModel

信息检索模型的概述布尔模型向量空间模型(VSM) 扩展的布尔模型潜在语义索引模型(LSI) 概率模型基于统计语言模型的信息检索模型基于本体论的信息检索模型

文件格式：PDF，文件大小：566.23KB，售价：17.14元

文档详细内容（约81页）

向量空间模型实际上，这些词项是相互关联的 ·当你在一个文档中看到“计算机”，非常有可能同时看到“科学” ·当你在一个文档中看到“计算机”，有中等的可能性同时看到“商务” ■当你在一个文档中看到“商务”，只有很少的机会同时看到“科学

向量空间模型实际上，这些词项是相互关联的当你在一个文档中看到 “计算机 ” , 非常有可能同时看到 “科学 ” 当你在一个文档中看到 “计算机 ” , 有中等的可能性同时看到 “商务 ” 当你在一个文档中看到 “商务 ”，只有很少的机会同时看到 “科学

向量空间模型 ■2个索引项构成一个二维空间，一个文档可能包含0,1或2个索引项 ·d=〈0,0〉（一个索引项也不包含） ·d=(0,0.7〉（包含其中一个索引项） ·dk=〈1,2〉（包含两个索引项）类似的，3个索引项构成一个三维空间，个索引项构成n维空间一个文档或查询式可以表示为个元素的线性组合

向量空间模型 2个索引项构成一个二维空间，一个文档可能包含0, 1 或 2个索引项 di = 〈 0, 0 〉 (一个索引项也不包含 ) dj = 〈 0, 0.7 〉 (包含其中一个索引项 ) dk = 〈 1, 2 〉 (包含两个索引项 ) 类似的， 3个索引项构成一个三维空间， n个索引项构成 n维空间一个文档或查询式可以表示为 n个元素的线性组合

图示举例： D1=2T1+3T2+5T3 D2=3T1+7T2+T 5 Q=0T1+0T2+2T3 D,=2T+3T2+5T Q=0T,+0T2+2T 23 T D2=3T1+7T2+T3 ·D比D2更接近Q吗？怎样衡量相似程度？夹角还是投影

图示举例: D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 T3 T1 T2 D1 = 2T1+ 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 7 2 3 5 • D1比D2更接近Q吗？ • 怎样衡量相似程度？夹角还是投影

文档集一一般表示向量空间中的N个文档可以用一个矩阵表示 ■矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义，或该词项不在文档中出现。 TT2 T D du dn D2 d21d22 da Dn dnl dn2 dnt

文档集 – 一般表示向量空间中的N个文档可以用一个矩阵表示矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义，或该词项不在文档中出现。 T1 T2 …. Tt D1 d11 d12 … d1t D2 d21 d22 … d2t : : : : : : : : Dn dn1 dn2 … dnt

相似度计算相似度是一个函数，它给出两个向量之间的相似程度 ·查询式和文档都是向量，各类相似度存在于：。两个文档之间。两个查询式之间 ▣一个查询式和一个文档之间 ■人们曾提出大量的相似度计算方法，因为最佳的相似度计算方法并不存在。 ■通过计算查询式和文档之间的相似度，可以：。可以根据预定的重要程度对检索出来的文档进行排序 ·通过强制设定某个阈值，控制被检索出来的文档的数量检索结果可以被用于相关反馈中，以便对原始的查询式进行修正。（例如：将文档向量和查询式向量进行结合）

相似度计算相似度是一个函数，它给出两个向量之间的相似程度查询式和文档都是向量，各类相似度存在于：两个文档之间两个查询式之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法，因为最佳的相似度计算方法并不存在。通过计算查询式和文档之间的相似度，可以：可以根据预定的重要程度对检索出来的文档进行排序通过强制设定某个阈值，控制被检索出来的文档的数量检索结果可以被用于相关反馈中，以便对原始的查询式进行修正。 (例如：将文档向量和查询式向量进行结合)

点击进入文档下载页（PDF格式）

共81页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息过滤（主讲：刘挺）
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）文本分类 Text Categorization（主讲：刘挺）
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Essential Background
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Retrieval Models
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Crawling the Web
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Web Search
北京大学：《信息检索》课程教学资源（PPT课件讲稿）Course Overview（主讲：闫宏飞）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 01 Introdution（主讲：吉建民）
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 15 智能机器人系统介绍
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 14 Reinforcement Learning
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 13 神经网络与深度学习
中国科学技术大学：《人工智能基础》课程教学资源（课件讲稿）Lecture 09 AI Planning
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）信息检索概述
哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine
《统计自然语言处理》课程教学资源（PPT课件讲稿）第7章汉语自动分词与词性标注
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）01 Introduction（主讲：彭波）The CCF Advanced Disciplines Lectures
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）02 Link Analysis
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）03 Web Spam
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）04 Recommendation System
北京大学：《信息检索》课程PPT课件讲稿（自然语言处理）05 Infrastructure and Cloud
河南科技学院：信息工程学院本科课程教学大纲汇编（计算机科学与技术专业）
广东茂名农林科技职业学院：计算机网络技术人才培养方案（2020级）
广东茂名农林科技职业学院：计算机网络技术专业人才培养方案（2021级）
广东茂名农林科技职业学院：动漫制作技术专业人才培养方案（2020级）

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录