信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章向量模型及检索系统 一一第二讲检索系统
信息检索与数据挖掘 2019/3/16 1 信息检索与数据挖掘 第5章 向量模型及检索系统 ——第二讲 检索系统
信息检索与数据挖掘 2019/3/16 3 本讲提纲 ①上一讲回顾 结果排序的重要性 结果排序的实现 完整的搜索系统 3
信息检索与数据挖掘 2019/3/16 3 本讲提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 3
信息检索与数据挖掘 2019/3/16 4 提纲 ①上一讲回顾 2 结果排序的重要性 3 结果排序的实现 ④完整的搜索系统 g
信息检索与数据挖掘 2019/3/16 4 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 4
信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 布尔检索结果太 布尔模型 少或太多 布尔 词项-文档关联 矩阵 音 词项-文档计数 文档和 词项频率TF 查询均 评 矩阵 表示成 分 向量, 计算 TF-IDF 词项-文档权重 余弦 矩阵 相似度 对结果进行排序 向量空间模型
信息检索与数据挖掘 2019/3/16 5 回顾:从布尔模型到向量空间模型 文 档 评 分 布尔检索结果太 少或太多 对结果进行排序 词项频率TF TF-IDF 布尔 词项-文档计数 矩阵 词项-文档权重 矩阵 词项-文档关联 矩阵 布尔模型 向量空间模型 文档和 查询均 表示成 向量, 计算 余弦 相似度
信息检索与数据挖掘 2019/3/16 6 回顾:词项频率f 。t在d中的对数词频权重定义如下: (1+logiotft,a wEd=0 if tft.a> otherwise ·文档-词项的匹配得分 (1+logiotfi.a) 6
信息检索与数据挖掘 2019/3/16 6 回顾:词项频率tf • t 在 d 中的对数词频权重定义如下: • 文档-词项的匹配得分 6 𝑤𝑡,𝑑 = 1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑡∈𝑞∩𝑑 (1 + 𝑙𝑜𝑔10𝑡𝑓𝑡,𝑑)