信息检索与数据挖掘 2019/3/31 11 回顾:信息检索模型之经典模型 集合论模型(Set Theoretic models) ·布尔模型(Boolean Model,.BM)、模糊集合模型、扩展 布尔模型 .代数模型(Algebraic models) 。 向量空间模型(Vector Space Model,VSM)、广义向量 空间模型、潜在语义标引模型、神经网络模型 ·概率模型(Probabilistic models) 。经典概率论模型 (PM)、推理网络模型、置信网络模型 Robertson Salton 概率模型 向量模型 布尔模型 1968 1976 概率检索模型是通过概率的方法将查询和文档联系起来
信息检索与数据挖掘 2019/3/31 11 回顾:信息检索模型之经典模型 • 集合论模型 (Set Theoretic models) • 布尔模型( Boolean Model, BM)、模糊集合模型、扩展 布尔模型 • 代数模型 (Algebraic models) • 向量空间模型(Vector Space Model, VSM)、广义向量 空间模型、潜在语义标引模型、神经网络模型 • 概率模型 (Probabilistic models) • 经典概率论模型(PM)、推理网络模型、置信网络模型 概率检索模型是通过概率的方法将查询和文档联系起来
信息检索与数据挖掘 2019/3/3113 本讲内容 •概率基础知识 •概率排序原理 ·二元假设检验与概率排序原理 。概率排序的实现方式 BIM模型 ·二值独立概率模型BIM ·BIM排序函数的推导 ·RSV的估算方法 ·BM25模型
信息检索与数据挖掘 2019/3/31 13 本讲内容 • 概率基础知识 • 概率排序原理 • 二元假设检验与概率排序原理 • 概率排序的实现方式 • BIM模型 • 二值独立概率模型BIM • BIM排序函数的推导 • RSV的估算方法 • BM25模型
信息检索与数据挖掘 2019/3/31 14 古之所谓善战者,胜于易胜者也 ·随机试验:可在相同条件下重复进行;试验可能结果不止 一个,但能确定所有的可能结果;一次试验之前无法确定 具体是哪种结果出现。 ·掷一颗骰子,考虑可能出现的点数 ·随机事件:随机试验中可能出现或可能不出现的情况 ·掷一颗骰子,4点朝上 ·概率:事件A的概率是指事件A发生的可能性,记为P(A) ·掷一颗骰子,出现6点的概率为多少? ·条件概率:已知事件A发生的条件下,事件B发生的概率称 为A条件下B的条件概率,记作P(BA) ·30颗红球和40颗黑球放在一块,请问第一次抽取为红球的情况下第 二次抽取黑球的概率?
信息检索与数据挖掘 2019/3/31 14 古之所谓善战者,胜于易胜者也 • 随机试验:可在相同条件下重复进行;试验可能结果不止 一个,但能确定所有的可能结果;一次试验之前无法确定 具体是哪种结果出现。 • 掷一颗骰子,考虑可能出现的点数 • 随机事件:随机试验中可能出现或可能不出现的情况 • 掷一颗骰子,4点朝上 • 概率:事件A的概率是指事件A发生的可能性,记为P(A) • 掷一颗骰子,出现6点的概率为多少? • 条件概率:已知事件A发生的条件下,事件B发生的概率称 为A条件下B的条件概率,记作P(B|A) • 30颗红球和40颗黑球放在一块,请问第一次抽取为红球的情况下第 二次抽取黑球的概率?
信息检索与数据挖掘 2019/3/31 15 关于事件 ·必然事件 例1下列成语所描述的事件是必然事件的是( A.水中捞月 B.揠苗助长C.守株待兔D瓮中捉鳖 ·随机事件 例2下列成语所描述的事件是随机事件的是( A.长生不老B.树倒糊狲散 C.八九不离十D.海枯石烂 ·不可能事件 例3有下列成语:十拿九稳,刻舟求剑,三头六臂,大海捞针其中 描述的是不可能事件的有 Source:《中学生数理化》七年级数学,2009
信息检索与数据挖掘 2019/3/31 15 关于事件 • 必然事件 • 随机事件 • 不可能事件 Source:《中学生数理化》七年级数学,2009
信息检索与数据挖掘 2019/3/31 16 从概率论角度看“胜者表” ①对于词典中的每个词项,预先计算出r个最高 权重的文档(t的胜者表) ②给定查询q,对查询q中所有词项的胜者表求并 集,并可以生成集合A .③根据余弦相似度大小从A中选取前topK个文档 查询q中出现的词项如果在文档d中频度高, 则文档d与查询q相关的概率可能大些
信息检索与数据挖掘 2019/3/31 16 从概率论角度看“胜者表” • ① 对于词典中的每个词项t,预先计算出r 个最高 权重的文档( t 的胜者表) • ②给定查询 q,对查询q 中所有词项的胜者表求并 集,并可以生成集合A • ③根据余弦相似度大小从A中选取前top K 个文档 查询q中出现的词项如果在文档d中频度高, 则文档d与查询q相关的概率可能大些