信息检索与数据挖掘 2019/4/713 由一元语言模型产生一个文档d的概率? 词的多项式分布 ·一元语言模型会给有序的词项序列赋予概率。当然 ,这些词项按照其他次序出现的概率也等于这个概 率。因此,实际上这相当于词项存在一个多项式分 布。我们也可以将上述模型称为多项式模型。 P(d)= 场.P%mu La! La=∑1<i≤Mtf,d是文档的长度(即词条的总个数) M是词项词典的大小 P(X1=x1,,Xk=x)= when ∑1x=n 0 otherwise. 多项式分布的概率公式
信息检索与数据挖掘 2019/4/7 13 由一元语言模型产生一个文档d的概率? 词的多项式分布 • 一元语言模型会给有序的词项序列赋予概率。当然 ,这些词项按照其他次序出现的概率也等于这个概 率。因此,实际上这相当于词项存在一个多项式分 布。我们也可以将上述模型称为多项式模型。 是文档的长度(即词条的总个数) M是词项词典的大小 多项式分布的概率公式
信息检索与数据挖掘 2019/41714 怎样由文档生成语言模型?←M的估计 ·问题:已知样本D,求其模型MD的参数P(wMD)。 ·对于该参数估计问题,可以采用最大似然估计 (Maximum Likelihood Estimation,MLE) ·MLE:使得观察样本出现概率(似然)最大的估计。 。一射击世界冠军和一菜鸟打靶,其中一人放一枪得到10 环,请问是谁打的?显然世界冠军打的可能性大,也就 是说这是使得10环这个事件出现概率最大的估计
信息检索与数据挖掘 2019/4/7 14 怎样由文档生成语言模型?MD的估计 • 问题:已知样本D,求其模型MD的参数P(w|MD ) 。 • 对于该参数估计问题,可以采用最大似然估计 (Maximum Likelihood Estimation,MLE)。 • MLE:使得观察样本出现概率(似然)最大的估计。 • 一射击世界冠军和一菜鸟打靶,其中一人放一枪得到10 环,请问是谁打的?显然世界冠军打的可能性大,也就 是说这是使得10环这个事件出现概率最大的估计
信息检索与数据挖掘 2019/4/715 Mp的MLE估计 ·设词项词典大小为L,则模型M,的参数可以记为: 0。=(0,02,,02) =(P(w M),P(w,M),...,P(w:M)) ·MLE估计: p=arg max P(Dp) ·关键是如何求P(D日),也就是说假设这些参数未 知的情况下,如何求上述概率
信息检索与数据挖掘 2019/4/7 15 MD的MLE估计 • 设词项词典大小为L,则模型MD的参数可以记为: • MLE估计: • 关键是如何求 ,也就是说假设这些参数未 知的情况下,如何求上述概率
信息检索与数据挖掘 2019/4/716 文本生成的多项式模型 ·有一个L个面的不规则骰子,在第个面上写着w:,文档 D=dd.dn可以认为是抛n次骰子得到的 ·检索过程就是根据观察样本D的估计Q的生成概率,即在已 知抛n次的结果为文档D的条件下,抛m次的结果为查询Q 的概率P(QMD)=? ·D三(Cw1,D),C(w2,D),,C(wL,D),c(w,D)是文档D中w的出 现次数 ·D=我喜欢基于统计语言模型的信息检索模型 ·D=(<我,1>,<喜欢,1>,<基于,1>,<统计,1>,<语言,1>,<模型 ,2>,<的,1>,<信息,1>,<检索,1>)
信息检索与数据挖掘 2019/4/7 16 文本生成的多项式模型 • 有一个L个面的不规则骰子,在第i个面上写着wi,,文档 D=d1d2…dn可以认为是抛n次骰子得到的 • 检索过程就是根据观察样本D的估计Q的生成概率,即在已 知抛n次的结果为文档D的条件下,抛m次的结果为查询Q 的概率P(Q|MD )=? • D = (c(w1 ,D),c(w2 ,D),…,c(wL ,D)), c(wi ,D)是文档D中wi的出 现次数 • D = 我 喜欢 基于 统计 语言 模型 的 信息 检索 模型 • D = (<我,1>,<喜欢,1>,<基于,1>,<统计,1>,<语言,1>, <模型 ,2>,<的,1>,<信息,1>,<检索,1>)
信息检索与数据挖掘 2019/41717 MD的参数求解 a。=argmax P(D|a,)=argmaxnΠ Qc(.b) ·求解 ep (w,D)! a-1 p…p when ∑1=n 多资天芬布的概翠公武和 otherwise. ·条件极值问题,采用拉格朗日法求解,得到拉格朗 日函数: 4=+0-空8 i-1 ·对每个0求偏导,令其为0,解得: 日=Pa(wMo)= c(w;,D)c(w;,D) Ec(w.D) D
信息检索与数据挖掘 2019/4/7 17 • 求解 • 条件极值问题,采用拉格朗日法求解,得到拉格朗 日函数: • 对每个θi求偏导,令其为0,解得: MD的参数求解