信息检索与数据挖掘 2019/3/16 17 文档长度的回转归一化 。 基于欧氏长度将每个文档向量归一化成单位向量,这样做 会丢失原始的文档长度信息,也可能会隐藏长文档的一些 细微性质:第一,由于长文档包含更多的词项数目,因此 长文档中词项的频率tf可能更高;第二,长文档可能包含 更多的不同词项,即词汇量可能更大。这些因素会提高长 文档的评分结果,这至少对某些信息需求来说是很不正常 的。 可以将相关概率(probability of relevance )看成文档长度的函数。 相关性 余弦归一化得到的计算结果的相关度和真实的 相关度之间存在着差异。回转文档长度归一化 的思路是,将余弦归一化结果曲线以p点为轴 逆时针旋转,使之能够和真实的基于文档长度 的相关度曲线高度吻合。 文档长度 Ep 图6-16回转文档长度归一化 17
信息检索与数据挖掘 2019/3/16 17 文档长度的回转归一化 • 基于欧氏长度将每个文档向量归一化成单位向量,这样做 会丢失原始的文档长度信息,也可能会隐藏长文档的一些 细微性质:第一,由于长文档包含更多的词项数目,因此 长文档中词项的频率tf 可能更高;第二,长文档可能包含 更多的不同词项,即词汇量可能更大。这些因素会提高长 文档的评分结果,这至少对某些信息需求来说是很不正常 的。 17 可以将相关概率(probability of relevance )看成文档长度的函数。 余弦归一化得到的计算结果的相关度和真实的 相关度之间存在着差异。回转文档长度归一化 的思路是,将余弦归一化结果曲线以p 点为轴 逆时针旋转,使之能够和真实的基于文档长度 的相关度曲线高度吻合
信息检索与数据挖掘 2019/3/16 18 文档权重和query权重(p89) ·不同检索系统中的权重机制并不相同 ·SMART:标记:即对于每种不同的权重计算方法采用 不同的标记。文档向量和query向量权重计算方法 的组合字母表示为ddd.qgg 例如:lnc.Itn ·文档:对数tf,无idf因子,余弦长度归一化 ·查询:对数tf,idf,无归一化
信息检索与数据挖掘 2019/3/16 18 文档权重和query权重(p89) • 不同检索系统中的权重机制并不相同 • SMART标记:即对于每种不同的权重计算方法采用 不同的标记。文档向量和query向量权重计算方法 的组合字母表示为ddd.qqq •例如: lnc.ltn • 文档: 对数tf,无idf因子,余弦长度归一化 • 查询: 对数tf,idf,无归一化
信息检索与数据挖掘 2019/3/16 19 回顾:f-idf权重机制变形 Term frequency Document frequency Normalization n (natural) tft,d n (no) 1 n (none) 1 I(logarithm) 1+log(tfr.d) t(idf) log c(cosine) 1 Vwj+w+...+wu a (augmented) 0.5+05xtfg maxt(tf:.d) P(prob idf)max(0,logN) u (pivoted 1/u unique) b(boolean) if tft.d> b(byte size) 1/CharLength, otherwise <1 L (log ave) 1+log(tft,d) 1+log(avetsd(tf::.d】 例如:Inc.Itn 文档:对数tf,无idf因子,余弦长度归一化 查询:对数tf,idf,无归一化 19
信息检索与数据挖掘 2019/3/16 19 回顾:tf-idf 权重机制变形 19 例如: lnc.ltn 文档: 对数tf,无idf因子,余弦长度归一化 查询: 对数tf,idf,无归一化
信息检索与数据挖掘 2019/3/16 20 Inc.ltc举例(p86) 。文档:car insurance auto insurance Query:best car insurance 词项 查询 文档 内积 tf- f df idf wt n'lize tf- tf-wt wt n'lize raw wt raw auto 0 5000 2.3 0 0 1 1 1 0.52 0 best 1 50000 1.3 1.3 0.34 0 0 0 0 0 car 1 1 10000 2.0 2.0 0.52 1 1 1 0.52 0.27 insurance 1000 3.0 3.0 0.78 2 1.3 1.3 0.68 0.53 ·tf-raw:未计算权重的词项频率 文档长度=V12+02+12+1.32≈1.92 ·tf-wt:采用了对数计算方法的词项频率 。n'Iize:归一化后的权重 Score=0+0+0.27+0.53=0.8
信息检索与数据挖掘 2019/3/16 20 Inc.ltc举例(p86) • 文档:car insurance auto insurance • Query:best car insurance • tf-raw:未计算权重的词项频率 • tf-wt :采用了对数计算方法的词项频率 • n'lize:归一化后的权重 文档长度= 1 2 0 2 1 2 1.3 2 1.92 Score = 0+0+0.27+0.53 = 0.8 词项 查询 文档 内积 tfraw tfwt df idf wt n’lize tfraw tf-wt wt n’lize auto 0 0 5000 2.3 0 0 1 1 1 0.52 0 best 1 1 50000 1.3 1.3 0.34 0 0 0 0 0 car 1 1 10000 2.0 2.0 0.52 1 1 1 0.52 0.27 insurance 1 1 1000 3.0 3.0 0.78 2 1.3 1.3 0.68 0.53
信息检索与数据挖掘 2019/3/16 21 提纲 ①上一讲回顾 2结果排序的重要性 结果排序的实现 ④完整的搜索系统 21
信息检索与数据挖掘 2019/3/16 21 提纲 ❶ 上一讲回顾 ❷ 结果排序的重要性 ❸ 结果排序的实现 ❹ 完整的搜索系统 21