中国斜学我术大草 University of Science and Technology of China QuickScorer:a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees Claudio Lucchese,Franco Maria Nardini,Salvatore Orlando,Raffaele Perego,... 学号:SA18006079 报告人:魏晓东 育创 天寰 辰 宇 题 才府
QuickScorer: a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees 学号: SA18006079 报告人: 魏晓东 Claudio Lucchese, Franco Maria Nardini, Salvatore Orlando, Raffaele Perego,…
中国斜学我术大草 University of Science and Technology of China 文章背景: 2015年SIGIR(Information Retrieval)最佳论文奖 截至19年5月20日,google scholari引用率39次 Claudio Lucchese,Associate Professor,Ca'Foscari University of Venice,Italy 数据挖掘, 340 255 育創 170 85 下 學 2007200820092010201120122013201420152016201720182019 0 题 才
文章背景: 2015年 SIGIR (Information Retrieval)最佳论文奖 截至19年5月20日,google scholar引用率39次 作者:Claudio Lucchese,Associate Professor, Ca' Foscari University of Venice,Italy 数据挖掘
中国斜学我术大草 University of Science and Technology of China 文章结构: 背景与问题 相关工作 且录 QuickScorer?算法 实验结果 总结 育创 天 寰 辰 宇 英學 题 才府
文章结构 : 目录 背景与问题 相关工作 QuickScorer算法 实验结果 总结
中国斜学我术大草 University of Science and Technology of China 背景介纽 1.Learning to Rank(LtR):机器学习排序.在IR系统中,给定(Q,D),通过机器学 习的方式,度量查询和候选文档集合之间的相似度(Score)并进行排序过程 2.排序器中Scorer)原理:Gradient-BoostedRegression Trees(GBRT),Lambda- MART(-MART).都属于基于多颗回归树的集成模型.利用均方误差的负梯 度在当前模型的值作为残差的近似值,从而拟合一个回归树. 3.Scorer模型规模:模型中树的个数:数千,特征数量:数百,叶节点个数:数十. 在每颗树T=(N,L)中,中间node(N)存储特征id,门限等,leaves(L)存储Score. 育剑 TI-I 寰 s(x)= ∑ wh·eh(x).val 感 宇 h=0 题 才府
背景介绍: 1.Learning to Rank(LtR):机器学习排序 . 在IR系统中,给定(Q,D),通过机器学 习的方式,度量查询和候选文档集合之间的相似度(Score)并进行排序过程. 2.排序器中Scorer原理: Gradient-BoostedRegression Trees(GBRT) , LambdaMART(λ-MART) .都属于基于多颗回归树的集成模型.利用均方误差的负梯 度在当前模型的值作为残差的近似值,从而拟合一个回归树. 3.Scorer模型规模:模型中树的个数:数千, 特征数量:数百 ,叶节点个数:数十. 在每颗树T= (N,L)中,中间node(N)存储特征id,门限等,leaves(L)存储Score
中国斜学我术大草 University of Science and Technology of China 存在的问题: 1.树的查询过程只有判断当前节点才能知道下一节点指向,导致程序运行 的控制冲突(control hazard).代码效率依赖于分支预测率. 2.Scoreri过程中空间时间占用都低,Cache命中率低.在模型中存在数千颗 树,而每一颗树规模较小,Scorer过程中依次遍历每一颗树查询得分,导致 Cache命中率低. QS算法 1.基于数据结构布置和内存访问模式设计的可感知cache,编码控制flow达 到了非常低的分支误预测率. 育创 2.基于bt位的回归树,通过逻辑与运算同时遍历多棵树 辰 下 宇 英學 题 才府
存在的问题: 1.树的查询过程只有判断当前节点才能知道下一节点指向,导致程序运行 的控制冲突(control hazard). 代码效率依赖于分支预测率. 2.Scorer过程中空间时间占用都低,Cache命中率低. 在模型中存在数千颗 树,而每一颗树规模较小,Scorer过程中依次遍历每一颗树查询得分,导致 Cache命中率低. QS算法: 1.基于数据结构布置和内存访问模式设计的可感知cache,编码控制flow达 到了非常低的分支误预测率. 2.基于bit位的回归树,通过逻辑与运算同时遍历多棵树