当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）QuickScorer a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees

文件格式：PDF，文件大小：1.13MB，售价：4.16元

文档详细内容（约14页）

中国斜学我术大草 University of Science and Technology of China QuickScorer:a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees Claudio Lucchese,Franco Maria Nardini,Salvatore Orlando,Raffaele Perego,... 学号：SA18006079 报告人：魏晓东育创天寰辰宇题才府

QuickScorer: a Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees 学号: SA18006079 报告人: 魏晓东 Claudio Lucchese, Franco Maria Nardini, Salvatore Orlando, Raffaele Perego,…

中国斜学我术大草 University of Science and Technology of China 文章背景： 2015年SIGIR(Information Retrieval)最佳论文奖截至19年5月20日，google scholari引用率39次 Claudio Lucchese,Associate Professor,Ca'Foscari University of Venice,Italy 数据挖掘， 340 255 育創 170 85 下學 2007200820092010201120122013201420152016201720182019 0 题才

文章背景: 2015年 SIGIR (Information Retrieval)最佳论文奖截至19年5月20日,google scholar引用率39次作者:Claudio Lucchese,Associate Professor, Ca' Foscari University of Venice,Italy 数据挖掘

中国斜学我术大草 University of Science and Technology of China 文章结构：背景与问题相关工作且录 QuickScorer?算法实验结果总结育创天寰辰宇英學题才府

文章结构 : 目录背景与问题相关工作 QuickScorer算法实验结果总结

中国斜学我术大草 University of Science and Technology of China 背景介纽 1.Learning to Rank(LtR):机器学习排序.在IR系统中，给定(Q,D),通过机器学习的方式，度量查询和候选文档集合之间的相似度(Score)并进行排序过程 2.排序器中Scorer)原理：Gradient-BoostedRegression Trees(GBRT),Lambda- MART(-MART).都属于基于多颗回归树的集成模型.利用均方误差的负梯度在当前模型的值作为残差的近似值，从而拟合一个回归树. 3.Scorer模型规模：模型中树的个数：数千，特征数量：数百，叶节点个数：数十. 在每颗树T=(N,L)中，中间node(N)存储特征id,门限等，leaves(L)存储Score. 育剑 TI-I 寰 s(x)= ∑ wh·eh(x).val 感宇 h=0 题才府

背景介绍: 1.Learning to Rank(LtR):机器学习排序 . 在IR系统中,给定(Q,D),通过机器学习的方式,度量查询和候选文档集合之间的相似度(Score)并进行排序过程. 2.排序器中Scorer原理: Gradient-BoostedRegression Trees(GBRT) , LambdaMART(λ-MART) .都属于基于多颗回归树的集成模型.利用均方误差的负梯度在当前模型的值作为残差的近似值，从而拟合一个回归树. 3.Scorer模型规模:模型中树的个数:数千, 特征数量:数百 ,叶节点个数:数十. 在每颗树T= (N,L)中,中间node(N)存储特征id,门限等,leaves(L)存储Score

中国斜学我术大草 University of Science and Technology of China 存在的问题： 1.树的查询过程只有判断当前节点才能知道下一节点指向，导致程序运行的控制冲突(control hazard).代码效率依赖于分支预测率. 2.Scoreri过程中空间时间占用都低，Cache命中率低.在模型中存在数千颗树，而每一颗树规模较小，Scorer过程中依次遍历每一颗树查询得分，导致 Cache命中率低. QS算法 1.基于数据结构布置和内存访问模式设计的可感知cache,编码控制flow达到了非常低的分支误预测率. 育创 2.基于bt位的回归树，通过逻辑与运算同时遍历多棵树辰下宇英學题才府

存在的问题: 1.树的查询过程只有判断当前节点才能知道下一节点指向,导致程序运行的控制冲突(control hazard). 代码效率依赖于分支预测率. 2.Scorer过程中空间时间占用都低,Cache命中率低. 在模型中存在数千颗树,而每一颗树规模较小,Scorer过程中依次遍历每一颗树查询得分,导致 Cache命中率低. QS算法: 1.基于数据结构布置和内存访问模式设计的可感知cache,编码控制flow达到了非常低的分支误预测率. 2.基于bit位的回归树,通过逻辑与运算同时遍历多棵树

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Neural Ordinary Differential Equations
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Memory - Augmented Monte Carlo Tree Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）FOTS - Fast oriented Text Spotting with a Unified Network
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）BitFunnel Revisiting Signatures for Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Beliefs and Biases in Web Search
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）Accelerating Innovation Through Analogy Mining
厦门大学：《智能语音技术》课程教学资源（PPT课件讲稿）第2章语音信号基础（洪青阳）
大连民族大学（大连民族学院）：《工程管理信息系统》课程教学资源（PPT课件讲稿）第二章工程管理信息系统的开发
《现代音响与调音技术》课程教学资源（PPT课件讲稿）第2章传声器
华中农业大学：《信息检索与利用》课程教学资源（PPT课件讲稿）第一章信息资源与信息素养概述（主讲：宛章齐）
房地产投资决策信息系统的开发（PPT课件讲稿）
国家科技基础条件资源调查管理信息系统（PPT讲稿）系统操作培训
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（研讨汇报）SSD Single Shot MultiBox Detector
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录