《工程科学学报》录用稿,htps:/doi.org/10.13374/i,issn2095-9389.2021.03.23.002©北京科技大学2020 工程科学学报 DOI: 基于深度神经网络的点击率预测模型 刘弘历,武森,魏桂英,李新,高晓楠 1)北京科技大学经济管理学院,北京100083 ☒通信作者,E-mail:weigy@manage.ustb.edu.cn 摘要针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题, 提出长短期兴趣网络(Long and Short Term Interests Network,LSTIN)模型,充分利角用户历史记录上下文信息和顺 序信息,提升点击率预测精准性和训练效率。使用基于注意力机制的Transformer和激活单元结构完成用户长、短期 兴趣建模,对用户短期兴趣进一步使用RNN、CNN进行处理,最后使用全连接神经网络进行预测。在亚马逊公开 数据集上开展实验,将提出的模型与DeepFM、Deep Interest Network(DN等点击案预测模型对比,结果表明提出的 模型实现了考虑上下文信息和顺序信息的用户历史记录建模,AUC指标为83831%,对比BaseModel相对提升 1.154%,对比DN相对提升0.476%。且因区分用户长、短期兴趣 侯型能够在提升预测精准性的同时保障训练效 率。 关键词点击率预测:长短期兴趣网络:深度神经网络: 注 循环神经网络:卷积神经网络 分类号TP183 A CTR Prediction Model Based on Deep Neural Network LIU Hong-li,WU Sen,WEI Gui-ying,LI Xin,GAO Xiao-nan 1)School of Economics and Management,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:weigy@ tb.edu.cn ABSTRACT The Click-Through-Rate(CTR)prediction task is to estimate the probability that a user will click on an item according to the features of user item and contexts.At present,CTR prediction has become a common and indispensable task in the filed of e-commerce,higher accuracy of CTR prediction results conduce to present more accurate and personalized results for recommendation systems and search engines,so as to increase users'actual CTR of items and bring more economic benefits More and more researchers used Deep Neural Network (DNN)to solve the CTR prediction problem under the background of big data technology in recent years.However,there are few models that can process time series data and fully consider the context information of users'history effectively and efficiently.CTR prediction models based on DNN learn users'interest from their history,but most of the existing models regard interest of a user as a whole,ignoring the differences between long-term and short-term interest.This paper proposes a CTR prediction model named Long and Short Term Interest Network(LSTIN)to make full use of the context information and order information of user history records,in order to improve the accuracy and training efficiency of CTR prediction model.Based on attention mechanism Transformer and activation unit structure are used to model long-term and short-term user interests.The latter is processed by RNN and CNN further.Eventually,a fully-connected neural network is applied for prediction.Different from DeepFM and Deep Interest Network(DIN)in experiments on Amazon public dataset,LSTIN achieves a modeling with context and order 基金项目:国家自然科学基金资助项目(71971025)
工程科学学报 DOI: 基于深度神经网络的点击率预测模型 刘弘历,武 森,魏桂英,李 新,高晓楠1 1) 北京科技大学经济管理学院,北京 100083 通信作者,E-mail: weigy@manage.ustb.edu.cn 摘 要 针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题 , 提出长短期兴趣网络(Long and Short Term Interests Network, LSTIN)模型,充分利用用户历史记录上下文信息和顺 序信息,提升点击率预测精准性和训练效率。使用基于注意力机制的 Transformer 和激活单元结构完成用户长、短期 兴趣建模,对用户短期兴趣进一步使用 RNN、CNN 进行处理,最后使用全连接神经网络进行预测。在亚马逊公开 数据集上开展实验,将提出的模型与 DeepFM、Deep Interest Network(DIN)等点击率预测模型对比,结果表明提出的 模型实现了考虑上下文信息和顺序信息的用户历史记录建模, AUC 指标为 85.831%,对比 BaseModel 相对提升 1.154%,对比 DIN 相对提升 0.476%。且因区分用户长、短期兴趣,模型能够在提升预测精准性的同时保障训练效 率。 关键词 点击率预测;长短期兴趣网络;深度神经网络;注意力机制;循环神经网络;卷积神经网络 分类号 TP183 A CTR Prediction Model Based on Deep Neural Network LIU Hong-li, WU Sen, WEI Gui-ying, LI Xin, GAO Xiao-nan 1) School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China Corresponding author, E-mail: weigy@manage.ustb.edu.cn ABSTRACT The Click-Through-Rate(CTR) prediction task is to estimate the probability that a user will click on an item according to the features of user, item and contexts. At present, CTR prediction has become a common and indispensable task in the filed of e-commerce, higher accuracy of CTR prediction results conduce to present more accurate and personalized results for recommendation systems and search engines, so as to increase users' actual CTR of items and bring more economic benefits. More and more researchers used Deep Neural Network (DNN) to solve the CTR prediction problem under the background of big data technology in recent years. However, there are few models that can process time series data and fully consider the context information of users’ history effectively and efficiently. CTR prediction models based on DNN learn users’ interest from their history, but most of the existing models regard interest of a user as a whole, ignoring the differences between long-term and short-term interest. This paper proposes a CTR prediction model named Long and Short Term Interest Network (LSTIN) to make full use of the context information and order information of user history records, in order to improve the accuracy and training efficiency of CTR prediction model. Based on attention mechanism Transformer and activation unit structure are used to model long-term and short-term user interests. The latter is processed by RNN and CNN further. Eventually, a fully-connected neural network is applied for prediction. Different from DeepFM and Deep Interest Network(DIN) in experiments on Amazon public dataset, LSTIN achieves a modeling with context and order 1基金项目:国家自然科学基金资助项目(71971025) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.03.23.002 ©北京科技大学 2020 录用稿件,非最终出版稿
information of user history.The AUC of LSTIN is 85.831%,which is 1.154%higher than that of BaseModel and 0.476% higher than that of DIN.Besides,LSTIN achieves distinguishing the long-term and short-term interests of users,which improves the performance and keeps training efficiency of CTR prediction model. KEY WORDS CTR prediction;Long and Short Term Interest Network;Deep Neural Network:Attention Mechanism; RNN:CNN 在信息时代,庞大的数据总量一方面加剧了人工筛选信息的难度,导致信息过载山,另一方面 也为大数据技术的发展提供了基础。随着大数据技术逐步在各个领域展开应用并取得了极佳的效果 ,用大数据技术解决信息过载问题成为学术界和工业界关注的问题之一。推荐系统、搜索引擎等 基于信息检索的应用能够一定程度上解决信息过载问题,点击率(Click-Through-Rate,CTR)预测则 在这类应用中提供支持与保障。CT预测根据用户、项目及上下文的特征,y预测用户点击该项 目的概率,帮助搜索引擎、推荐系统等向用户展示更加个性化、更加精准的内容,公 解决CT℉预测问题的模型可以分为传统机器学习模型和深度学习模型传统机器学习模型中 逻辑回归思路简单、易实现分布式计算,是该领域基础模型。但它作为线性模型,难以捕获高维 非线性特征I。Rendle提出因子分解机Factorization Machine,FM)用以解决特征组合问题,FM监 督学习不同特征的隐因子向量,用内积完成特征交叉,但模型复杂度高, 般只用于2阶特征交叉。 深度神经网络(Deep Neural Network,DNN)可以很好地提取特之间的非线性关系,使用大量数 据完成模型训练,在图像识别、自然语言处理等领域已经得到广泛应痈,将DNN应用于CTR预测 的研究越来越受到关注。基于DNN的CTR预测模型大多基于“嵌入+多层感知机 (Embedding+MLP)”范式。如Zhang等提出FNN(Factorization-machine supported Neural Network)例, 将FM的输出拼接后作为全连接层的输入,每个特征的俄入向量预先采用FM模型训练得到,DNN 训练开销低,收敛速度快。但该模型难以克服FM的水算复杂度限制,同时没有对低阶特征建模。 Qu提出的PNN(Product-based Neural Network⊙模型o使用外积、内积实现特征交叉,在DNN的基 础上使用特征提取层,完成高阶特征组合的同时融入低阶特征,无需进行两阶段训练。Cheng等提 出的Wide&Deep模型将传统的逻辑回归和DN以并行方式组合,充分发挥了逻辑回归模型的拟 合能力和DNN的泛化能力。但上述DNN模型依赖于人工特征工程。Guo等提出的DeepFM模型I 不需要人工特征工程,它令FM与DNN在嵌入层共享,同时学习高低阶特征组合。 以上DNN模型都为推动CTR预测进一步发展做出了重要贡献,但均将用户兴趣视为整体。现 实中用户的兴趣可能随着时间发生变化,如何通过用户历史点击行为探索其兴趣变化趋势,进而准 确预测该用户对待预测项的点击概率,成为一个需要解决的问题。自然语言处理领域广泛使用的 “注意力机制”为解决该问题提供了有益启示。Zhou等提出的DN(Deep Interest Network)模型使 用注意力机制设计激适单元,针对不同待预测项目自适应调整赋予每条历史记录的权重,提升了嵌 入层的表达和感知能力。该模型将注意力机制应用于CT领域的候选项目感知,但该模型在捕捉 用户历史记录向的相对顺序时面临困难,难以关注某一记录的上下文信息。 自然语言处理领域处理词语和句子的方式对提取用户历史点击行为的上下文信息和顺序信息, 建模用户长、短期兴趣两个问题具有重要参考意义。自然语言处理领域的DNN模型中,基于RNN 的模型和基于CNN的模型是两个重要类别。传统RNN模型以序列数据作为输入,节点间按链式结 构串联,但在实际应用中受限于梯度消失。LSTM(Long Short-Term Memory)能够通过门控制在一 定程度上解决梯度消失问题,但其结构复杂,训练所需时间较长。GRU(Gated Recurrent Unit)6 使用更简单的结构取得了与LSTM接近的效果,在自然语言处理等领域被广泛应用。CNN使用卷 积和池化操作,具有很强的语义特征捕捉能力),结构合理的CNN在自然语言处理任务中已经表 现出良好的性能),但CNN偏向关注相邻信息,容易忽略局部与整体信息的关联性。谷歌研究团 队的Vaswani等提出Transformer模型在机器翻译任务中使用自注意力和注意力机制,显著提升了 训练速度的同时取得了更好的效果
information of user history. The AUC of LSTIN is 85.831%, which is 1.154% higher than that of BaseModel and 0.476% higher than that of DIN. Besides, LSTIN achieves distinguishing the long-term and short-term interests of users, which improves the performance and keeps training efficiency of CTR prediction model. KEY WORDS CTR prediction; Long and Short Term Interest Network; Deep Neural Network; Attention Mechanism; RNN; CNN 在信息时代,庞大的数据总量一方面加剧了人工筛选信息的难度,导致信息过载[1],另一方面 也为大数据技术的发展提供了基础。随着大数据技术逐步在各个领域展开应用并取得了极佳的效果 [2],用大数据技术解决信息过载问题成为学术界和工业界关注的问题之一。推荐系统、搜索引擎等 基于信息检索的应用能够一定程度上解决信息过载问题,点击率(Click-Through-Rate, CTR)预测则 在这类应用中提供支持与保障[3]。CTR 预测[4]根据用户、项目及上下文的特征,预测用户点击该项 目的概率,帮助搜索引擎、推荐系统等向用户展示更加个性化、更加精准的内容。 解决 CTR 预测问题的模型可以分为传统机器学习模型和深度学习模型[5]。传统机器学习模型中 逻辑回归[6]思路简单、易实现分布式计算,是该领域基础模型。但它作为线性模型,难以捕获高维 非线性特征[7]。Rendle 提出因子分解机(Factorization Machine, FM)[8]用以解决特征组合问题,FM 监 督学习不同特征的隐因子向量,用内积完成特征交叉,但模型复杂度高,一般只用于 2 阶特征交叉。 深度神经网络(Deep Neural Network, DNN)可以很好地提取特征之间的非线性关系,使用大量数 据完成模型训练,在图像识别、自然语言处理等领域已经得到广泛应用,将 DNN 应用于 CTR 预测 的 研 究 越 来 越 受 到 关 注 。 基 于 DNN 的 CTR 预 测 模 型 大 多 基 于 “ 嵌 入 + 多 层 感 知 机 (Embedding+MLP)”范式。如 Zhang 等提出 FNN(Factorization-machine supported Neural Network)[9], 将 FM 的输出拼接后作为全连接层的输入,每个特征的嵌入向量预先采用 FM 模型训练得到,DNN 训练开销低,收敛速度快。但该模型难以克服 FM 的计算复杂度限制,同时没有对低阶特征建模。 Qu 提出的 PNN(Product-based Neural Networks)模型[10]使用外积、内积实现特征交叉,在 DNN 的基 础上使用特征提取层,完成高阶特征组合的同时融入低阶特征,无需进行两阶段训练。Cheng 等提 出的 Wide&Deep 模型[11]将传统的逻辑回归和 DNN 以并行方式组合,充分发挥了逻辑回归模型的拟 合能力和 DNN 的泛化能力。但上述 DNN 模型依赖于人工特征工程。Guo 等提出的 DeepFM 模型[12] 不需要人工特征工程,它令 FM 与 DNN 在嵌入层共享,同时学习高低阶特征组合。 以上 DNN 模型都为推动 CTR 预测进一步发展做出了重要贡献,但均将用户兴趣视为整体。现 实中用户的兴趣可能随着时间发生变化,如何通过用户历史点击行为探索其兴趣变化趋势,进而准 确预测该用户对待预测项目的点击概率,成为一个需要解决的问题。自然语言处理领域广泛使用的 “注意力机制”为解决该问题提供了有益启示。Zhou 等提出的 DIN(Deep Interest Network)模型[13]使 用注意力机制设计激活单元,针对不同待预测项目自适应调整赋予每条历史记录的权重,提升了嵌 入层的表达和感知能力。该模型将注意力机制应用于 CTR 领域的候选项目感知,但该模型在捕捉 用户历史记录间的相对顺序时面临困难,难以关注某一记录的上下文信息。 自然语言处理领域处理词语和句子的方式对提取用户历史点击行为的上下文信息和顺序信息, 建模用户长、短期兴趣两个问题具有重要参考意义。自然语言处理领域的 DNN 模型中,基于 RNN 的模型和基于 CNN 的模型是两个重要类别。传统 RNN 模型以序列数据作为输入,节点间按链式结 构串联,但在实际应用中受限于梯度消失。LSTM(Long Short-Term Memory)[14]能够通过门控制在一 定程度上解决梯度消失问题[15],但其结构复杂,训练所需时间较长。GRU(Gated Recurrent Unit)[16] 使用更简单的结构取得了与 LSTM 接近的效果,在自然语言处理等领域被广泛应用。CNN 使用卷 积和池化操作,具有很强的语义特征捕捉能力[17],结构合理的 CNN 在自然语言处理任务中已经表 现出良好的性能[18],但 CNN 偏向关注相邻信息,容易忽略局部与整体信息的关联性。谷歌研究团 队的 Vaswani 等提出 Transformer 模型[19]在机器翻译任务中使用自注意力和注意力机制,显著提升了 训练速度的同时取得了更好的效果。 录用稿件,非最终出版稿
本文提出长短期兴趣网络(Long and Short Term Interest Network,.LSTN)点击率预测模型,解决 CT℉预测中基于用户历史记录建模时上下文信息和顺序信息难以高效提取和充分利用的问题,提升 点击率预测精准性,并通过对用户长、短期兴趣分别建模进一步提高训练效率。具体地,首先借鉴 Transformer模型的自注意力机制,提取用户行为上下文信息,并使用基于注意力机制的激活单元结 构建立用户行为与待预测项目之间的关系,构建兴趣提取层。接着,构建信息融合层,将用户历史 行为序列划分为长期和短期,对短期序列中的项目使用GU进一步处理。在亚马逊公开数据集上 开展实验,结果表明LSTN模型与对比模型相比,获得了更准确的点击率预测结果。此外,本文 对比了在短期序列项目处理时使用CNN和GRU的效果,信息融合层使用CNN的LSTN与使用 GRU的LSTN效果相近,训练效率更高。 本文所提出的LSTN模型主要有如下创新点: (1)针对CT℉预测问题设计结构,借鉴自然语言处理领域模型完成序列数据建模,使用激活 单元结构建立用户历史行为与待预测项目的联系。 (2)模型大量使用以注意力机制为基础的并行结构,训练效率较高。 (3)LSTN对同一用户长期和短期序列采用不同处理方式,使模型备分别建模用户长、短期 兴趣的能力。 (4)LSTN在信息融合层可根据需要选用不同方法,具备灵活性和可拓展性。 1相关定义和模型结构 1.1长、短期序列定义 用户历史点击行为能够体现其特征和兴趣。将角仔的历史点击序列定义如下,并在此基础上提 出长、短期序列定义。 (1)历史点击序列 对于某一特定用户,按照时间顺序排列的历史点击项目组成该用户的历史点击序列。其中最近 N个项目定义为历史点击序列的短期部分。 给定共有n条历史点击行为的用户u,记其历史点击序列为hsu,4表示第i条点击行为发生的 时刻,该时刻被点击的项目记作C,则用户历史点击序列可表示为式(I)。选取短期部分长度为 1≤),可以表示为式(2)。 “项自在数据集中即为商品。 C,c2,C,|k-1<k,k∈[2,n} (1) Ccckkeli-1+2i (2) (2)长、短期序列 长期序列:油用户历史点击序列s通过编码器和激活单元结构(即后文中的兴趣提取层)处 理后得到的向量序列hs为长期序列。 短期序列:短期部分5通过编码器和激活单元结构(即后文中的兴趣提取层)处理后得到的 向量序列S,为短期序列。 1.2模型结构 LSTN的模型结构如图1所示,该模型主要由五部分构成,从下至上依次为输入层(Iput Layer)、嵌入层(Embedding Layer)、兴趣提取层(Interests Extraction Layer)、信息融合层 (Information Fusion Layer)、评分层(Scoring Layer)。输入数据自下而上经过输入层映射为独热 编码(one-hot)向量,经过嵌入层映射为低维向量,通过兴趣提取层建模后按点击行为发生时间将序 列划分为长期和短期两部分,分别在信息融合层合并为固定长度的向量用以表示用户的长、短期兴 趣,将这两个向量与表示候选项目的嵌入向量拼接(Concat)后输入评分层,最终输出一个评分
本文提出长短期兴趣网络(Long and Short Term Interest Network, LSTIN)点击率预测模型,解决 CTR 预测中基于用户历史记录建模时上下文信息和顺序信息难以高效提取和充分利用的问题,提升 点击率预测精准性,并通过对用户长、短期兴趣分别建模进一步提高训练效率。具体地,首先借鉴 Transformer 模型的自注意力机制,提取用户行为上下文信息,并使用基于注意力机制的激活单元结 构建立用户行为与待预测项目之间的关系,构建兴趣提取层。接着,构建信息融合层,将用户历史 行为序列划分为长期和短期,对短期序列中的项目使用 GRU 进一步处理。在亚马逊公开数据集上 开展实验,结果表明 LSTIN 模型与对比模型相比,获得了更准确的点击率预测结果。此外,本文 对比了在短期序列项目处理时使用 CNN 和 GRU 的效果,信息融合层使用 CNN 的 LSTIN 与使用 GRU 的 LSTIN 效果相近,训练效率更高。 本文所提出的 LSTIN 模型主要有如下创新点: (1) 针对 CTR 预测问题设计结构,借鉴自然语言处理领域模型完成序列数据建模,使用激活 单元结构建立用户历史行为与待预测项目的联系。 (2) 模型大量使用以注意力机制为基础的并行结构,训练效率较高。 (3) LSTIN 对同一用户长期和短期序列采用不同处理方式,使模型具备分别建模用户长、短期 兴趣的能力。 (4) LSTIN 在信息融合层可根据需要选用不同方法,具备灵活性和可拓展性。 1 相关定义和模型结构 1.1 长、短期序列定义 用户历史点击行为能够体现其特征和兴趣。将用户的历史点击序列定义如下,并在此基础上提 出长、短期序列定义。 (1) 历史点击序列 对于某一特定用户,按照时间顺序排列的历史点击项目组成该用户的历史点击序列。其中最近 N 个项目定义为历史点击序列的短期部分。 给定共有 n 条历史点击行为的用户u ,记其历史点击序列为 hsu , i t 表示第i 条点击行为发生的 时刻,该时刻被点击的项目记作 i t c ,则用户历史点击序列可表示为式(1)。选取短期部分长度为 l l i ( ) ,可以表示为式(2)。“项目”在数据集中即为商品。 1 2 1 { , ,..., | , [2, ]} u t t t k k n t t k n hs c c c (1) 1 2 1 { , ,..., | , [ 2, ]} i l i l i u t t t k k t t k i l i rs c c c (2) (2) 长、短期序列 长期序列:由用户历史点击序列 hsu 通过编码器和激活单元结构(即后文中的兴趣提取层)处 理后得到的向量序列 ' hsu 为长期序列。 短期序列:短期部分 u rs 通过编码器和激活单元结构(即后文中的兴趣提取层)处理后得到的 向量序列 ' u rs 为短期序列。 1.2 模型结构 LSTIN 的模型结构如图 1 所示,该模型主要由五部分构成,从下至上依次为输入层(Input Layer)、嵌入层(Embedding Layer)、兴趣提取层(Interests Extraction Layer)、信息融合层 (Information Fusion Layer)、评分层(Scoring Layer)。输入数据自下而上经过输入层映射为独热 编码(one-hot)向量,经过嵌入层映射为低维向量,通过兴趣提取层建模后按点击行为发生时间将序 列划分为长期和短期两部分,分别在信息融合层合并为固定长度的向量用以表示用户的长、短期兴 趣,将这两个向量与表示候选项目的嵌入向量拼接(Concat)后输入评分层,最终输出一个评分 录用稿件,非最终出版稿
scor肥∈O,)表示预测用户点击候选项目的概率。兴趣提取层和信息融合层是LSTIN模型提取用户 兴趣、组合用户长短期兴趣的核心。 Prediction score Fully-Connected Neural Network Scoring Layer Concat 个 Average Pooling Activation Activation 最终出版稿 CNN/RNN Activation Activation Unit Unit Unit Unit Interests Extraction Layer Short-Temm Series Long-Term Series Encoder Embedding Laye Embeddin hort-Term Part 圆1LSTN模型结构 Fig.1 Structure of LSTIN (1)输入层和嵌入层 特征的选亟对于模型的预测精度会产生显著影响,为验证模型结构的有效性,减少特征工程 的影响,选择项耳D和项目所属类别的ID作为输入,统一使用one-hot编码后通过嵌入层映射到 低维、稠密的向量空间中并进行拼接。以项目D为例, 设该特征有k种取值,其第i项取值的one- hot向量!_d与权重矩阵W哈进行点乘得到嵌入结果,以特征取第3个可能取值为例,其嵌入向量 记为,原理如式(3)所示,d表示希望得到的低维向量维度,O的不同下标只为说明其所在位置。 ..Wid iid=0a·Wa=01,02,1,04,05,,0k]· W2122, =[W31,W32,,3a] (3) Wl Wk2... Wud 用户历史点击序列5表示若干个项目按点击行为发生时间排序后的序列,序列中每个向量均
score{0,1}表示预测用户点击候选项目的概率。兴趣提取层和信息融合层是 LSTIN 模型提取用户 兴趣、组合用户长短期兴趣的核心。 Short-Term Part Long-Term Part ... ... Embedding Encoder Ă Ă Activation Unit Activation Unit Activation Unit Ă Ă Activation Unit Long-Term Series Short-Term Series Average Pooling C N N / R N N Concat Fully-Connected Neural Network Prediction score Scoring Layer Information Fusion Layer Interests Extraction Layer Embedding Layer Input Layer 图 1 LSTIN 模型结构 Fig.1 Structure of LSTIN (1) 输入层和嵌入层 特征的选取对于模型的预测精度会产生显著影响[20],为验证模型结构的有效性,减少特征工程 的影响,选择项目 ID 和项目所属类别的 ID 作为输入,统一使用 one-hot 编码后通过嵌入层映射到 低维、稠密的向量空间中并进行拼接。以项目 ID 为例,设该特征有 k 种取值,其第i 项取值的 onehot 向量 _ i i id o 与权重矩阵 _ emb Wi id 进行点乘得到嵌入结果,以特征取第 3 个可能取值为例,其嵌入向量 记为 i i_id ,原理如式(3)所示, d 表示希望得到的低维向量维度,0 的不同下标只为说明其所在位置。 11 12 1 21 22 2 _ _ 1 2 4 5 31 32 3 1 2 ... ... [0 ,0 ,1,0 ,0 ,...,0 ] = [ , ,..., ] ... ... ... ... ... d emb d i id i id k d k k d i k i w w w w w w w w w w w w i d _i o W (3) 用户历史点击序列 hsu 表示若干个项目按点击行为发生时间排序后的序列,序列中每个向量均 录用稿件,非最终出版稿
由表示该项目的D和其类别D两部分向量拼接而成。用户u的历史点击序列s,可表示为式(4)。 hs={(iid,,c_id,)2,(did.,c_id,)ltk-1<tk,k∈[2,n川} (4) (2)兴趣提取层 兴趣提取层可以细分为一个编码器(Encoder)部分和一个激活单元(Activation Unit)部分。 编码器部分的结构借鉴Transformer,其中自注意力(Self-Attention)机制能够关注上下文信息 和顺序信息,并且高效地完成长序列建模,克服了梯度消失的问题。编码器结构如图2所示。 Output 最终出版稿 Add Normalization Feedforward Neural Network Self-Attention Positional Encoding 图2编码器结构 Fig.2 Structure of Encoder 通过输入层和嵌入层后, 用护历更点击序列已经被映射为固定长度向量组成的序列,序列中每 一个向量表示一次点击行为。编码器部分的作用是使得序列中的每个向量不仅包含本次点击行为的 信息,也包含其在整个序列贞的位置信息和上下文信息。 首先对得到的序列进行位置编码(Positional Encoding),并将位置编码得到的向量序列与原序 列相加。采取正余弦位置编,如式(⑤)所示,将向量序列第p个位置映射为一个维度是ds的向 量,该向量的第k个循记作PE(p)。应用中,一般令ds和嵌入层得到的低维向量维度d相等。 PE,(p)=sin(p/100002w-) PE2+1(p)=cosp/100002a-) (5) 对上述结构输出的数据s使用自注意力机制,使模型感知序列中某个向量的上下文信息,思 路是基于每一个向量分别计算应该赋予序列中每个向量的权重并进行加权求和,该权重可视作相似 度,显然某特定向量与自身相似度最高,所以自身对应权重最大,其他向量与其相似度越高权重越 大。对于处理后得到的向量序列,原序列某一向量所在位置的新向量包含原向量的信息,也包含其 他位置向量的信息,即上下文信息。本部分使用基于缩放点积的自注意力机制,原理如式(6)所示, 在本式中d,是向量序列s中的向量维度,为防止点乘结果过大,通过除以√d,进行缩放, softmax是归一化指数函数
由表示该项目的 ID 和其类别 ID 两部分向量拼接而成。用户 u 的历史点击序列 hsu 可表示为式(4)。 u t t t t k k {( , ),..., ( , ) | , [2, ]} 1 1 n n 1 hs i_id c_id i_id c_id t t k n (4) (2) 兴趣提取层 兴趣提取层可以细分为一个编码器(Encoder)部分和一个激活单元(Activation Unit)部分。 编码器部分的结构借鉴 Transformer,其中自注意力(Self-Attention)机制能够关注上下文信息 和顺序信息,并且高效地完成长序列建模,克服了梯度消失的问题。编码器结构如图 2 所示。 Positional Encoding Self-Attention Add & Normalization Feedforward Neural Network Add & Normalization Output Record 1 Record 2 Ă Record N 图 2 编码器结构 Fig.2 Structure of Encoder 通过输入层和嵌入层后,用户历史点击序列已经被映射为固定长度向量组成的序列,序列中每 一个向量表示一次点击行为。编码器部分的作用是使得序列中的每个向量不仅包含本次点击行为的 信息,也包含其在整个序列中的位置信息和上下文信息。 首先对得到的序列进行位置编码(Positional Encoding),并将位置编码得到的向量序列与原序 列相加。采取正余弦位置编码[19],如式(5)所示,将向量序列第 p 个位置映射为一个维度是 pos d 的向 量,该向量的第 k 个值记作 ( ) PE p k 。应用中,一般令 pos d 和嵌入层得到的低维向量维度 d 相等。 2 / 2 2 / 2 1 ( ) sin( /10000 ) ( ) cos( / 10000 ) pos pos i d i i d i PE p p PE p p (5) 对上述结构输出的数据 p hsu 使用自注意力机制,使模型感知序列中某个向量的上下文信息,思 路是基于每一个向量分别计算应该赋予序列中每个向量的权重并进行加权求和,该权重可视作相似 度,显然某特定向量与自身相似度最高,所以自身对应权重最大,其他向量与其相似度越高权重越 大。对于处理后得到的向量序列,原序列某一向量所在位置的新向量包含原向量的信息,也包含其 他位置向量的信息,即上下文信息。本部分使用基于缩放点积的自注意力机制,原理如式(6)所示, 在本式中 k d 是向量序列 p hsu 中的向量维度,为防止点乘结果过大,通过除以 k d 进行缩放, softmax 是归一化指数函数。 录用稿件,非最终出版稿