工程科学学报 Chinese Journal of Engineering 深度学习中注意力机制研究进展 刘建伟刘俊文罗雄麟 Research progress in attention mechanism in deep learning LIU Jian-wei,LIU Jun-wen,LUO Xiong-lin 引用本文: 刘建伟,刘俊文,罗雄麟.深度学习中注意力机制研究进展[J].工程科学学报,2021,43(11):1499-1511.doi: 10.13374j.issn2095-9389.2021.01.30.005 LIU Jian-wei,LIU Jun-wen,LUO Xiong-lin.Research progress in attention mechanism in deep learning[J].Chinese Journal of Engineering,.2021,43(11:1499-1511.doi10.13374j.issn2095-9389.2021.01.30.005 在线阅读View online:https::/ldoi.org10.13374.issn2095-9389.2021.01.30.005 您可能感兴趣的其他文章 Articles you may be interested in
深度学习中注意力机制研究进展 刘建伟 刘俊文 罗雄麟 Research progress in attention mechanism in deep learning LIU Jian-wei, LIU Jun-wen, LUO Xiong-lin 引用本文: 刘建伟, 刘俊文, 罗雄麟. 深度学习中注意力机制研究进展[J]. 工程科学学报, 2021, 43(11): 1499-1511. doi: 10.13374/j.issn2095-9389.2021.01.30.005 LIU Jian-wei, LIU Jun-wen, LUO Xiong-lin. Research progress in attention mechanism in deep learning[J]. Chinese Journal of Engineering, 2021, 43(11): 1499-1511. doi: 10.13374/j.issn2095-9389.2021.01.30.005 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2021.01.30.005 您可能感兴趣的其他文章 Articles you may be interested in
工程科学学报.第43卷,第11期:1499-1511.2021年11月 Chinese Journal of Engineering,Vol.43,No.11:1499-1511,November 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.30.005;http://cje.ustb.edu.cn 深度学习中注意力机制研究进展 刘建伟巴,刘俊文,罗雄麟 中国石油大学(北京)自动化系,北京102249 ☒通信作者,E-mail:liujw@cup.edu.cn 摘要对注意力机制的主流模型进行了全面系统的概述.注意力机制模拟人类视觉选择性的机制,其核心的目的是从冗杂 的信息中选择出对当前任务目标关联性更大、更关键的信息而过滤噪声,也就是高效率信息选择和关注机制.首先简要介绍 和定义了注意力机制的原型,接着按照多个层面对各种注意力机制结构进行分类,然后对注意力机制的可解释性进行了阐述 司时总结了在各种领域的应用,最后指出了注意力机制未来的发展方向以及会面临的挑战 关键词注意力机制:全局/局部注意力机制:硬/软注意力机制:自注意力机制:可解释性 分类号TP181 Research progress in attention mechanism in deep learning LIU Jian-we LIU Jun-wen,LUO Xiong-lin Department of Automation,China University of Petroleum,Beijing 102249,China Corresponding author,E-mail:liujw@cup.edu.cn ABSTRACT There are two challenges with the traditional encoder-decoder framework.First,the encoder needs to compress all the necessary information of a source sentence into a fixed-length vector.Second,it is unable to model the alignment between the source and the target sentences,which is an essential aspect of structured output tasks,such as machine translation.To address these issues,the attention mechanism is introduced to the encoder-decoder model.This mechanism allows the model to align and translate by jointly learning a neural machine translation task.The whose core idea of this mechanism is to induce attention weights over the source sentences to prioritize the set of positions where relevant information is present for generating the next output token.Nowadays,this mechanism has become essential in neural networks,which have been researched for diverse applications.The present survey provides a systematic and comprehensive overview of the developments in attention modeling.The intuition behind attention modeling can be best explained by the simulation mechanism of human visual selectivity,which aims to select more relevant and critical information from tedious information for the current target task while ignoring other irrelevant information in a manner that assists in developing perception.In addition,attention mechanism is an efficient information selection and widely used in deep learning fields in recent years and played a pivotal role in natural language processing,speech recognition,and computer vision.This survey first briefly introduces the origin of the attention mechanism and defines a standard parametric and uniform model for encoder-decoder neural machine translation. Next,various techniques are grouped into coherent categories using types of alignment scores and number of sequences,abstraction levels,positions,and representations.A visual explanation of attention mechanism is then provided to a certain extent,and roles of attention mechanism in multiple application areas is summarized.Finally,this survey identified the future direction and challenges of the attention mechanism. KEY WORDS attention mechanism;global/local attention;hard/soft attention:self-attention;interpretability 收稿日期:2021-01-30 基金项目:中国石油大学(北京)科研基金资助项目(2462020YXZZ023)
深度学习中注意力机制研究进展 刘建伟苣,刘俊文,罗雄麟 中国石油大学 (北京) 自动化系,北京 102249 苣通信作者, E-mail: liujw@cup.edu.cn 摘 要 对注意力机制的主流模型进行了全面系统的概述. 注意力机制模拟人类视觉选择性的机制,其核心的目的是从冗杂 的信息中选择出对当前任务目标关联性更大、更关键的信息而过滤噪声,也就是高效率信息选择和关注机制. 首先简要介绍 和定义了注意力机制的原型,接着按照多个层面对各种注意力机制结构进行分类,然后对注意力机制的可解释性进行了阐述 同时总结了在各种领域的应用,最后指出了注意力机制未来的发展方向以及会面临的挑战. 关键词 注意力机制;全局/局部注意力机制;硬/软注意力机制;自注意力机制;可解释性 分类号 TP181 Research progress in attention mechanism in deep learning LIU Jian-wei苣 ,LIU Jun-wen,LUO Xiong-lin Department of Automation, China University of Petroleum, Beijing 102249, China 苣 Corresponding author, E-mail: liujw@cup.edu.cn ABSTRACT There are two challenges with the traditional encoder–decoder framework. First, the encoder needs to compress all the necessary information of a source sentence into a fixed-length vector. Second, it is unable to model the alignment between the source and the target sentences, which is an essential aspect of structured output tasks, such as machine translation. To address these issues, the attention mechanism is introduced to the encoder–decoder model. This mechanism allows the model to align and translate by jointly learning a neural machine translation task. The whose core idea of this mechanism is to induce attention weights over the source sentences to prioritize the set of positions where relevant information is present for generating the next output token. Nowadays, this mechanism has become essential in neural networks, which have been researched for diverse applications. The present survey provides a systematic and comprehensive overview of the developments in attention modeling. The intuition behind attention modeling can be best explained by the simulation mechanism of human visual selectivity, which aims to select more relevant and critical information from tedious information for the current target task while ignoring other irrelevant information in a manner that assists in developing perception. In addition, attention mechanism is an efficient information selection and widely used in deep learning fields in recent years and played a pivotal role in natural language processing, speech recognition, and computer vision. This survey first briefly introduces the origin of the attention mechanism and defines a standard parametric and uniform model for encoder–decoder neural machine translation. Next, various techniques are grouped into coherent categories using types of alignment scores and number of sequences, abstraction levels, positions, and representations. A visual explanation of attention mechanism is then provided to a certain extent, and roles of attention mechanism in multiple application areas is summarized. Finally, this survey identified the future direction and challenges of the attention mechanism. KEY WORDS attention mechanism;global/local attention;hard/soft attention;self-attention;interpretability 收稿日期: 2021−01−30 基金项目: 中国石油大学(北京)科研基金资助项目(2462020YXZZ023) 工程科学学报,第 43 卷,第 11 期:1499−1511,2021 年 11 月 Chinese Journal of Engineering, Vol. 43, No. 11: 1499−1511, November 2021 https://doi.org/10.13374/j.issn2095-9389.2021.01.30.005; http://cje.ustb.edu.cn
·1500 工程科学学报,第43卷,第11期 随着深度学习领域的发展,注意力机制在计 或摘要等结构化输出任务的一个重要方面.为了 算机视觉和自然语言处理等领域取得了长足发 解决这个问题,在编码器-解码器体系结构引入了 展.注意力机制的广泛应用始于机器翻译领域,目 注意力机制,如图1所示 前已成为神经网络中的一个重要概念,不仅仅是 从属概念,已然发展成独立的注意力网络山 神经网络中注意力机制的快速发展具有如下 Decode 三点优势: ●●●Context vector (I)有效克服循环神经网络(Recurrent neural network,RNN)的一些挑战,例如随着输入长度的 000h Softmax 增加,预测性能下降和输入顺序处理导致的计算 Softmax Softmax 效率低下;在机器翻译中源语言和目标语言之间 对齐以及大范围长期依赖学习问题. Hidden stateO 000 000 (2)可广泛用于提高神经网络的可解释性,而 神经网络又被视为黑盒模型.这是一个显著的好 Encode 处,主要是因为人们对影响人类生活的应用中机 器学习模型的公平性、问责制和透明度有越来越 图1 带有注意力机制的Seq2Seq结构经典编码器-解码器网络) 多的渴求,而注意力机制在一定程度上可以提供 Fig.I Seg2Seg structure of a classic encoder-decoder network with an 可视化解释 attention mechanism (3)很明显的优势就是直接提高了模型性能 假设源序列x=x1,2,…,xn卢目标序列y= 使得这些模型的预测推理结果最先进的,不管是 y1,y2,…,y,源序列经过双向循环神经网络后输 用于机器翻译、回答问题、情绪分析、对话系统, 出两个不同方向的隐状态向量:前向隐状态:和后 还是图像视觉等多项任务四,这也是注意力机制广 向隐状态,然后将两者进行拼接来表示编码器 泛得到应用的根本推动力 的隐状态h;=h;h"].在解码器经过位置时,通过 鉴于注意力机制的理论意义、所蕴含的应用 s,=g(s-1y-1,c)计算得出每个单词的隐状态向 价值以及可观的发展潜力,本文对注意力机制的 量,其中(为计算隐状态向量的函数、上下文向 研究进展进行了系统性的综述,为进一步深入研 量c,是输入序列的隐状态h之加权,其中权重由对 究注意力机制、开发注意力机制应用潜力确立良 齐函数确定: 好的基础.文中首先在第一节对注意力机制进行 exp(score(s:-1,hi)) 了概述以及问题的数学定义,并在第二节着重对 ati align(yt,xi)= (1) 注意力机制进行分类及归纳,从五个方面给出了 ∑=1exp(score(s-l,h) 注意力机制的不同描述.第三节阐述了目前注意 这里的对齐函数实际上为每个位置的输入单 力机制对神经网络的可解释性的讨论,第四节介 词和位置的输出单词0,x)赋予一个分数,衡量它 绍了注意力机制的应用场景,第五节给出了注意 们之间的匹配度 力机制未来发展方向,最后一节则对注意力机制 2 注意力机制分类 进行了总结 2.1软注意力机制与硬注意力机制 1注意力机制数学表述 2.1.1共同框架 为了方便,采用Bahdanau等)神经机器翻译 2015年,Xu等受机器翻译和对象检测工作 (Neural machine translation,NMT)中的解码器-编码 的启发引入了一种基于注意力机制的模型,它自 器结构来描述注意力机制.传统的编码器框架有 动学习描述图像内容的文字,文中使用了两种不 两个众所周知的挑战.首先,编码器必须将所有输 同的模型:硬随机注意力和软确定性注意力.首先 入信息压缩成一个固定长度的向量,然后将其传 都使用卷积神经网络来提取一组称之为注释向量 递给解码器.使用一个固定长度的向量压缩输入 的特征向量∫={f,f2,…,f,分别对应于图像的部 序列可能会导致信息丢失其次,它无法对输入 分区域,这里,L为图像区域划分的个数,然后定 和输出序列之间的对齐关系进行建模,这是翻译 义一个机制Φ从注释向量中计算出上下文向量
随着深度学习领域的发展,注意力机制在计 算机视觉和自然语言处理等领域取得了长足发 展. 注意力机制的广泛应用始于机器翻译领域,目 前已成为神经网络中的一个重要概念,不仅仅是 从属概念,已然发展成独立的注意力网络[1] . 神经网络中注意力机制的快速发展具有如下 三点优势: ( 1)有效克服循环神经网络(Recurrent neural network,RNN)的一些挑战,例如随着输入长度的 增加,预测性能下降和输入顺序处理导致的计算 效率低下;在机器翻译中源语言和目标语言之间 对齐以及大范围长期依赖学习问题. (2)可广泛用于提高神经网络的可解释性,而 神经网络又被视为黑盒模型. 这是一个显著的好 处,主要是因为人们对影响人类生活的应用中机 器学习模型的公平性、问责制和透明度有越来越 多的渴求,而注意力机制在一定程度上可以提供 可视化解释. (3)很明显的优势就是直接提高了模型性能, 使得这些模型的预测推理结果最先进的,不管是 用于机器翻译、回答问题、情绪分析、对话系统, 还是图像视觉等多项任务[2] ,这也是注意力机制广 泛得到应用的根本推动力. 鉴于注意力机制的理论意义、所蕴含的应用 价值以及可观的发展潜力,本文对注意力机制的 研究进展进行了系统性的综述,为进一步深入研 究注意力机制、开发注意力机制应用潜力确立良 好的基础. 文中首先在第一节对注意力机制进行 了概述以及问题的数学定义,并在第二节着重对 注意力机制进行分类及归纳,从五个方面给出了 注意力机制的不同描述. 第三节阐述了目前注意 力机制对神经网络的可解释性的讨论,第四节介 绍了注意力机制的应用场景,第五节给出了注意 力机制未来发展方向,最后一节则对注意力机制 进行了总结. 1 注意力机制数学表述 为了方便,采用 Bahdanau 等[3] 神经机器翻译 (Neural machine translation,NMT)中的解码器-编码 器结构来描述注意力机制. 传统的编码器框架有 两个众所周知的挑战. 首先,编码器必须将所有输 入信息压缩成一个固定长度的向量,然后将其传 递给解码器. 使用一个固定长度的向量压缩输入 序列可能会导致信息丢失[4] . 其次,它无法对输入 和输出序列之间的对齐关系进行建模,这是翻译 或摘要等结构化输出任务的一个重要方面. 为了 解决这个问题,在编码器−解码器体系结构引入了 注意力机制,如图 1 所示. h1 h2 h3 x1 x2 x3 s1 s2 Hidden state Score Score Score Softmax Softmax Softmax Context vector Encoder Decoder y1 y2 图 1 带有注意力机制的 Seq2Seq 结构经典编码器–解码器网络[3] Fig.1 Seq2Seq structure of a classic encoder–decoder network with an attention mechanism[3] x = [x1, x2,··· , xn] y = [y1, y2,··· , yn] h ′ i h ′′ i hi = [h ′ i ; h ′′ i ] t st = g(st−1,yt−1, ct) g(·) ct hi 假设源序列 与目标序列 ,源序列经过双向循环神经网络后输 出两个不同方向的隐状态向量:前向隐状态 和后 向隐状态 ,然后将两者进行拼接来表示编码器 的隐状态 . 在解码器经过位置 时,通过 计算得出每个单词的隐状态向 量,其中 为计算隐状态向量的函数、上下文向 量 是输入序列的隐状态 之加权,其中权重由对 齐函数确定: αt,i = align(yt , xi) = exp(score (st−1, hi)) ∑n j=1 exp( score ( st−1, hj )) (1) i t (yt , xi) 这里的对齐函数实际上为每个位置 的输入单 词和位置 的输出单词 赋予一个分数,衡量它 们之间的匹配度. 2 注意力机制分类 2.1 软注意力机制与硬注意力机制 2.1.1 共同框架 f = {f1, f2,··· , fL} ϕ ζt 2015 年,Xu 等[5] 受机器翻译和对象检测工作 的启发引入了一种基于注意力机制的模型,它自 动学习描述图像内容的文字. 文中使用了两种不 同的模型:硬随机注意力和软确定性注意力. 首先 都使用卷积神经网络来提取一组称之为注释向量 的特征向量 ,分别对应于图像的部 分区域,这里, L 为图像区域划分的个数,然后定 义一个机制 从注释向量中计算出上下文向量 , · 1500 · 工程科学学报,第 43 卷,第 11 期
刘建伟等:深度学习中注意力机制研究进展 ·1501 对于每个位置,该机制都能产生一个权重α.这里 微的,因此使用标准的反向传播过程可以实现端 Φ函数的定义就决定了如何将位置信息和权重信 到端的学习.在此之前,大部分的传统注意力机制 息结合 都属于软注意力机制.软注意力机制是可以直接 2.1.2硬注意力机制 求梯度的,能直接代入到模型中去,整体进行训 在硬注意力机制中,权重所扮演的角色是 练.所求的梯度可以经过注意力机制模块,反向传 图像区域a;在时刻t被选中作为输人编码器信息的 播到模型其它部分.两种注意力机制模型都有好 概率,有且仅有一个区域会被选中.为此,引入位 有坏,但目前主流的研究和应用还是更倾向于使 置变量s,当区域被选中时取值为1,否则为0,即 用软注意力机制,因为其可以直接求导,进行反向 p(si=1sj,a)=a,然后计算上下文向量g=∑sf 传播 2.2全局和局部注意力机制 整个硬注意力机制是一个随机模型,会采样 2.2.1共同框架 输入的隐状态,而不是整个编码端的隐状态,算出 2015年,Luong等6提出了全局和局部注意力 单词出现在某个位置的条件后验概率.为了实现 两种简单有效的注意机制,其中全局注意力机制 梯度的反向传播,需要采用蒙特卡洛采样的方法 能顾及到输入语言的所有源语言单词,局部注意 来逼近目标函数的梯度 力机制则只能一次查看源语言单词的一个子集 2.1.3软注意力机制 如图2所示.二者的区别在于注意力被放在所有 相比之下,权重所扮演的角色是图像区域 的源语言位置上还是仅放在部分源语言位置上. a在时刻的输入编码器的信息中的所占的比例. 这两个模型的共同点是,在解码过程中,每个时刻 软注意力机制可以通过计算一个加权注释向量, 都是先将源语言输入到堆叠长短时记忆网络 直接得到上下文向量:的数学期望,从而构造一个 (Long-short term memory,LSTM),计算源语言的各 确定性注意力机制模型,即Es【G=∑a 个隐状态对应当前目标语言隐状态对应的上下文 向量,得到目标语言隐状态.这样做的目的是为了 这相当于在系统中加入了加权上下文向量 得到上下文向量,进而用源语言句子的信息来帮 整个模型在确定性软注意力机制下是光滑的、可 助预测当前目标语言单词. (a) (b) Attention layer Attention layer Context vector Context vector Global align weights Aligned position Local weights HHHH:HHHH 图2两种简单有效的注意机制.()全局注意力,对每一步隐状态都计算了注意力值:(b)局部注意力,只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism (a)a global approach that always attends to all source words;(b)a local approach that only looks at a subset of source words at a time 2.2.2全局注意力机制 节点,模型根据当前目标语言隐状态h,和所有的源 全局注意力机制在生成上下文向量时考虑编 语言隐状态得出一个变长对齐权重向量.然后 码器的所有隐状态.在这个模型中,通过将当前目 对所有源状态的加权平均计算出全局上下文向 标隐状态,与每个源隐状态五,进行比较,得到一个 量.图2中,,为最终计算得到的经过注意力加权 可变长度的对齐向量B,其大小等于源语言端输入 后的全局上下文向量 句子的长度.把对齐向量作为权重,通过对源语言 与Bahdanau模型相比,Luong等提出的全局 隐状态的加权平均得到上下文向量.在每个时间 注意力模型在本质上相似,但是也有几个重要的
αi ϕ 对于每个位置,该机制都能产生一个权重 . 这里 函数的定义就决定了如何将位置信息和权重信 息结合. 2.1.2 硬注意力机制 αt,i ai t st,i i p(st,i = 1|sj<t ,ai) = αt,i ζt = ∑ i st,i fi 在硬注意力机制中,权重 所扮演的角色是 图像区域 在时刻 被选中作为输入编码器信息的 概率,有且仅有一个区域会被选中. 为此,引入位 置变量 ,当区域 被选中时取值为 1,否则为 0,即 ,然后计算上下文向量 . 整个硬注意力机制是一个随机模型,会采样 输入的隐状态,而不是整个编码端的隐状态,算出 单词出现在某个位置的条件后验概率. 为了实现 梯度的反向传播,需要采用蒙特卡洛采样的方法 来逼近目标函数的梯度. 2.1.3 软注意力机制 αt,i ai t ζt Ep(st |a) [ ζt ] = ∑ L i=1 αt,i fi 相比之下,权重 所扮演的角色是图像区域 在时刻 的输入编码器的信息中的所占的比例. 软注意力机制可以通过计算一个加权注释向量, 直接得到上下文向量 的数学期望,从而构造一个 确定性注意力机制模型,即 . 这相当于在系统中加入了加权上下文向量. 整个模型在确定性软注意力机制下是光滑的、可 微的,因此使用标准的反向传播过程可以实现端 到端的学习. 在此之前,大部分的传统注意力机制 都属于软注意力机制. 软注意力机制是可以直接 求梯度的,能直接代入到模型中去,整体进行训 练. 所求的梯度可以经过注意力机制模块,反向传 播到模型其它部分. 两种注意力机制模型都有好 有坏,但目前主流的研究和应用还是更倾向于使 用软注意力机制,因为其可以直接求导,进行反向 传播. 2.2 全局和局部注意力机制 2.2.1 共同框架 2015 年,Luong 等[6] 提出了全局和局部注意力 两种简单有效的注意机制,其中全局注意力机制 能顾及到输入语言的所有源语言单词,局部注意 力机制则只能一次查看源语言单词的一个子集, 如图 2 所示. 二者的区别在于注意力被放在所有 的源语言位置上还是仅放在部分源语言位置上. 这两个模型的共同点是,在解码过程中,每个时刻 都是先将源语言输入到堆叠长短时记忆网络 (Long-short term memory,LSTM),计算源语言的各 个隐状态对应当前目标语言隐状态对应的上下文 向量,得到目标语言隐状态. 这样做的目的是为了 得到上下文向量,进而用源语言句子的信息来帮 助预测当前目标语言单词. Attention layer Context vector ζt ht ht yt Global align weights at (a) ζt yt at pt ht Attention layer Context vector Local weights Aligned position (b) hs hs ~ ht ~ 图 2 两种简单有效的注意机制[6] . (a)全局注意力,对每一步隐状态都计算了注意力值;(b)局部注意力,只对部分范围的隐状态进行注意值的计算 Fig.2 Two simple and effective classes of attention mechanism[6] : (a) a global approach that always attends to all source words; (b) a local approach that only looks at a subset of source words at a time 2.2.2 全局注意力机制 ht h¯ s βt 全局注意力机制在生成上下文向量时考虑编 码器的所有隐状态. 在这个模型中,通过将当前目 标隐状态 与每个源隐状态 进行比较,得到一个 可变长度的对齐向量 ,其大小等于源语言端输入 句子的长度. 把对齐向量作为权重,通过对源语言 隐状态的加权平均得到上下文向量. 在每个时间 ht hs h˜ t 节点,模型根据当前目标语言隐状态 和所有的源 语言隐状态 得出一个变长对齐权重向量. 然后 对所有源状态的加权平均计算出全局上下文向 量. 图 2 中, 为最终计算得到的经过注意力加权 后的全局上下文向量. 与 Bahdanau 模型相比,Luong 等提出的全局 注意力模型在本质上相似,但是也有几个重要的 刘建伟等: 深度学习中注意力机制研究进展 · 1501 ·
·1502 工程科学学报,第43卷,第11期 不同点,此模型中在编码和解码器中都只用了 层次注意力机制主要思想是:首先从文档的 LSTM顶层的隐状态,而前者在双向编码器中用了 分层结构出发,单词组成句子,句子组成文档,所 前向和反向源语言隐状态的级联,在非堆叠单向 以自然而然建模时也分这两个层次进行.其次,不 解码器中使用了目标隐状态 同的单词对句子理解和不同的句子对于文本理解 2.2.3局部注意力机制 和分类,具有不同的信息量和关注度,不能单纯均 全局注意力机制有一个缺点,其对于每一个 匀对待,所以引入分层注意力机制,分层注意力机 目标单词都要考虑源语言句子中的所有单词,此 制让我们对文本分类的内部机制有一定的白箱 过程算法复杂性太大,并且不太可能翻译长序列 理解 而局部注意可以克服这种问题,针对每个目标单 2.3.2自顶向下注意力机制 词,其只关注小部分的源语言子句子 Zhang等8在卷积神经网络中提出了基于自 在时刻,模型首先针对每个目标单词生成一 J顶而下神经注意力(Top-down neural attention),使 个对齐位置,.针对对齐位置v,如何确定,此模 神经网络在学习过程中的注意力更加有针对性, 型有两种变体:单调对齐(local-m)和预测对齐 其实就是层次化注意力结构变体形式,而这种实 (local-p).前者简单地设,=t,假设源语言序列和 现也十分贴近我们真正的生物视觉机制,具有十 目标语言序列大体上单调对齐:而后者不假设源 分重要的生物神经学理论依据.为了实现这种自 语言序列和目标语言序列单调对齐,模型按照以 顶而下神经注意力机制,采用了一种泛化的确定 下方式预测对齐位置:v,=L·sigmoid(vTtanh(W,h,). 性赢者通吃(Winner-Take-All)的方法,从而可以选 这里L是源语句长度,W和y是将要被学习用来 择出与这个自顶而下信号最相关的神经元 预测位置的模型参数.为了更偏向于,附近的对 同时还提出了一个基于概率性的赢者通吃公 齐点,设置了一个以u,为中心的高斯分布模拟对齐 式来建立自顶而下的层次化神经注意力机制的卷 程度. 高斯分布重新定义的对齐权重如下:B()= 积神经网铬(Convolutional neural networks,CNN)分 μ-)2 align(,五,)exp-2o2 类器模型,将确定性方法泛化到了概率性版本,使 ,其中标准差为σ=D/2, 得学出来的注意力映射不再是二值结构.这种注 D是凭经验选取的一个常数,是一个实数,而是 意力映射其实也可以叫做软注意力映射,它的好 一个在以为中心的窗口内的整数 处也很明显,就是可以去捕捉更加细微的一些特 与Bahdanau等相比,其使用了与,相似的上下 征和变化等等.基于赢者通吃假设还提出了一种 文向量来构造后续隐状态,虽然也能达到“覆盖” 改进的传播方法,可以有效地计算注意力上下文 效果,但其没有分析这种连接是否有效.此处的模 向量,得出每个神经元赢得可能性的边缘概率,并 型更具有通用性,模型可应用于常规堆栈循环结 且通过网络中的反向传播误差对比自上而下的信 构,包括非注意力模型 号的重要性 2.3分层注意力机制 2.3.3多步注意力机制 2.3.1层次注意力机制 2017年5月,Gehring等9在机器翻译任务中 Yang等)最早把注意力分层的思想用于文档 提出了完全基于CNN构造序列到序列模型,文中 分类,而且引入层次注意力(Hierarchical attention), 提出的多步注意力机制(Multi-.step attention)通过 除了提高模型的精确度之外还可以进行单词与单 该注意力结构来获取编码器和解码器中输入句子 词之间、句子与句子之间重要性的分析和可视化. 之间的关系.ConvS2S模型在翻译任务上不仅仅 正如其名,层次注意力机制构造了两个层次的注 效果显著,而且所需训练时间也很短.多步注意力 意力机制结构.第一个层次是对句子中每个单词 机制实际上也是一种分层注意力机制,它在解码 的注意力机制,并非所有的单词对句子含义的表 器的每一层,都单独使用了注意力机制 示,都有同样的贡献.因此,引入注意机制来提取 该模型通过堆叠多层注意力机制来获取输 这些关键词,这对于单词在句子中起的作用来说, 入句子中单词与单词之间的依赖关系,特别是 是很重要的选择和判断标准,而且还汇总了这些 当句子非常长的时候,实验证明层叠的层数往 表示形成句子向量的各种有价值的信息词汇.第 往达到10层以上才能取得比较理想的结果.针 二个层次是针对文档中每个句子的注意力机制, 对每一个卷积步骤都对编码器的隐状态和解 与单词级别类似 码器的隐状态进行点积得到注意力矩阵,并且
不同点 ,此模型中在编码和解码器中都只用了 LSTM 顶层的隐状态,而前者在双向编码器中用了 前向和反向源语言隐状态的级联,在非堆叠单向 解码器中使用了目标隐状态. 2.2.3 局部注意力机制 全局注意力机制有一个缺点,其对于每一个 目标单词都要考虑源语言句子中的所有单词,此 过程算法复杂性太大,并且不太可能翻译长序列. 而局部注意可以克服这种问题,针对每个目标单 词,其只关注小部分的源语言子句子. t υt υt υt = t υt = L ·sigmoid(v T υ tanh(Wυht)) Wυ vυ υt υt βt(υt) = align(ht , hs) exp( − (µ−υt) 2 2σ2 ) σ = D/2 υt µ υt 在时刻 ,模型首先针对每个目标单词生成一 个对齐位置 . 针对对齐位置 如何确定,此模 型有两种变体 :单调对齐( local-m)和预测对齐 (local-p). 前者简单地设 ,假设源语言序列和 目标语言序列大体上单调对齐;而后者不假设源 语言序列和目标语言序列单调对齐,模型按照以 下方式预测对齐位置: . 这里 L 是源语句长度, 和 是将要被学习用来 预测位置的模型参数. 为了更偏向于 附近的对 齐点,设置了一个以 为中心的高斯分布模拟对齐 程度. 高斯分布重新定义的对齐权重如下: ,其中标准差为 , D 是凭经验选取的一个常数, 是一个实数,而 是 一个在以 为中心的窗口内的整数. 与 Bahdanau 等相比,其使用了与 ζt相似的上下 文向量来构造后续隐状态,虽然也能达到“覆盖” 效果,但其没有分析这种连接是否有效. 此处的模 型更具有通用性,模型可应用于常规堆栈循环结 构,包括非注意力模型. 2.3 分层注意力机制 2.3.1 层次注意力机制 Yang 等[7] 最早把注意力分层的思想用于文档 分类,而且引入层次注意力(Hierarchical attention), 除了提高模型的精确度之外还可以进行单词与单 词之间、句子与句子之间重要性的分析和可视化. 正如其名,层次注意力机制构造了两个层次的注 意力机制结构. 第一个层次是对句子中每个单词 的注意力机制,并非所有的单词对句子含义的表 示,都有同样的贡献. 因此,引入注意机制来提取 这些关键词,这对于单词在句子中起的作用来说, 是很重要的选择和判断标准,而且还汇总了这些 表示形成句子向量的各种有价值的信息词汇. 第 二个层次是针对文档中每个句子的注意力机制, 与单词级别类似. 层次注意力机制主要思想是:首先从文档的 分层结构出发,单词组成句子,句子组成文档,所 以自然而然建模时也分这两个层次进行. 其次,不 同的单词对句子理解和不同的句子对于文本理解 和分类,具有不同的信息量和关注度,不能单纯均 匀对待,所以引入分层注意力机制,分层注意力机 制让我们对文本分类的内部机制有一定的白箱 理解. 2.3.2 自顶向下注意力机制 Zhang 等[8] 在卷积神经网络中提出了基于自 顶而下神经注意力(Top-down neural attention),使 神经网络在学习过程中的注意力更加有针对性, 其实就是层次化注意力结构变体形式,而这种实 现也十分贴近我们真正的生物视觉机制,具有十 分重要的生物神经学理论依据. 为了实现这种自 顶而下神经注意力机制,采用了一种泛化的确定 性赢者通吃(Winner-Take-All)的方法,从而可以选 择出与这个自顶而下信号最相关的神经元. 同时还提出了一个基于概率性的赢者通吃公 式来建立自顶而下的层次化神经注意力机制的卷 积神经网络(Convolutional neural networks,CNN)分 类器模型,将确定性方法泛化到了概率性版本,使 得学出来的注意力映射不再是二值结构. 这种注 意力映射其实也可以叫做软注意力映射,它的好 处也很明显,就是可以去捕捉更加细微的一些特 征和变化等等. 基于赢者通吃假设还提出了一种 改进的传播方法,可以有效地计算注意力上下文 向量,得出每个神经元赢得可能性的边缘概率,并 且通过网络中的反向传播误差对比自上而下的信 号的重要性. 2.3.3 多步注意力机制 2017 年 5 月, Gehring 等[9] 在机器翻译任务中 提出了完全基于 CNN 构造序列到序列模型,文中 提出的多步注意力机制(Multi-step attention)通过 该注意力结构来获取编码器和解码器中输入句子 之间的关系. ConvS2S 模型在翻译任务上不仅仅 效果显著,而且所需训练时间也很短. 多步注意力 机制实际上也是一种分层注意力机制,它在解码 器的每一层,都单独使用了注意力机制. 该模型通过堆叠多层注意力机制来获取输 入句子中单词与单词之间的依赖关系,特别是 当句子非常长的时候,实验证明层叠的层数往 往达到 10 层以上才能取得比较理想的结果. 针 对每一个卷积步骤都对编码器的隐状态和解 码器的隐状态进行点积得到注意力矩阵,并且 · 1502 · 工程科学学报,第 43 卷,第 11 期