工程科学学报 Chinese Journal of Engineering 文本生成领域的深度强化学习研究进展 徐聪李擎张德政陈鹂崔家瑞 Research progress of deep reinforcement learning applied to text generation XU Cong.LI Qing,ZHANG De-zheng.CHEN Peng,CUI Jia-rui 引用本文: 徐聪,李擎,张德政,陈鹏,崔家瑞.文本生成领域的深度强化学习研究进展.工程科学学报,2020,42(4:399-411.doi: 10.13374j.issn2095-9389.2019.06.16.030 XU Cong.LI Qing,ZHANG De-zheng,CHEN Peng,CUI Jia-rui.Research progress of deep reinforcement learning applied to text generation[J].Chinese Journal of Engineering,2020,42(4):399-411.doi:10.13374/j.issn2095-9389.2019.06.16.030 在线阅读View online::htps:/ldoi.org10.13374.issn2095-9389.2019.06.16.030 您可能感兴趣的其他文章 Articles you may be interested in 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报.2020,42(4):455 https:1doi.org/10.13374.issn2095-9389.2019.09.16.005 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表https:/doi.org/10.13374.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6):817 https::loi.org10.13374.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10:1229 https:/oi.org/10.13374.issn2095-9389.2019.03.27.002 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报.2020,42(4:500 https:/1doi.org/10.13374.issn2095-9389.2019.09.13.003
文本生成领域的深度强化学习研究进展 徐聪 李擎 张德政 陈鹏 崔家瑞 Research progress of deep reinforcement learning applied to text generation XU Cong, LI Qing, ZHANG De-zheng, CHEN Peng, CUI Jia-rui 引用本文: 徐聪, 李擎, 张德政, 陈鹏, 崔家瑞. 文本生成领域的深度强化学习研究进展[J]. 工程科学学报, 2020, 42(4): 399-411. doi: 10.13374/j.issn2095-9389.2019.06.16.030 XU Cong, LI Qing, ZHANG De-zheng, CHEN Peng, CUI Jia-rui. Research progress of deep reinforcement learning applied to text generation[J]. Chinese Journal of Engineering, 2020, 42(4): 399-411. doi: 10.13374/j.issn2095-9389.2019.06.16.030 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 您可能感兴趣的其他文章 Articles you may be interested in 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报. 2020, 42(4): 455 https://doi.org/10.13374/j.issn2095-9389.2019.09.16.005 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 基于文本语料的涉恐事件实体属性抽取 Entity and attribute extraction of terrorism event based on text corpus 工程科学学报. 2020, 42(4): 500 https://doi.org/10.13374/j.issn2095-9389.2019.09.13.003
工程科学学报.第42卷,第4期:399-411.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:399-411,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030;http://cje.ustb.edu.cn 文本生成领域的深度强化学习研究进展 徐 聪2),李擎)区,张德政2,),陈鹏,崔家瑞) 1)北京科技大学自动化学院,北京1000832)材料领域知识工程北京市重点实验室,北京1000833)北京科技大学计算机与通信工程学 院.北京100083 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要谷歌的人工智能系统(AlphaGo)在围棋领域取得了一系列成功,使得深度强化学习得到越来越多的关注.深度强化 学习融合了深度学习对复杂环境的感知能力和强化学习对复杂情景的决策能力.而自然语言处理过程中有着数量巨大的词 汇或者语句需要表征,并且在对话系统、机器翻译和图像描述等文本生成任务中存在大量难以建模的决策问题.这使得深度 强化学习在自然语言处理的文本生成任务中能够发挥重要的作用,帮助改进现有的模型结构或者训练机制,并且已经取得了 很多显著的成果.为此,本文系统阐述深度强化学习应用在不同的文本生成任务中的一些主要方法,梳理其发展的轨迹,分 析算法特点.最后,展望深度强化学习与自然语言处理任务融合的前景和挑战 关键词深度强化学习:自然语言处理:文本生成:对话系统:机器翻译:图像描述 分类号TP183 Research progress of deep reinforcement learning applied to text generation XU Cong2),LI Qing,ZHANG De-zheng,CHEN Peng,CUl Jia-rui) 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Knowledge Engineering for Materials Science,Beijing 100083.China 3)School of Computer&Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:liqing @ies.ustb.edu.cn ABSTRACT With the recent exciting achievements of Google's artificial intelligence system in the game of Go,deep reinforcement learning (DRL)has witnessed considerable development.DRL combines the abilities of sensing and making decisions provided by deep learning and reinforcement learning.Natural language processing(NLP)involves a large number of vocabularies or statements that have to be represented,and its subtasks,such as the dialogue system and machine translation,involve many decision problems that are difficult to model.Because of the aforementioned reasons,DRL can be appropriately applied to various NLP tasks such as named entity recognition,relation extraction,dialogue system,image caption,and machine translation.Further,DRL is helpful in improving the framework or the training pipeline of the aforementioned tasks,and notable achievements have been obtained.DRL is not an algorithm or a method but a paradigm.Many researchers fit plenty of NLP tasks in this paradigm and achieve better performance.Specifically,in text generation based on the reinforcement learning paradigm,the learning process that is used to produce a predicted sequence from the given source sequence can be considered to be the Markov decision process(MDP).In MDP,an agent interacts with the environment by receiving a sequence of observations and scaled rewards and subsequently produces the next action or word.This causes the text generation model to achieve decision-making ability,which can result in future success.Thus,the text generation task integrated with reinforcement learning is an attractive and promising research field.This study presented a comprehensive introduction and a systemic overview.First,we presented the basic methods in DRL and its variations.Then,we showed the main applications of DRL during the 收稿日期:2019-06-16 基金项目:国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304)
文本生成领域的深度强化学习研究进展 徐 聪1,2),李 擎1) 苣,张德政2,3),陈 鹏1),崔家瑞1) 1) 北京科技大学自动化学院,北京 100083 2) 材料领域知识工程北京市重点实验室,北京 100083 3) 北京科技大学计算机与通信工程学 院,北京 100083 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘 要 谷歌的人工智能系统(AlphaGo)在围棋领域取得了一系列成功,使得深度强化学习得到越来越多的关注. 深度强化 学习融合了深度学习对复杂环境的感知能力和强化学习对复杂情景的决策能力. 而自然语言处理过程中有着数量巨大的词 汇或者语句需要表征,并且在对话系统、机器翻译和图像描述等文本生成任务中存在大量难以建模的决策问题. 这使得深度 强化学习在自然语言处理的文本生成任务中能够发挥重要的作用,帮助改进现有的模型结构或者训练机制,并且已经取得了 很多显著的成果. 为此,本文系统阐述深度强化学习应用在不同的文本生成任务中的一些主要方法,梳理其发展的轨迹,分 析算法特点. 最后,展望深度强化学习与自然语言处理任务融合的前景和挑战. 关键词 深度强化学习;自然语言处理;文本生成;对话系统;机器翻译;图像描述 分类号 TP183 Research progress of deep reinforcement learning applied to text generation XU Cong1,2) ,LI Qing1) 苣 ,ZHANG De-zheng2,3) ,CHEN Peng1) ,CUI Jia-rui1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China 3) School of Computer & Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT With the recent exciting achievements of Google’s artificial intelligence system in the game of Go, deep reinforcement learning (DRL) has witnessed considerable development. DRL combines the abilities of sensing and making decisions provided by deep learning and reinforcement learning. Natural language processing (NLP) involves a large number of vocabularies or statements that have to be represented, and its subtasks, such as the dialogue system and machine translation, involve many decision problems that are difficult to model. Because of the aforementioned reasons, DRL can be appropriately applied to various NLP tasks such as named entity recognition, relation extraction, dialogue system, image caption, and machine translation. Further, DRL is helpful in improving the framework or the training pipeline of the aforementioned tasks, and notable achievements have been obtained. DRL is not an algorithm or a method but a paradigm. Many researchers fit plenty of NLP tasks in this paradigm and achieve better performance. Specifically, in text generation based on the reinforcement learning paradigm, the learning process that is used to produce a predicted sequence from the given source sequence can be considered to be the Markov decision process (MDP). In MDP, an agent interacts with the environment by receiving a sequence of observations and scaled rewards and subsequently produces the next action or word. This causes the text generation model to achieve decision-making ability, which can result in future success. Thus, the text generation task integrated with reinforcement learning is an attractive and promising research field. This study presented a comprehensive introduction and a systemic overview. First, we presented the basic methods in DRL and its variations. Then, we showed the main applications of DRL during the 收稿日期: 2019−06−16 基金项目: 国家重点研发计划云计算和大数据专项资助项目(2017YFB1002304) 工程科学学报,第 42 卷,第 4 期:399−411,2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 399−411, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030; http://cje.ustb.edu.cn
400 工程科学学报,第42卷,第4期 text generation task,trace the development of DRL,and summarized the merits and demerits associated with these applications.The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing:text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 类进行认知决策的过程,先通过眼睛感知周围环 处理技术都得到了巨大的发展,突破了各自在传 境的状态,再通过大脑进行动作选择.其后大部分 统方法上的瓶颈.如今越来越多研究将强化学习 的深度强化学习改进算法也基本遵循这个框架 的强大决策能力应用于自然语言处理的各个任务 原理 之中,都取得了不错的进展.本文首先简要介绍深 State 度强化学习和文本生成任务,然后分别梳理三类 Perception 深度强化学习方法在文本生成任务中的应用以及 Brain 各自的优缺点,最后对深度强化学习技术和自然 Environment -Reward- 语言处理任务相结合的前景与方向进行总结 Agent Decision 1简介 Behaviour Action 1.1深度强化学习 图1深度强化学习的基本框架 强化学习(Reinforcement learning)通常用来解 Fig.1 Framework of deep reinforcement learning 决科学、工程甚至经济文化等众多领域中的序列 1.2自然语言处理中的文本生成任务 决策问题四强化学习和神经网络的结合可以追溯 自然语言处理(Natural language processing, 到20世纪90年代,而直到近年来由于深度学习和 NLP)是利用计算机技术对人类语言进行自动分析 大数据的惊人成就以及硬件计算能力的大幅提 和表征的方法及理论的总称,自然语言处理研究 升,才使得强化学习迎来了一次复兴,同时也使深 的目的是让计算机能够运行各种层次的自然语言 度强化学习(Deep reinforcement learning,DRL)成为 相关任务,包括分词、词性标注、机器翻译、对话 目前人工智能科学中最热门的研究领域之一 系统.近二十年来,自然语言问题都是利用机器学 谷歌的深度思维团队是深度强化学习的主要 习方法基于高维且稀疏的特征来训练浅层模型 提出者和研究者,他们于2015年在《Nature》杂志 而随着深度学习方法的发展,稠密矩阵表征 上提出了深度Q网络(Deep Q-network,DQN),并 (Dense vector representations)的方法使得很多自然 让其学习如何操作Atari视频游戏,最终在49个游 语言处理任务取得了更加优秀的结果m.随后词向 戏中取得了高于人类专业玩家的得分.2016年,他 量的成功使用加速推动了深度学习在自然语言处 们提出了蒙特卡罗树搜索和深度强化学习相结合 理中的应用⑧,与以往浅层模型相比,深度学习能 的算法-人工智能算法(AlphaGo),在与职业九段 够自动表征多层次的特征而不依赖先验知识进行 棋手李世石的对弈中以4:1取得胜利,并将算法 手工提取特征,这就避免了手工提取特征通常耗 发表于同年的《Nature》杂志上)在此基础上,深 费时间又不够完整的缺点.深度学习和自然语言 度思维团队用这套算法的改进版本挑战世界排名 处理发展到现在,己经能够部分解决一些相对复 第一的中国棋手柯洁,以3:0的巨大优势取胜 杂的文本生成任务,例如对话系统、机器翻译、图 这意味着以深度学习和强化学习为代表的人工智 像描述和自动摘要等6( 能算法,已经能够在一些极其复杂的博弈环境中 对话系统通常也被叫作聊天机器人,或者基 超越人类顶尖专家的水平 于自然语言的人机交互.他们通常分为两种:一种 深度强化学习利用深度学习非线性模型的 是面向特定任务的,目的是帮助用户完成特定的 强大感知能力对复杂环境状态进行表征,利用 任务;一种是开放领域的,以聊天交流为主要目的 强化学习的决策优化能力针对不同环境状态进行 任务导向的对话系统(Task-oriented spoken dialogue 动作选择阿将两种算法结合构成了基本的深度强 systems)可以完成类似预定酒店、提供餐厅信息和 化学习的框架,如图1所示,这样的过程也类似人 获取公交时间表等任务.这类系统通常依赖结构
text generation task, trace the development of DRL, and summarized the merits and demerits associated with these applications. The final section enumerated some future research directions of DRL combined with NLP. KEY WORDS deep reinforcement learning;natural language processing;text generation;dialogue system;machine translation;image caption 由于深度学习的兴盛,强化学习和自然语言 处理技术都得到了巨大的发展,突破了各自在传 统方法上的瓶颈. 如今越来越多研究将强化学习 的强大决策能力应用于自然语言处理的各个任务 之中,都取得了不错的进展. 本文首先简要介绍深 度强化学习和文本生成任务,然后分别梳理三类 深度强化学习方法在文本生成任务中的应用以及 各自的优缺点,最后对深度强化学习技术和自然 语言处理任务相结合的前景与方向进行总结. 1 简介 1.1 深度强化学习 强化学习 (Reinforcement learning) 通常用来解 决科学、工程甚至经济文化等众多领域中的序列 决策问题[1] . 强化学习和神经网络的结合可以追溯 到 20 世纪 90 年代,而直到近年来由于深度学习和 大数据的惊人成就以及硬件计算能力的大幅提 升,才使得强化学习迎来了一次复兴,同时也使深 度强化学习(Deep reinforcement learning, DRL)成为 目前人工智能科学中最热门的研究领域之一. 谷歌的深度思维团队是深度强化学习的主要 提出者和研究者,他们于 2015 年在《Nature》杂志 上提出了深度 Q 网络(Deep Q-network,DQN) [2] ,并 让其学习如何操作 Atari 视频游戏,最终在 49 个游 戏中取得了高于人类专业玩家的得分. 2016 年,他 们提出了蒙特卡罗树搜索和深度强化学习相结合 的算法−人工智能算法(AlphaGo),在与职业九段 棋手李世石的对弈中以 4∶1 取得胜利,并将算法 发表于同年的《Nature》杂志上[3] . 在此基础上,深 度思维团队用这套算法的改进版本挑战世界排名 第一的中国棋手柯洁,以 3∶0 的巨大优势取胜. 这意味着以深度学习和强化学习为代表的人工智 能算法,已经能够在一些极其复杂的博弈环境中 超越人类顶尖专家的水平. 深度强化学习利用深度学习非线性模型的 强大感知能力对复杂环境状态进行表征[4] ,利用 强化学习的决策优化能力针对不同环境状态进行 动作选择[5] . 将两种算法结合构成了基本的深度强 化学习的框架,如图 1 所示,这样的过程也类似人 类进行认知决策的过程,先通过眼睛感知周围环 境的状态,再通过大脑进行动作选择. 其后大部分 的深度强化学习改进算法也基本遵循这个框架 原理[6] . 1.2 自然语言处理中的文本生成任务 自 然 语 言 处 理 ( Natural language processing, NLP)是利用计算机技术对人类语言进行自动分析 和表征的方法及理论的总称. 自然语言处理研究 的目的是让计算机能够运行各种层次的自然语言 相关任务,包括分词、词性标注、机器翻译、对话 系统. 近二十年来,自然语言问题都是利用机器学 习方法基于高维且稀疏的特征来训练浅层模型. 而随着深度学习方法的发展 ,稠密矩阵表征 (Dense vector representations)的方法使得很多自然 语言处理任务取得了更加优秀的结果[7] . 随后词向 量的成功使用加速推动了深度学习在自然语言处 理中的应用[8] ,与以往浅层模型相比,深度学习能 够自动表征多层次的特征而不依赖先验知识进行 手工提取特征,这就避免了手工提取特征通常耗 费时间又不够完整的缺点. 深度学习和自然语言 处理发展到现在,已经能够部分解决一些相对复 杂的文本生成任务,例如对话系统、机器翻译、图 像描述和自动摘要等[6] . 对话系统通常也被叫作聊天机器人,或者基 于自然语言的人机交互. 他们通常分为两种:一种 是面向特定任务的,目的是帮助用户完成特定的 任务;一种是开放领域的,以聊天交流为主要目的[9] . 任务导向的对话系统(Task-oriented spoken dialogue systems)可以完成类似预定酒店、提供餐厅信息和 获取公交时间表等任务. 这类系统通常依赖结构 Brain Agent Environment Action State Reward Behaviour Perception Decision 图 1 深度强化学习的基本框架 Fig.1 Framework of deep reinforcement learning · 400 · 工程科学学报,第 42 卷,第 4 期
徐聪等:文本生成领域的深度强化学习研究进展 401 化的本体或者数据库,他们提供了系统交谈所需 意力机制的出现,才真正使得神经机器翻译在翻 要的领域知识;而开放领域对话不是以提供信息 译质量上开始超越统计机器翻译,逐步统治机器 为目的,一般是以与用户交流的情感体验为目标o 翻译领域.基于深度学习的神经机器翻译仅用不 任务导向的对话系统通常使用的数据集有剑桥地 到三年时间,已经成为各类自然语言处理国际会 区餐厅信息对话数据集山、旧金山餐厅信息对话 议中主要的机器翻译研究方法,同时也成为谷歌2四、 数据集2,、对话系统技术挑战(Dialog system 百度)、微软等商用机器翻译系统的核心方法.机 technology challenge,DSTC))、斯坦福多轮多领域 器翻译文献中一般使用的平行语料是世界机器翻 对话数据集;开放领域数据集一般是电影对白 译大会(The conference on machine translation,WMT) (Opensubtitles)、推特(Twitter)、微博等社交聊天 数据集P,其中包含英法、英德、英俄等对照翻译 记录、乌班图(Ubuntu)对话集(表I) 语句 机器翻译是计算机发展之初就企图解决的问 图像生成描述任务是用一个或者多个句子描 题之一,目的是实现机器自动将一种语言转化为 述图片内容,涉及机器学习、计算机视觉和自然语 另一种语言.早期方法是语言学家手动编写翻译 言处理等领域,需要让模型能理解图片内容和图 规则实现机器翻译,但是人工设计规则的代价非 像的语义信息,并且能生成人类可读的正确描述 常大,对语言学家的翻译功底要求非常高,并且规 此类任务也可以看作和上述机器翻译类似的过 则很难覆盖所有的语言现象.之后国际商业机器 程,即翻译一张图片成为一段描述性文字2阿所以 公司(IBM)在上世纪九十年代提出了统计机器翻 可以借鉴机器翻译任务的很多方法和基础框架, 译的方法,这种方法只需要人工设计基于词、短 通常也是采用编码-解码器模型,编码器编码一张 语和句子的各种特征,提供足够多的双语语料,就 图片而解码器解码生成一段文字.生成图像描述 能相对快速地构建一套统计机器翻译系统 任务有很广泛的应用前景,例如基于文字的图像 (Statistical machine translation,.SMT),大大减少了 检索,为盲人用户提供帮助2,人类与机器人交互 翻译系统设计研发的难度,翻译性能也超越了基 等场景.论文中常用数据集为Flickr8kP7,lick30k2, 于规则的方法)于是机器翻译也从语言学家主 MSCOCO29等. 导转向计算机科学家主导,在学术界和产业界中 上述文本生成任务中存在大量难以建模表征 基于统计的方法也逐渐取代了基于规则的方法, 的决策问题,而使用监督学习还不足以解决这样 随着深度学习不断在图像和语音领域的各类任务 复杂情景的决策任务.于是具有强大表征和决策 中达到最先进水平,机器翻译的研究者也开始使 能力的深度强化学习可以很好应用于此类自然语 用深度学习技术82014年谷歌的Sutskever等提 言处理任务之中,近年来关于这方面的研究也涌 出了序列到序列(Sequence to sequence,.Seq2Seq)方 现出很多优秀的方法和思想,下面首先介绍深度 法叨,同年,蒙特利尔大学的Cho等提出了类似的 强化学习的分类和主要算法,然后结合文本生成 编码-解码(Encoder--decoder)框架2,之后几乎所有 任务,详细分析各种算法的创新点和优势,以及如 的神经机器翻译(Neural machine translation,NMT) 何利用深度强化学习提高各类文本生成任务的 都是基于他们的模型进行改进实现的直到注 效果 表1对话数据集内容概览 Table 1 Summary of dialogue datasets Dataset Numbers of dialogue Numbers of slots Scene Multi-turn Cambridge restaurants database 720 6 1 Yes San Francisco restaurants database 3577 12 1 Yes Dialog system technology challenge 2 3000 8 1 Yes Dialog system technology challenge 3 2265 9 Yes Stanford multi-turn multi-domain task-oriented dialogue dataset 3031 79.65.140 3 s The Twitter dialogue corpus 1300000 一 一 Yes The Ubuntu dialogue corpus 932429 No Opensubtitle corpus 70000000 No
化的本体或者数据库,他们提供了系统交谈所需 要的领域知识;而开放领域对话不是以提供信息 为目的,一般是以与用户交流的情感体验为目标[10] . 任务导向的对话系统通常使用的数据集有剑桥地 区餐厅信息对话数据集[11]、旧金山餐厅信息对话 数 据 集 [12]、 对 话 系 统 技 术 挑 战 ( Dialog system technology challenge, DSTC) [13]、斯坦福多轮多领域 对话数据集[14] ;开放领域数据集一般是电影对白 (Opensubtitles)、推特(Twitter)、微博等社交聊天 记录、乌班图(Ubuntu)对话集[15] (表 1). 机器翻译是计算机发展之初就企图解决的问 题之一,目的是实现机器自动将一种语言转化为 另一种语言. 早期方法是语言学家手动编写翻译 规则实现机器翻译,但是人工设计规则的代价非 常大,对语言学家的翻译功底要求非常高,并且规 则很难覆盖所有的语言现象. 之后国际商业机器 公司(IBM)在上世纪九十年代提出了统计机器翻 译的方法[16] ,这种方法只需要人工设计基于词、短 语和句子的各种特征,提供足够多的双语语料,就 能 相 对 快 速 地 构 建 一 套 统 计 机 器 翻 译 系 统 (Statistical machine translation, SMT),大大减少了 翻译系统设计研发的难度,翻译性能也超越了基 于规则的方法[17] . 于是机器翻译也从语言学家主 导转向计算机科学家主导,在学术界和产业界中 基于统计的方法也逐渐取代了基于规则的方法. 随着深度学习不断在图像和语音领域的各类任务 中达到最先进水平,机器翻译的研究者也开始使 用深度学习技术[18] . 2014 年谷歌的 Sutskever 等提 出了序列到序列(Sequence to sequence, Seq2Seq)方 法[19] ,同年,蒙特利尔大学的 Cho 等提出了类似的 编码‒解码(Encoder-decoder)框架[20] ,之后几乎所有 的神经机器翻译(Neural machine translation, NMT) 都是基于他们的模型进行改进实现的[21] . 直到注 意力机制的出现,才真正使得神经机器翻译在翻 译质量上开始超越统计机器翻译,逐步统治机器 翻译领域. 基于深度学习的神经机器翻译仅用不 到三年时间,已经成为各类自然语言处理国际会 议中主要的机器翻译研究方法,同时也成为谷歌[22]、 百度[23]、微软等商用机器翻译系统的核心方法. 机 器翻译文献中一般使用的平行语料是世界机器翻 译大会(The conference on machine translation, WMT) 数据集[24] ,其中包含英法、英德、英俄等对照翻译 语句. 图像生成描述任务是用一个或者多个句子描 述图片内容,涉及机器学习、计算机视觉和自然语 言处理等领域,需要让模型能理解图片内容和图 像的语义信息,并且能生成人类可读的正确描述. 此类任务也可以看作和上述机器翻译类似的过 程,即翻译一张图片成为一段描述性文字[25] . 所以 可以借鉴机器翻译任务的很多方法和基础框架, 通常也是采用编码‒解码器模型,编码器编码一张 图片而解码器解码生成一段文字. 生成图像描述 任务有很广泛的应用前景,例如基于文字的图像 检索,为盲人用户提供帮助[26] ,人类与机器人交互 等场景. 论文中常用数据集为 Flickr8k[27] ,lick30k[28] , MSCOCO[29] 等. 上述文本生成任务中存在大量难以建模表征 的决策问题,而使用监督学习还不足以解决这样 复杂情景的决策任务. 于是具有强大表征和决策 能力的深度强化学习可以很好应用于此类自然语 言处理任务之中,近年来关于这方面的研究也涌 现出很多优秀的方法和思想,下面首先介绍深度 强化学习的分类和主要算法,然后结合文本生成 任务,详细分析各种算法的创新点和优势,以及如 何利用深度强化学习提高各类文本生成任务的 效果. 表 1 对话数据集内容概览 Table 1 Summary of dialogue datasets Dataset Numbers of dialogue Numbers of slots Scene Multi-turn Cambridge restaurants database 720 6 1 Yes San Francisco restaurants database 3577 12 1 Yes Dialog system technology challenge 2 3000 8 1 Yes Dialog system technology challenge 3 2265 9 1 Yes Stanford multi-turn multi-domain task-oriented dialogue dataset 3031 79,65,140 3 Yes The Twitter dialogue corpus 1300000 — — Yes The Ubuntu dialogue corpus 932429 — — No Opensubtitle corpus 70000000 — — No 徐 聪等: 文本生成领域的深度强化学习研究进展 · 401 ·
402 工程科学学报,第42卷,第4期 2深度强化学习的分类 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 深度强化学习是将深度学习与强化学习结合 很好的实验结果,大部分游戏的成绩都超过了人 起来,实现从感知到动作的端到端学习的全新方 类专家 法.在人工智能中,一般用代理(Aget)表示一个 具备行为能力的物体,比如机器人、无人车、人等 State Action.Reward Experience replay 等.那么强化学习就是一个代理随着时间的推移 -State Train 不断地与环境进行交互学习的过程.在1时刻,代 Atari DeepQ Synchronize Target 理接受一个状态s,并且遵循策略π(als)从动作空间 Reward ame network network A中选择一个动作a作用于环境,接收环境反馈的 Action 奖赏r,并且依据概率P(s,+1s,a转换到下一个状 图2深度Q网络的训练流程 态s+.强化学习的最终目的是通过调整自身策略 Fig.2 Training process of deep Q-network 来最大化累计奖赏R,= 分,其中2e0,表示 随后有研究者发现标准的深度Q网络存在过 0 折扣因子.而值函数(Value function)是用来预测 高估计的问题,其原因是深度Q网络使用了同一 累计奖赏的期望大小,衡量某个状态或者状态-动 个Q网络进行动作评估和动作选择,导致了估计 作对的好坏.假定初始状态5o=s,依据策略π的状 误差的出现,于是Van Hasselt等Bo提出了使用 态值函数为V(s)=B{ yrlo=3,π:同时假定初 Q网络进行动作选择,而使用目标网络对动作进 行评估.Schaul等B认为标准Q网络使用经验回 始动作为ao=a,则状态-动作值函数为Q(s,d)= 放时是同等概率进行采样,没有考虑历史数据不 yrl小s0=s,a0=a,π 而根据π*=arg max V(s) 同的重要程度,所以他们提出利用时序差分 f-0 (Temporal-difference,TD)误差来衡量历史数据的 或者π'=arg max O(s,a)可以得到最优策略π' 重要性,重要的数据会被更多的采样,以提高学习 深度学习和强化学习相结合的主要方式是利 效率.Wang等提出了一种竞争网络结构,两个 用深度神经网络近似任意一个强化学习的组成部 网络分别输出状态值函数和优势函数,再把它们合 分,包含值函数V(s;或者Q(s,a;),策略π(als:)和 并起来输出动作-状态值函数,并通过实验证明相比 模型(状态转移和奖励).其中参数是深度神经网 深度O网络更快的收敛速度和更好的评估策略 络的权重.通常使用随机梯度下降方法更新深度 2.2基于策略的方法 强化学习的网络参数.下面介绍一些重要的深度 因为基于值函数结合的方式需要完全计算所 强化学习方法 有动作的值函数,再贪婪地选择值函数最大的动 2.1基于值函数的方法 作,所以这种方法通常无法很好的应用在具有高 基于值函数(Value-bBased)方法是利用深度神 维度或者连续动作空间的问题之中.而基于策略 经网络近似强化学习中的值函数部分,其策略部 (Policy--based)结合的方式,直接用深度神经网络 分并不显现出来而是隐含在值函数的分布之中, 学习策略,网络参数也就是策略的表征,因此可以 通过选择最大值函数的动作获得策略 直接在策略网络上进行优化,输出最终动作.基于 Mnih等首次介绍了深度Q网络并且带动了 策略结合的方法对比基于值函数结合的方法,拥 深度强化学习这一研究领域.他们创造性的解决 有更好的收敛性,能够更有效地应用在高维度或 了利用非线性函数近似Q函数时容易导致算法不 者连续动作空间中,并且可以学习到随机策略.然 稳定甚至无法收敛的问题.其主要方法是使用经 而由于没有值函数,基于策略的方法对于策略的 验回放机制和目标网络,也就是在训练卷积神经 评估较慢,必须在与环境交互的过程中进行评价 网络近似Q函数时随机抽取之前训练过程保存的 Schulman等B提出了一种可以单调提升策略 数据进行网络参数更新,同时网络的参数并不是 的迭代过程,并且通过对理论公式做近似,给出了 立刻更新,而是通过目标网络进行保存,Q网络定 可以并行的学习算法一一信赖域策略优化(Tust 期与目标网络进行参数同步,具体训练流程如图2 region policy optimization,.TRPO).作者还经过分析 他们的工作开创性的实现了端到端的深度强化学 后统一了标准的策略梯度和神经网络的策略梯
2 深度强化学习的分类 st π(at |st) A at rt P(st +1|st ,at) st+1 Rt = ∑∞ k=0 λ k rt+k λ ∈ [0,1] s0 = s π V π (s) = E ∑∞ t=0 γ t rt |s0 = s, π a0 = a Q π (s,a) = E ∑∞ t=0 γ t rt |s0 = s,a0 = a, π π ∗ = argmax π V π (s) π ∗ = argmax a∈A Q π (s,a) π ∗ 深度强化学习是将深度学习与强化学习结合 起来,实现从感知到动作的端到端学习的全新方 法. 在人工智能中,一般用代理(Agent)表示一个 具备行为能力的物体,比如机器人、无人车、人等 等. 那么强化学习就是一个代理随着时间的推移 不断地与环境进行交互学习的过程. 在 t 时刻,代 理接受一个状态 并且遵循策略 从动作空间 中选择一个动作 作用于环境,接收环境反馈的 奖赏 ,并且依据概率 转换到下一个状 态 . 强化学习的最终目的是通过调整自身策略 来最大化累计奖赏 ,其中 表示 折扣因子. 而值函数(Value function)是用来预测 累计奖赏的期望大小,衡量某个状态或者状态‒动 作对的好坏. 假定初始状态 ,依据策略 的状 态值函数为 ;同时假定初 始动作为 ,则状态−动作值函数为 . 而根据 或者 可以得到最优策略 . V(s; θ) Q(s, a; θ) π(a|s; θ) θ 深度学习和强化学习相结合的主要方式是利 用深度神经网络近似任意一个强化学习的组成部 分,包含值函数 或者 ,策略 和 模型 (状态转移和奖励),其中参数 是深度神经网 络的权重. 通常使用随机梯度下降方法更新深度 强化学习的网络参数. 下面介绍一些重要的深度 强化学习方法. 2.1 基于值函数的方法 基于值函数(Value-bBased)方法是利用深度神 经网络近似强化学习中的值函数部分,其策略部 分并不显现出来而是隐含在值函数的分布之中, 通过选择最大值函数的动作获得策略. Mnih 等首次介绍了深度 Q 网络[2] 并且带动了 深度强化学习这一研究领域. 他们创造性的解决 了利用非线性函数近似 Q 函数时容易导致算法不 稳定甚至无法收敛的问题. 其主要方法是使用经 验回放机制和目标网络,也就是在训练卷积神经 网络近似 Q 函数时随机抽取之前训练过程保存的 数据进行网络参数更新,同时网络的参数并不是 立刻更新,而是通过目标网络进行保存,Q 网络定 期与目标网络进行参数同步,具体训练流程如图 2. 他们的工作开创性的实现了端到端的深度强化学 习过程,整个学习过程基本不需要先验知识以及 人工参与,并且在学习视频游戏的任务中取得了 很好的实验结果,大部分游戏的成绩都超过了人 类专家. 随后有研究者发现标准的深度 Q 网络存在过 高估计的问题,其原因是深度 Q 网络使用了同一 个 Q 网络进行动作评估和动作选择,导致了估计 误差的出现. 于是 Van Hasselt 等[30] 提出了使用 Q 网络进行动作选择,而使用目标网络对动作进 行评估. Schaul 等[31] 认为标准 Q 网络使用经验回 放时是同等概率进行采样,没有考虑历史数据不 同 的 重 要 程 度 , 所 以 他 们 提 出 利 用 时 序 差 分 (Temporal‒difference, TD) 误差来衡量历史数据的 重要性,重要的数据会被更多的采样,以提高学习 效率. Wang 等[32] 提出了一种竞争网络结构,两个 网络分别输出状态值函数和优势函数,再把它们合 并起来输出动作‒状态值函数,并通过实验证明相比 深度 Q 网络更快的收敛速度和更好的评估策略. 2.2 基于策略的方法 因为基于值函数结合的方式需要完全计算所 有动作的值函数,再贪婪地选择值函数最大的动 作,所以这种方法通常无法很好的应用在具有高 维度或者连续动作空间的问题之中. 而基于策略 (Policy‒based) 结合的方式,直接用深度神经网络 学习策略,网络参数也就是策略的表征,因此可以 直接在策略网络上进行优化,输出最终动作. 基于 策略结合的方法对比基于值函数结合的方法,拥 有更好的收敛性,能够更有效地应用在高维度或 者连续动作空间中,并且可以学习到随机策略. 然 而由于没有值函数,基于策略的方法对于策略的 评估较慢,必须在与环境交互的过程中进行评价. Schulman 等[33] 提出了一种可以单调提升策略 的迭代过程,并且通过对理论公式做近似,给出了 可以并行的学习算法——信赖域策略优化(Trust region policy optimization, TRPO). 作者还经过分析 后统一了标准的策略梯度和神经网络的策略梯 Atari game Reward State Action Deep Q network Synchronize State,Action,Reward Train Target network Experience replay 图 2 深度 Q 网络的训练流程 Fig.2 Training process of deep Q-network · 402 · 工程科学学报,第 42 卷,第 4 期