当前位置：和泉文库 > 电气与自动化 > 浏览文档

【智能系统】强化学习稀疏奖励算法研究——理论与实验

文件格式：PDF，文件大小：4.8MB，售价：4.65元

文档详细内容（约12页）

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0L:10.11992tis.202003031 强化学习稀疏奖励算法研究——理论与实验杨瑞，严江鹏'，李秀 (1.清华大学自动化系，北京100084：2.清华大学深圳国际研究生院，广东深圳518055) 摘要：近年来，强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功，但是大量实际问题中奖励信号十分稀疏，导致智能体难以从与环境的交互中学习到最优的策略，这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地，在强化学习理论研究中具有重要意义。本文调研了稀硫奖励问题的研究现状，以外部引导信息为线索，分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法，但是后者对数据的依赖性更低，两类方法均具有重要的研究意义。最后，本文对稀疏奖励算法研究进行了总结与展望。关键词：强化学习：深度强化学习：机器学习：稀疏奖励：神经网络；人工智能：深度学习中图分类号：TP181文献标志码：A文章编号：1673-4785(2020)05-0888-12 中文引用格式：杨瑞，严江鹏，李秀.强化学习稀疏奖励算法研究一一理论与实验.智能系统学报，2020,15（⑤）：888-899. 英文引用格式：YANG Rui,YAN Jiangpeng,.LI Xiu..Survey of sparse reward algorithms in reinforcement learning一theory and experiment JI.CAAI transactions on intelligent systems,2020,15(5):888-899. Survey of sparse reward algorithms in reinforcement learning-theory and experiment YANG Rui',YAN Jiangpeng',LI Xiu'2 (1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China) Abstract:In recent years,reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control.However,the reward signals are very sparse in many real-world situ- ations,which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem.Research on sparse reward can advance both the theory and actual ap- plications of reinforcement learning.We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms:reward shaping,imitation learn- ing,curriculum learning,hindsight experience replay,curiosity-driven algorithms,and hierarchical reinforcement learn- ing.To conduct experiments in the sparse reward environment Fetch Reach,we implemented typical algorithms from the above six classes,followed by thorough comparison and analysis of the results.Algorithms that utilize external in- formation were found to outperform those without external information,but the latter are less dependent on data.Both methods have great research significance.At last,summarize the current sparse reward algorithms and forecast future work Keywords:reinforcement learning,deep reinforcement learning;machine learning:sparse reward;neural networks;arti- ficial intelligence;deep learning 收稿日期：2020-03-19. 基金项目：国家自然科学基金项目(41876098). 强化学习(reinforcement learning)是一类智能通信作者：李秀.E-mail:li.xiu(@sz.tsinghua.edu.cn 体在与环境的交互中不断试错来学习最优策略的

DOI: 10.11992/tis.202003031 强化学习稀疏奖励算法研究——理论与实验杨瑞1 ，严江鹏1 ，李秀1,2 （1. 清华大学自动化系，北京 100084; 2. 清华大学深圳国际研究生院，广东深圳 518055）摘要：近年来，强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功，但是大量实际问题中奖励信号十分稀疏，导致智能体难以从与环境的交互中学习到最优的策略，这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地，在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状，以外部引导信息为线索，分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境 Fetch Reach 上实现了以上 6 类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法，但是后者对数据的依赖性更低，两类方法均具有重要的研究意义。最后，本文对稀疏奖励算法研究进行了总结与展望。关键词：强化学习；深度强化学习；机器学习；稀疏奖励；神经网络；人工智能；深度学习中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)05−0888−12 中文引用格式：杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验 [J]. 智能系统学报, 2020, 15(5): 888–899. 英文引用格式：YANG Rui, YAN Jiangpeng, LI Xiu. Survey of sparse reward algorithms in reinforcement learning — theory and experiment[J]. CAAI transactions on intelligent systems, 2020, 15(5): 888–899. Survey of sparse reward algorithms in reinforcement learning — theory and experiment YANG Rui1 ，YAN Jiangpeng1 ，LI Xiu1,2 (1. Department of Automation, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China) Abstract: In recent years, reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control. However, the reward signals are very sparse in many real-world situations, which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem. Research on sparse reward can advance both the theory and actual applications of reinforcement learning. We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms: reward shaping, imitation learning, curriculum learning, hindsight experience replay, curiosity-driven algorithms, and hierarchical reinforcement learning. To conduct experiments in the sparse reward environment Fetch Reach, we implemented typical algorithms from the above six classes, followed by thorough comparison and analysis of the results. Algorithms that utilize external information were found to outperform those without external information, but the latter are less dependent on data. Both methods have great research significance. At last, summarize the current sparse reward algorithms and forecast future work. Keywords: reinforcement learning; deep reinforcement learning; machine learning; sparse reward; neural networks; artificial intelligence; deep learning 强化学习 (reinforcement learning) 是一类智能体在与环境的交互中不断试错来学习最优策略的收稿日期：2020−03−19. 基金项目：国家自然科学基金项目 (41876098). 通信作者：李秀. E-mail：li.xiu@sz.tsinghua.edu.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期杨瑞，等：强化学习稀疏奖励算法研究—理论与实验 ·889· 机器学习方法，主要用于解决序贯决策问题。 R (1) 在最近五年时间里，AlphaGO!)3、AlphaStar!) OpenAIFivel分别在围棋、星际争霸Ⅱ、Dota2击败了人类最高水平的玩家，强化学习一度成为了环境 Environment 人工智能最热门的研究领域之一。AlphaGo的主状态S 奖励r 要作者David Silver认为向，强化学习与深度学习动作a 相结合，是实现通用人工智能(general intelli- gence)的关键。状态S, 智能体在强化学习中，奖励(reward)起到了引导智 Agent 能体学习方向的作用”，缺乏奖励信息将导致智图1智能体与环境交互示意图能体学习缓慢甚至无法学习到最优策略，这就是 Fig.1 Schematic of interactions between agent and envir- 稀疏奖励问题(sparse reward problem)。例如，在 onment 蒙特祖玛复仇游戏中，玩家需要依次执行上百个为了完成最大化累计折扣奖励值的目标，需动作才能获得奖励，这使其成为了Atari游戏中最要引人策略(policy)和值函数(value function)两个困难的任务之一0。此外，在很多实际任务中，不重要概念。策略可以描述为当前状态，下选择存在现成的奖励值，人为设计的奖励函数又常常动作a的概率：陷入局部最优，这些问题限制了强化学习的实 π(als)=P(als). 际应用。稀疏奖励问题的研究能够降低奖励函数值函数是指从状态s或状态动作对(s,a)出的设计难度，提高学习算法的样本利用率，加速发能获得累积奖励值的期望，用于评价状态、状策略学习的速度，为强化学习的广泛应用与落地态动作对的好坏。状态值函数V(s),动作值函数打下理论基础。 Q(s,a)分别为本文总结了当前主流的稀疏奖励算法，围绕 V(s)= (2) 是否引入外部引导信息，将当下主流的稀疏奖励问题解决思路分为两类，分别介绍了奖励塑造) Q(s,a)=E (reward shaping)、模仿学习l(imitation learning)、 .j.-x.a-o (3) 课程学习(curriculum learning)和事后经验回放深度强化学习与传统强化学习的区别是使用 (hindsight experience replay)、好奇心驱动(curios-- 了深度神经网络来拟合值函数、策略或环境动态 ity-driven algorithms))、分层强化学习(hierarchical 模型。神经网络的引入提高了强化学习解决大 reinforcement learning)等6类算法，并在Mu- 规模复杂问题的能力，在众多领域取得了令人瞩 joco的Fetch Reach环境I下进行了实验验证和目的成绩。目前的深度强化学习方法可以分为以下3类：基于值函数的方法、基于策略梯分析，实验代码开源在以下地址：https:/github. 度(policy gradient)的方法以及Actor-Critic的方法。 com/YangRui2015/Sparse-Reward-Algorithmso 3类方法的代表分别是DQN2-2、REINFORCE2a 1强化学习与稀疏奖励问题数学模型 Actor--Critic2,从Actor--Critie还衍生出A3Cl2 PPO21、DDPG2等一系列当前主流的强化学习当强化学习问题满足马尔可夫性时，就能将算法其描述为由五元组（⑤，A,P,R,y)定义的马尔可夫决基于值函数的方法，以DQN202为例，用w 策过程(MDP),其中S为状态空间，A为动作空代表神经网络的参数，其损失函数为四间，P为状态转移概率矩阵，R为奖励值，y∈(O, 为折扣因子。智能体每个时刻观测到的状态 loss-E(r+ymaxQ(.d.w)-Q(s.a.w (4) S,∈S,根据状态执行动作a,∈A,环境接收到动作根据式(1)、(3)、(4)，在奖励值几乎为零的稀后转移到新的状态5+1并反馈一个数值的奖励，疏奖励情况下，值函数的估计Q(s,a)接近零，值如图1所示。函数网络更新缓慢。强化学习的目标就是最大化累计折扣奖基于策略梯度的方法，以REINFORCE22为励值-：例，0代表神经网络的参数，其更新梯度为

机器学习方法[1-2] ，主要用于解决序贯决策问题。在最近五年时间里，AlphaGO[ 3 ] 、AlphaStar[ 4 ] 、 OpenAIFive[5] 分别在围棋、星际争霸 II、Dota 2 击败了人类最高水平的玩家，强化学习一度成为了人工智能最热门的研究领域之一。AlphaGo 的主要作者 David Silver 认为[6] ，强化学习与深度学习相结合，是实现通用人工智能 (general intelligence) 的关键。在强化学习中，奖励 (reward) 起到了引导智能体学习方向的作用[7-8] ，缺乏奖励信息将导致智能体学习缓慢甚至无法学习到最优策略，这就是稀疏奖励问题[9] (sparse reward problem)。例如，在蒙特祖玛复仇游戏中，玩家需要依次执行上百个动作才能获得奖励，这使其成为了 Atari 游戏中最困难的任务之一[10]。此外，在很多实际任务中，不存在现成的奖励值，人为设计的奖励函数又常常陷入局部最优[11] ，这些问题限制了强化学习的实际应用。稀疏奖励问题的研究能够降低奖励函数的设计难度，提高学习算法的样本利用率，加速策略学习的速度，为强化学习的广泛应用与落地打下理论基础[12]。本文总结了当前主流的稀疏奖励算法，围绕是否引入外部引导信息，将当下主流的稀疏奖励问题解决思路分为两类，分别介绍了奖励塑造[13] (reward shaping)、模仿学习[14] (imitation learning)、课程学习[15] (curriculum learning) 和事后经验回放[11] (hindsight experience replay)、好奇心驱动[16] (curiosity-driven algorithms)、分层强化学习[17] (hierarchical reinforcement learning) 等 6 类算法，并在 Mujoco 的 Fetch Reach 环境[18] 下进行了实验验证和分析，实验代码开源在以下地址：https://github. com/YangRui2015/Sparse-Reward-Algorithms。 1 强化学习与稀疏奖励问题数学模型 (S,A,P,R, γ) S A P R γ ∈ (0,1] st ∈ S at ∈ A st+1 rt 当强化学习问题满足马尔可夫性时，就能将其描述为由五元组定义的马尔可夫决策过程 (MDP)[1-2] ，其中为状态空间，为动作空间，为状态转移概率矩阵，为奖励值，为折扣因子。智能体每个时刻观测到的状态，根据状态执行动作，环境接收到动作后转移到新的状态并反馈一个数值的奖励，如图 1 所示。强化学习的目标就是最大化累计折扣奖励值[1-2] ： R = ∑∞ k=0 ( γ k rt+k ) . (1) 环境 Environment 智能体 Agent 动作at 状态St+1 奖励rt 状态St 图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment st at 为了完成最大化累计折扣奖励值的目标，需要引入策略 (policy) 和值函数 (value function) 两个重要概念。策略可以描述为当前状态下选择动作的概率： π(at |st) = P(at |st). s (s,a) V (s) Q(s,a) 值函数是指从状态或状态动作对出发能获得累积奖励值的期望，用于评价状态、状态动作对的好坏。状态值函数，动作值函数分别为 V (s) = E   ∑∞ k=0 ( γ k rt+k ) |st = s   (2) Q(s,a) = E   ∑∞ k=0 ( γ k rt+k ) |st = s, at = a   (3) 深度强化学习与传统强化学习的区别是使用了深度神经网络来拟合值函数、策略或环境动态模型[8]。神经网络的引入提高了强化学习解决大规模复杂问题的能力，在众多领域取得了令人瞩目的成绩[ 1 9 ]。目前的深度强化学习方法可以分为以下 3 类：基于值函数的方法、基于策略梯度 (policy gradient) 的方法以及 Actor-Critic 的方法[7]。 3 类方法的代表分别是 DQN[20-21] 、REINFORCE[22] 、 Actor-Critic[23] ，从 Actor-Critic 还衍生出 A3C[24] 、 PPO[25] 、DDPG[26] 等一系列当前主流的强化学习算法。基于值函数的方法，以 DQN w [ 20-21] 为例，用代表神经网络的参数，其损失函数为[20] loss = E [( r +γmax a ′ Q(s ′ ,a ′ ,w)− Q(s,a,w) )2 ] (4) Q(s,a) 根据式 (1)、(3)、(4)，在奖励值几乎为零的稀疏奖励情况下，值函数的估计接近零，值函数网络更新缓慢。 θ 基于策略梯度的方法，以 REINFORCE[22] 为例，代表神经网络的参数，其更新梯度为第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·889·

·890· 智能系统学报第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性，加快智能体学习速度。根据式(1)、(5)，在稀疏奖励的条件下，累积通常用R(s,a,s)表示原MDP的奖励函数，用奖励值R接近零，因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数，使用奖励塑造后新基于Actor--Critic!21的方法同理，Critic部分基 MDP的奖励函数为于值函数更新，Actor部分基于策略梯度更新，稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。但是在新的MDP问题中学习到的最优策略稀疏奖励问题除了奖励的稀疏性导致学习缓不一定是原MDP的最优策略，也就可能导致奖慢外，还可能存在稀疏性带来的估计不可靠的问励塑造后学习到非理论最优的策略27-2。Ng等2可题，由于奖励样本少，值函数估计的方差较大，这证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时，能够保证问题，进行了一系列的研究工作。最优策略不变。 2稀疏奖励研究现状 F(s,a,s）=y(s)-Φ(s) 其中：s表示s的下一个状态，y是原MDP中的目前解决稀疏奖励问题的算法主要有奖励塑折扣因子，势能函数(s)是状态到实数的映射。造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的驱动、分层强化学习等6类算法，我们可以根据附加奖励函数，在表格问题中明显加速了学习过是否引入外部引导信息将算法分为两大类，如图2 程；Jagodnik等29使用距离信息计算和人为主观所示。引入外部引导信息的算法通常针对特定问评价两种方式作为奖励函数来控制手臂仿真机器题，需要相应的领域知识或数据，泛化性较差，同人，结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入，降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法的学习难度，通常具有实现简单、学习速度快的引入对话管理任务中，显著提高了前期训练阶段特点，这一类型算法有奖励塑造、模仿学习、课程的表现。学习。无外部引导信息的算法通过挖掘模型、数为了克服奖励塑造泛化性较差的问题，研究据自身的潜能，泛化性能更好，但是模型通常更者们提出了一些自动化地设计奖励函数的方法。为复杂，这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念，将专家示例看作为最优或者次法进行展开介绍。优的策略，然后从专家示例的数据中学习出奖励设计奖励函数函数用于指导智能体训练。Marthi提出基于抽励塑造模仿专家象函数(abstrcat function)的自动奖励塑造方法，通引入外部引导信息策略模仿学习过求解抽象MDP问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 ·课程学习设置由简到难的课程 2.2模仿学习稀疏奖励模仿学习是一类从示例数据中学习策略的方从失败经历中学习法。稀疏奖励问题往往具有巨大的状态动作空事后经验回放间，难以直接进行探索和学习，使用示例数据进平衡探索和利用好奇心驱动行监督式的学习能够使智能体快速掌握示例策无外部引导信息略，极大减少了训练时间。分层强化学习模仿学习中如果只使用示例数据进行监督学使用分层的策略结构习，难以泛化到陌生的环境中，且长时间步的决图2稀疏奖励主流算法策将导致误差累积，逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比，为此提 2.1奖励塑造出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法，并理论证明了其奖励函数1来引导智能体完成期望任务的一类收敛性。Nair等B在策略梯度算法中引入行为方法。合适的附加奖励函数能够有效克服稀疏奖克隆损失(behavior clone loss)来学习示例策略，能

∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5)，在稀疏奖励的条件下，累积奖励值接近零，因此策略网络更新缓慢。基于 Actor-Critic[23] 的方法同理，Critic 部分基于值函数更新，Actor 部分基于策略梯度更新，稀疏奖励的条件下两部分梯度更新均接近于零。稀疏奖励问题除了奖励的稀疏性导致学习缓慢外，还可能存在稀疏性带来的估计不可靠的问题，由于奖励样本少，值函数估计的方差较大，这会导致模型训练难以收敛。研究者们为解决以上问题，进行了一系列的研究工作。 2 稀疏奖励研究现状目前解决稀疏奖励问题的算法主要有奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等 6 类算法，我们可以根据是否引入外部引导信息将算法分为两大类，如图 2 所示。引入外部引导信息的算法通常针对特定问题，需要相应的领域知识或数据，泛化性较差，同时也因为先验知识的引入，降低了强化学习模型的学习难度，通常具有实现简单、学习速度快的特点，这一类型算法有奖励塑造、模仿学习、课程学习。无外部引导信息的算法通过挖掘模型、数据自身的潜能，泛化性能更好，但是模型通常更为复杂，这一类型算法包括好奇心驱动、事后经验回放、分层强化学习。接下来我们将对各个方法进行展开介绍。奖励塑造课程学习分层强化学习模仿学习引入外部引导信息设置由简到难的课程使用分层的策略结构从失败经历中学习设计奖励函数模仿专家策略无外部引导信息好奇心驱动事后经验回放稀疏奖励平衡探索和利用图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造奖励塑造通常是利用先验知识人工设计附加奖励函数[13] 来引导智能体完成期望任务的一类方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性，加快智能体学习速度。通常用表示原 M DP 的奖励函数，用表示附加奖励函数，使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略不一定是原 MDP 的最优策略，也就可能导致奖励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时，能够保证最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中：表示的下一个状态，是原 MDP 中的折扣因子，势能函数是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的附加奖励函数，在表格问题中明显加速了学习过程；Jagodnik 等 [29] 使用距离信息计算和人为主观评价两种方式作为奖励函数来控制手臂仿真机器人，结果均好于优化的比例微分控制器 (PD controller)；Ferreira 等 [30] 将奖励塑造的强化学习方法引入对话管理任务中，显著提高了前期训练阶段的表现。为了克服奖励塑造泛化性较差的问题，研究者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念，将专家示例看作为最优或者次优的策略，然后从专家示例的数据中学习出奖励函数用于指导智能体训练。Marthi[32] 提出基于抽象函数 (abstrcat function) 的自动奖励塑造方法，通过求解抽象 MDP 问题的势能函数，再计算势能函数的差分就得到了附加奖励函数。 2.2 模仿学习模仿学习是一类从示例数据中学习策略的方法 [14]。稀疏奖励问题往往具有巨大的状态动作空间，难以直接进行探索和学习，使用示例数据进行监督式的学习能够使智能体快速掌握示例策略，极大减少了训练时间。模仿学习中如果只使用示例数据进行监督学习，难以泛化到陌生的环境中，且长时间步的决策将导致误差累积，逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比，为此提出在交互中缓慢移动策略分布的 SMILe (stochastic mixing iterative learning) 算法，并理论证明了其收敛性。Nair 等 [34] 在策略梯度算法中引入行为克隆损失 (behavior clone loss) 来学习示例策略，能 ·890· 智能系统学报第 15 卷

第5期杨瑞，等：强化学习稀疏奖励算法研究— 理论与实验 ·891· 够完成复杂的机械臂控制任务，其行动损失函不同课程阶段对应的分布满足嫡增和权重单数为调增加： H(Q(2)<H(Q+e(z),Ye>0 LBC= (s:l0)-a W+.(a)<W(z),z,e>0 其中：(s,a)是示例数据，π和0分别是智能体的课程学习的一个难点在于如何自动化地设计策略和策略的参数。Ho等3将对抗生成网络的课程的分级，解决这个问题需要考虑训练模型时思想引入模仿学习提出生成对抗模仿学习(gener-. 的反馈。Graves等3提出一种自适应课程学习 ative adversarial imitation learning,GAL),使用生成方法，通过预测正确率和网络复杂性的增长来自模型产生行为数据，使用判别模型区分行为数据动调整课程的难度，在语言模型训练任务上显著和专家策略数据，GAL在复杂高维环境的模仿提高了训练速度。Akkaya等o提出ADR(auto- 任务中超过了现有方法，其优化目标函数为 matic domain randomization),通过设定表现阈值， Ez [log(D(s.a))]+Ez [log(1-D(s,a))]H() 当正确率高于表现阈值时就扩大训练的分布提高式中：π是生成模型的策略；πE是专家策略；D是课程难度，反之缩小训练分布，在复杂的魔方操判别模型；H是熵函数；入是系数。作任务中取得了成功。通常模仿学习中的示例状态动作对(s,a,)不 2.4事后经验回放容易获得，而示例状态序列(5o,51,…,5,)更容易获事后经验回放(HER)是一种从失败经历中得，从示例状态序列进行模仿学习的任务被称为学习的强化学习方法，通过修正失败经历的目标 “从观测学习”(learning from observation)36。产生奖励信息，解决了奖励的稀疏性问题，同时 Torabi等Im提出BCO(behavioral cloning from ob- 对失败样本的利用极大提高了样本利用效率。G servation),通过学习环境动态模型预测示例观测表示目标空间，g∈G是实验目标，g∈G是实际实序列的动作，然后使用行为克隆进行模仿学习，现的目标，HER将经验数据中目标修改为g,就在多个任务中的表现超过了GAL。产生了成功的回合数据用于策略训练。HER的 2.3课程学习实现将在第3节的实验部分进行更具体的介绍。课程学习是机器学习中逐步增加任务难度以目前对于事后经验回放算法的改进主要在于加快学习速度的方法。在强化学习中课程学习实降低偏差、改进目标采样方式、适配在线策略算质上在逐步调整学习的任务分布，智能体在简单法等。Lanka等认为HER修改目标引入的新任务上更容易获得奖励，将相对简单的任务上学数据带来了偏差，提出通过调整真实奖励和HER的到的策略迁移到复杂任务中，降低了在复杂任务奖励的权重来降低偏差。Manela等s指出，在目中探索的难度，因此课程学习能够用于解决稀疏标物体未移动的情况下，采样的目标只与初始位奖励问题w。置有关而与策略无关，这样的样本会给训练带来 Elmant38最早提出在语法学习任务中使用逐偏差，于是提出Filtered-HER,通过滤去该类型目步增加训练数据复杂度的方法来训练神经网络，标来缓解该问题。Rauber等1通过重要性采样能够解决直接使用全部数据难以训练的问题。将HER运用到策略梯度方法上，实验结果表明 Bengio等认为，课程学习的本质是逐步调整学 HER明显提高了策略梯度方法的样本利用效率。习样本的分布，在简单的样本分布上更容易学习 25好奇心驱动到泛化性好的策略，并通过实验证明了课程学习好奇心驱动是一类使用内在奖励引导智能能够提高训练速度和收敛到更优解。Bengio等体探索环境的方法，高效的探索能够更快地获得给出了课程学习的数学定义，？表示训练样本，P(?) 外在奖励，同时能够降低环境的奖励、状态转表示目标训练集分布，入∈[0,1]表示课程学习的阶移的不确定性，平衡探索与利用，因此好奇心段，W()是A阶段样本z的采样权重，A阶段训驱动能解决稀硫奖励问题带来的稀硫性和不可练分布Q()为靠性问题。目前的好奇心驱动算法根据内在奖 Q(z)o Wa(zP(z),Yz 励计算方式可以分为访问计数法和预测差法的。其中Q满足： Bellemare等s通过信息增益(information gain))来 ∫Q(z)dk=1 联系访问计数法和预测差法，证明了两者本质是 Q()=P(),Yz 相同的

够完成复杂的机械臂控制任务，其行动损失函数为 LBC = ∑N i=1 ∥π(si |θπ)−ai∥ 2 2 (si 其中： ,ai) 是示例数据，π 和 θπ 分别是智能体的策略和策略的参数。Ho 等 [35] 将对抗生成网络的思想引入模仿学习提出生成对抗模仿学习 (generative adversarial imitation learning，GAIL)，使用生成模型产生行为数据，使用判别模型区分行为数据和专家策略数据，GAIL 在复杂高维环境的模仿任务中超过了现有方法，其优化目标函数为 Eπ [ log(D(s,a))] + EπE [ log(1− D(s,a))] −λH (π) π πE D H λ 式中：是生成模型的策略；是专家策略；是判别模型；是熵函数；是系数。 (st ,at) (s0,s1,··· ,st) 通常模仿学习中的示例状态动作对不容易获得，而示例状态序列更容易获得，从示例状态序列进行模仿学习的任务被称为 “从观测学习”(learning from observation)[ 36]。 Torabi 等 [37] 提出 BCO(behavioral cloning from observation)，通过学习环境动态模型预测示例观测序列的动作，然后使用行为克隆进行模仿学习，在多个任务中的表现超过了 GAIL。 2.3 课程学习课程学习是机器学习中逐步增加任务难度以加快学习速度的方法。在强化学习中课程学习实质上在逐步调整学习的任务分布，智能体在简单任务上更容易获得奖励，将相对简单的任务上学到的策略迁移到复杂任务中，降低了在复杂任务中探索的难度，因此课程学习能够用于解决稀疏奖励问题[14]。 z P(z) λ ∈ [0,1] Wλ (z) λ z λ Qλ (z) Elman[38] 最早提出在语法学习任务中使用逐步增加训练数据复杂度的方法来训练神经网络，能够解决直接使用全部数据难以训练的问题。 Bengio 等 [15] 认为，课程学习的本质是逐步调整学习样本的分布，在简单的样本分布上更容易学习到泛化性好的策略，并通过实验证明了课程学习能够提高训练速度和收敛到更优解。Bengio 等 [15] 给出了课程学习的数学定义，表示训练样本，表示目标训练集分布，表示课程学习的阶段，是阶段样本的采样权重，阶段训练分布为 Qλ (z) ∝ Wλ (z)P(z),∀z 其中 Qλ 满足： ∫ Qλ (z)dz = 1 Q1 (z) = P(z),∀z 不同课程阶段对应的分布满足熵增和权重单调增加： H (Qλ (z)) < H (Qλ+ϵ (z)),∀ϵ > 0 Wλ+ϵ (z) < Wλ (z),∀z,∀ϵ > 0 课程学习的一个难点在于如何自动化地设计课程的分级，解决这个问题需要考虑训练模型时的反馈。Graves 等 [ 39] 提出一种自适应课程学习方法，通过预测正确率和网络复杂性的增长来自动调整课程的难度，在语言模型训练任务上显著提高了训练速度。Akkaya 等 [ 40] 提出 ADR(automatic domain randomization)，通过设定表现阈值，当正确率高于表现阈值时就扩大训练的分布提高课程难度，反之缩小训练分布，在复杂的魔方操作任务中取得了成功。 2.4 事后经验回放 G g ∈ G g ′ ∈ G g ′ 事后经验回放 (HER)[11] 是一种从失败经历中学习的强化学习方法，通过修正失败经历的目标产生奖励信息，解决了奖励的稀疏性问题，同时对失败样本的利用极大提高了样本利用效率。表示目标空间，是实验目标，是实际实现的目标，HER 将经验数据中目标修改为，就产生了成功的回合数据用于策略训练。HER 的实现将在第 3 节的实验部分进行更具体的介绍。目前对于事后经验回放算法的改进主要在于降低偏差、改进目标采样方式、适配在线策略算法等。Lanka 等 [41] 认为 HER 修改目标引入的新数据带来了偏差，提出通过调整真实奖励和 HER 的奖励的权重来降低偏差。Manela 等 [42] 指出，在目标物体未移动的情况下，采样的目标只与初始位置有关而与策略无关，这样的样本会给训练带来偏差，于是提出 Filtered-HER，通过滤去该类型目标来缓解该问题。Rauber 等 [43] 通过重要性采样将 HER 运用到策略梯度方法上，实验结果表明 HER 明显提高了策略梯度方法的样本利用效率。 2.5 好奇心驱动好奇心驱动是一类使用内在奖励引导智能体探索环境的方法，高效的探索能够更快地获得外在奖励[16] ，同时能够降低环境的奖励、状态转移的不确定性，平衡探索与利用[44] ，因此好奇心驱动能解决稀疏奖励问题带来的稀疏性和不可靠性问题。目前的好奇心驱动算法根据内在奖励计算方式可以分为访问计数法和预测差法[45]。 Bellemare 等 [46] 通过信息增益 (information gain) 来联系访问计数法和预测差法，证明了两者本质是相同的。第 5 期杨瑞，等：强化学习稀疏奖励算法研究——理论与实验 ·891·

·892· 智能系统学报第15卷访问计数法使用访问次数定义状态的陌生程 2.6分层强化学习度，鼓励智能体探索更陌生的状态，以提高探索分层强化学习(HRL)是一类使用分层策略结能力和降低对奖励估计的不确定性。Strehl等a7 构的方法，分层的结构能够学习不同层次的策提出了一种基于模型的内在奖励方法，使用与状略，从而有效解决维度爆炸的问题6s。分层强态动作对计数的平方根成反比的内部奖励，并理化学习方法的上层策略往往能够处理更大时间尺论证明了其最优性：度的决策，同时分层强化学习方法还能缩小各层 rm(s,a）=BW(s,a)i 策略的动作序列空间，进一步提高了解决稀疏奖式中：B是常系数；N(s,a)是状态动作对(s,a)的励问题的能力。计数值。为了将访问计数法推广到高维连续状态目前用于稀疏奖励问题的分层强化学习算法空间中，Tang等使用哈希函数将连续的状态空主要有两类，基于选项6(option)的方法和基于子目标Is(subgoal)的方法。间离散化进行计数，该方法在多个连续动作控制问题中取得了成功。基于选项的方法结构简单，上层策略在多个预测差法通过学习环境的状态转移，使用预下层策略中进行选择，被选择的下层策略输出动作，如图4所示。Sutton等s将基于选项的分层测误差作为内在奖励，能降低环境动态的不确定性。预测差法中使用状态3，和动作4，来预测新算法表述为半马尔可夫决策过程(SMDP),并推导的状态s+1的方法被称作前向动态方法(forward 出在动态规划、Q-Learning中基于选项方法的公 dynamic))9。Stadie等B提出一种根据编码后的式。Bacon等)将基于选项的分层方法和策略梯状态(s,)和动作a,来预测(s+)的前向动态方度法结合，提出了Option-Critic算法，并通过实验法，使用归一化的预测误差计算内在奖励，预测验证了该方法能够学习到具有实际意义的选项策误差为略。Frans等s结合元学习方法来训练基于选项的分层结构，在多个连续动作控制问题中显著提 e(5.a)=(s1)-M((5,).a) 高了学习速度。其中M表示预测网络，该方法能够有效解决大规选择子策略模游戏环境的探索问题。Pathak等认为好奇心主策略0 驱动存在电视噪声问题，于是提出ICM(intrinsic curiosity module),在前向动态模型的基础上增加子策略，状态s 环境奖励r 了使用(s+)和(s)来预测a,的逆向模型，如子策略甲：图3所示。逆向模型的作用是提取对智能体选择动作有影响的特征啊，能够缓解电视噪声问题。子策略o 预测动作a, 逆向模型动作a 图4基于选项的分层结构示意图状态S 状态映射 Fig.4 Schematic of option-based HRL methods 内在奖励r 状态S, 状态映射 -(S) 基于子目标的方法结构则是：上层策略生成动作a 前向模型子目标，下层策略输出动作去实现子目标，如图5 所示。Vezhnevets等s7提出FeUdal Networks,.将图3ICM原理图子目标设定为隐状态空间中的方向，在蒙特祖玛 Fig.3 Schematic of ICM 复仇等多个Atari游戏中的表现均超过基线算状态编码是高维连续状态空间下的好奇心驱法。Nachum等s81认为，采用离线策略训练分层动算法一个重要研究内容。Burda等l对比了结构将因为策略的改变产生偏差，可能导致训练 ICM、VAE、Random Network、Pixels4种编码方不稳定，因此提出了使用离线数据校正的HRO 式在54个游戏中的实验结果，得出以下结论：ICM 算法，在Ant-Gather、Ant-Maze等复杂的连续动作的泛化性最好，Random Network也足以在45%的控制环境中表现均优于FeUdal Networks。Ley等例游戏中超过ICM,意味着很多游戏只需使用固定提出了HAC(hierarchical actor critic),该方法在基的随机网络就能够提取足够的特征用于策略学于子目标的分层算法基础上，结合了事后经验回习，对后续的研究具有启示作用。放算法极大提升了学习速度且表现好于HRO

访问计数法使用访问次数定义状态的陌生程度，鼓励智能体探索更陌生的状态，以提高探索能力和降低对奖励估计的不确定性。Strehl 等 [47] 提出了一种基于模型的内在奖励方法，使用与状态动作对计数的平方根成反比的内部奖励，并理论证明了其最优性： rin (s,a) = βN(s,a) − 1 2 式中： β 是常系数； N(s,a) 是状态动作对 (s,a) 的计数值。为了将访问计数法推广到高维连续状态空间中，Tang 等 [48] 使用哈希函数将连续的状态空间离散化进行计数，该方法在多个连续动作控制问题中取得了成功。 st at st+1 ϕ(st) at ϕ(st+1) 预测差法通过学习环境的状态转移，使用预测误差作为内在奖励，能降低环境动态的不确定性。预测差法中使用状态和动作来预测新的状态的方法被称作前向动态方法 (forward dynamic)[49]。Stadie 等 [50] 提出一种根据编码后的状态和动作来预测的前向动态方法，使用归一化的预测误差计算内在奖励，预测误差为 e (st ,at ,st+1) = ∥ϕ(st+1)− M (ϕ(st),at)∥ 2 2 M ϕ(st+1) ϕ(st) at 其中表示预测网络，该方法能够有效解决大规模游戏环境的探索问题。Pathak 等 [45] 认为好奇心驱动存在电视噪声问题，于是提出 ICM(intrinsic curiosity module)，在前向动态模型的基础上增加了使用和来预测的逆向模型，如图 3 所示。逆向模型的作用是提取对智能体选择动作有影响的特征[45] ，能够缓解电视噪声问题。动作at 状态St 状态映射状态St+1 状态映射前向模型内在奖励rt 预测动作at 逆向模型 ϕ (St+1) ϕ (St ) 图 3 ICM 原理图 Fig. 3 Schematic of ICM 状态编码是高维连续状态空间下的好奇心驱动算法一个重要研究内容。Burda 等 [16] 对比了 ICM、VAE[51] 、Random Network、Pixels 4 种编码方式在 54 个游戏中的实验结果，得出以下结论：ICM 的泛化性最好，Random Network 也足以在 45% 的游戏中超过 ICM，意味着很多游戏只需使用固定的随机网络就能够提取足够的特征用于策略学习，对后续的研究具有启示作用。 2.6 分层强化学习分层强化学习 (HRL) 是一类使用分层策略结构的方法，分层的结构能够学习不同层次的策略，从而有效解决维度爆炸的问题[16, 52]。分层强化学习方法的上层策略往往能够处理更大时间尺度的决策，同时分层强化学习方法还能缩小各层策略的动作序列空间，进一步提高了解决稀疏奖励问题的能力。目前用于稀疏奖励问题的分层强化学习算法主要有两类[52] ，基于选项[53] (option) 的方法和基于子目标[54] (subgoal) 的方法。基于选项的方法结构简单，上层策略在多个下层策略中进行选择，被选择的下层策略输出动作，如图 4 所示。Sutton 等 [ 53] 将基于选项的分层算法表述为半马尔可夫决策过程 (SMDP)，并推导出在动态规划、Q-Learning 中基于选项方法的公式。Bacon 等 [55] 将基于选项的分层方法和策略梯度法结合，提出了 Option-Critic 算法，并通过实验验证了该方法能够学习到具有实际意义的选项策略。Frans 等 [56] 结合元学习方法来训练基于选项的分层结构，在多个连续动作控制问题中显著提高了学习速度。动作a 状态s 奖励r 子策略φ3 子策略φ1 子策略φ2 环境主策略θ 选择子策略图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods 基于子目标的方法结构则是：上层策略生成子目标，下层策略输出动作去实现子目标，如图 5 所示。Vezhnevets 等 [57] 提出 FeUdal Networks，将子目标设定为隐状态空间中的方向，在蒙特祖玛复仇等多个 Atari 游戏中的表现均超过基线算法。Nachum 等 [ 58] 认为，采用离线策略训练分层结构将因为策略的改变产生偏差，可能导致训练不稳定，因此提出了使用离线数据校正的 HIRO 算法，在 Ant-Gather、Ant-Maze 等复杂的连续动作控制环境中表现均优于 FeUdal Networks。Levy 等 [59] 提出了 HAC(hierarchical actor critic)，该方法在基于子目标的分层算法基础上，结合了事后经验回放算法极大提升了学习速度且表现好于 HIRO。 ·892· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录