第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0L:10.11992tis.202003031 强化学习稀疏奖励算法研究——理论与实验 杨瑞,严江鹏',李秀 (1.清华大学自动化系,北京100084:2.清华大学深圳国际研究生院,广东深圳518055) 摘要:近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖 励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏 奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀硫 奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好 奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行 实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依 赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 关键词:强化学习:深度强化学习:机器学习:稀疏奖励:神经网络;人工智能:深度学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)05-0888-12 中文引用格式:杨瑞,严江鹏,李秀.强化学习稀疏奖励算法研究一一理论与实验.智能系统学报,2020,15(⑤):888-899. 英文引用格式:YANG Rui,YAN Jiangpeng,.LI Xiu..Survey of sparse reward algorithms in reinforcement learning一theory and experiment JI.CAAI transactions on intelligent systems,2020,15(5):888-899. Survey of sparse reward algorithms in reinforcement learning-theory and experiment YANG Rui',YAN Jiangpeng',LI Xiu'2 (1.Department of Automation,Tsinghua University,Beijing 100084,China;2.Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China) Abstract:In recent years,reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control.However,the reward signals are very sparse in many real-world situ- ations,which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem.Research on sparse reward can advance both the theory and actual ap- plications of reinforcement learning.We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms:reward shaping,imitation learn- ing,curriculum learning,hindsight experience replay,curiosity-driven algorithms,and hierarchical reinforcement learn- ing.To conduct experiments in the sparse reward environment Fetch Reach,we implemented typical algorithms from the above six classes,followed by thorough comparison and analysis of the results.Algorithms that utilize external in- formation were found to outperform those without external information,but the latter are less dependent on data.Both methods have great research significance.At last,summarize the current sparse reward algorithms and forecast future work Keywords:reinforcement learning,deep reinforcement learning;machine learning:sparse reward;neural networks;arti- ficial intelligence;deep learning 收稿日期:2020-03-19. 基金项目:国家自然科学基金项目(41876098). 强化学习(reinforcement learning)是一类智能 通信作者:李秀.E-mail:li.xiu(@sz.tsinghua.edu.cn 体在与环境的交互中不断试错来学习最优策略的
DOI: 10.11992/tis.202003031 强化学习稀疏奖励算法研究——理论与实验 杨瑞1 ,严江鹏1 ,李秀1,2 (1. 清华大学 自动化系,北京 100084; 2. 清华大学 深圳国际研究生院,广东 深圳 518055) 摘 要:近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖 励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏 奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏 奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好 奇心驱动、分层强化学习等方法。本文在稀疏奖励环境 Fetch Reach 上实现了以上 6 类方法的代表性算法进行 实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依 赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 关键词:强化学习;深度强化学习;机器学习;稀疏奖励;神经网络;人工智能;深度学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)05−0888−12 中文引用格式:杨瑞, 严江鹏, 李秀. 强化学习稀疏奖励算法研究——理论与实验 [J]. 智能系统学报, 2020, 15(5): 888–899. 英文引用格式:YANG Rui, YAN Jiangpeng, LI Xiu. Survey of sparse reward algorithms in reinforcement learning — theory and experiment[J]. CAAI transactions on intelligent systems, 2020, 15(5): 888–899. Survey of sparse reward algorithms in reinforcement learning — theory and experiment YANG Rui1 ,YAN Jiangpeng1 ,LI Xiu1,2 (1. Department of Automation, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518055, China) Abstract: In recent years, reinforcement learning has achieved great success in a range of sequential decision-making applications such as games and robotic control. However, the reward signals are very sparse in many real-world situations, which makes it difficult for agents to determine an optimal strategy based on interaction with the environment. This problem is called the sparse reward problem. Research on sparse reward can advance both the theory and actual applications of reinforcement learning. We investigated the current research status of the sparse reward problem and used the external information as the clue to introduce the following six classes of algorithms: reward shaping, imitation learning, curriculum learning, hindsight experience replay, curiosity-driven algorithms, and hierarchical reinforcement learning. To conduct experiments in the sparse reward environment Fetch Reach, we implemented typical algorithms from the above six classes, followed by thorough comparison and analysis of the results. Algorithms that utilize external information were found to outperform those without external information, but the latter are less dependent on data. Both methods have great research significance. At last, summarize the current sparse reward algorithms and forecast future work. Keywords: reinforcement learning; deep reinforcement learning; machine learning; sparse reward; neural networks; artificial intelligence; deep learning 强化学习 (reinforcement learning) 是一类智能 体在与环境的交互中不断试错来学习最优策略的 收稿日期:2020−03−19. 基金项目:国家自然科学基金项目 (41876098). 通信作者:李秀. E-mail:li.xiu@sz.tsinghua.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 杨瑞,等:强化学习稀疏奖励算法研究—理论与实验 ·889· 机器学习方法,主要用于解决序贯决策问题。 R (1) 在最近五年时间里,AlphaGO!)3、AlphaStar!) OpenAIFivel分别在围棋、星际争霸Ⅱ、Dota2击 败了人类最高水平的玩家,强化学习一度成为了 环境 Environment 人工智能最热门的研究领域之一。AlphaGo的主 状态S 奖励r 要作者David Silver认为向,强化学习与深度学习 动作a 相结合,是实现通用人工智能(general intelli- gence)的关键。 状态S, 智能体 在强化学习中,奖励(reward)起到了引导智 Agent 能体学习方向的作用”,缺乏奖励信息将导致智 图1智能体与环境交互示意图 能体学习缓慢甚至无法学习到最优策略,这就是 Fig.1 Schematic of interactions between agent and envir- 稀疏奖励问题(sparse reward problem)。例如,在 onment 蒙特祖玛复仇游戏中,玩家需要依次执行上百个 为了完成最大化累计折扣奖励值的目标,需 动作才能获得奖励,这使其成为了Atari游戏中最 要引人策略(policy)和值函数(value function)两个 困难的任务之一0。此外,在很多实际任务中,不 重要概念。策略可以描述为当前状态,下选择 存在现成的奖励值,人为设计的奖励函数又常常 动作a的概率: 陷入局部最优,这些问题限制了强化学习的实 π(als)=P(als). 际应用。稀疏奖励问题的研究能够降低奖励函数 值函数是指从状态s或状态动作对(s,a)出 的设计难度,提高学习算法的样本利用率,加速 发能获得累积奖励值的期望,用于评价状态、状 策略学习的速度,为强化学习的广泛应用与落地 态动作对的好坏。状态值函数V(s),动作值函数 打下理论基础。 Q(s,a)分别为 本文总结了当前主流的稀疏奖励算法,围绕 V(s)= (2) 是否引入外部引导信息,将当下主流的稀疏奖励 问题解决思路分为两类,分别介绍了奖励塑造) Q(s,a)=E (reward shaping)、模仿学习l(imitation learning)、 .j.-x.a-o (3) 课程学习(curriculum learning)和事后经验回放 深度强化学习与传统强化学习的区别是使用 (hindsight experience replay)、好奇心驱动(curios-- 了深度神经网络来拟合值函数、策略或环境动态 ity-driven algorithms))、分层强化学习(hierarchical 模型。神经网络的引入提高了强化学习解决大 reinforcement learning)等6类算法,并在Mu- 规模复杂问题的能力,在众多领域取得了令人瞩 joco的Fetch Reach环境I下进行了实验验证和 目的成绩。目前的深度强化学习方法可以 分为以下3类:基于值函数的方法、基于策略梯 分析,实验代码开源在以下地址:https:/github. 度(policy gradient)的方法以及Actor-Critic的方法。 com/YangRui2015/Sparse-Reward-Algorithmso 3类方法的代表分别是DQN2-2、REINFORCE2a 1强化学习与稀疏奖励问题数学模型 Actor--Critic2,从Actor--Critie还衍生出A3Cl2 PPO21、DDPG2等一系列当前主流的强化学习 当强化学习问题满足马尔可夫性时,就能将 算法 其描述为由五元组(⑤,A,P,R,y)定义的马尔可夫决 基于值函数的方法,以DQN202为例,用w 策过程(MDP),其中S为状态空间,A为动作空 代表神经网络的参数,其损失函数为四 间,P为状态转移概率矩阵,R为奖励值,y∈(O, 为折扣因子。智能体每个时刻观测到的状态 loss-E(r+ymaxQ(.d.w)-Q(s.a.w (4) S,∈S,根据状态执行动作a,∈A,环境接收到动作 根据式(1)、(3)、(4),在奖励值几乎为零的稀 后转移到新的状态5+1并反馈一个数值的奖励, 疏奖励情况下,值函数的估计Q(s,a)接近零,值 如图1所示。 函数网络更新缓慢。 强化学习的目标就是最大化累计折扣奖 基于策略梯度的方法,以REINFORCE22为 励值-: 例,0代表神经网络的参数,其更新梯度为
机器学习方法[1-2] ,主要用于解决序贯决策问题。 在最近五年时间里,AlphaGO[ 3 ] 、AlphaStar[ 4 ] 、 OpenAIFive[5] 分别在围棋、星际争霸 II、Dota 2 击 败了人类最高水平的玩家,强化学习一度成为了 人工智能最热门的研究领域之一。AlphaGo 的主 要作者 David Silver 认为[6] ,强化学习与深度学习 相结合,是实现通用人工智能 (general intelligence) 的关键。 在强化学习中,奖励 (reward) 起到了引导智 能体学习方向的作用[7-8] ,缺乏奖励信息将导致智 能体学习缓慢甚至无法学习到最优策略,这就是 稀疏奖励问题[9] (sparse reward problem)。例如,在 蒙特祖玛复仇游戏中,玩家需要依次执行上百个 动作才能获得奖励,这使其成为了 Atari 游戏中最 困难的任务之一[10]。此外,在很多实际任务中,不 存在现成的奖励值,人为设计的奖励函数又常常 陷入局部最优[11] ,这些问题限制了强化学习的实 际应用。稀疏奖励问题的研究能够降低奖励函数 的设计难度,提高学习算法的样本利用率,加速 策略学习的速度,为强化学习的广泛应用与落地 打下理论基础[12]。 本文总结了当前主流的稀疏奖励算法,围绕 是否引入外部引导信息,将当下主流的稀疏奖励 问题解决思路分为两类,分别介绍了奖励塑造[13] (reward shaping)、模仿学习[14] (imitation learning)、 课程学习[15] (curriculum learning) 和事后经验回放[11] (hindsight experience replay)、好奇心驱动[16] (curiosity-driven algorithms)、分层强化学习[17] (hierarchical reinforcement learning) 等 6 类算法,并在 Mujoco 的 Fetch Reach 环境[18] 下进行了实验验证和 分析,实验代码开源在以下地址:https://github. com/YangRui2015/Sparse-Reward-Algorithms。 1 强化学习与稀疏奖励问题数学模型 (S,A,P,R, γ) S A P R γ ∈ (0,1] st ∈ S at ∈ A st+1 rt 当强化学习问题满足马尔可夫性时,就能将 其描述为由五元组 定义的马尔可夫决 策过程 (MDP)[1-2] ,其中 为状态空间, 为动作空 间, 为状态转移概率矩阵, 为奖励值, 为折扣因子。智能体每个时刻观测到的状态 ,根据状态执行动作 ,环境接收到动作 后转移到新的状态 并反馈一个数值的奖励 , 如图 1 所示。 强化学习的目标就是最大化累计折扣奖 励值[1-2] : R = ∑∞ k=0 ( γ k rt+k ) . (1) 环境 Environment 智能体 Agent 动作at 状态St+1 奖励rt 状态St 图 1 智能体与环境交互示意图 Fig. 1 Schematic of interactions between agent and environment st at 为了完成最大化累计折扣奖励值的目标,需 要引入策略 (policy) 和值函数 (value function) 两个 重要概念。策略可以描述为当前状态 下选择 动作 的概率: π(at |st) = P(at |st). s (s,a) V (s) Q(s,a) 值函数是指从状态 或状态动作对 出 发能获得累积奖励值的期望,用于评价状态、状 态动作对的好坏。状态值函数 ,动作值函数 分别为 V (s) = E ∑∞ k=0 ( γ k rt+k ) |st = s (2) Q(s,a) = E ∑∞ k=0 ( γ k rt+k ) |st = s, at = a (3) 深度强化学习与传统强化学习的区别是使用 了深度神经网络来拟合值函数、策略或环境动态 模型[8]。神经网络的引入提高了强化学习解决大 规模复杂问题的能力,在众多领域取得了令人瞩 目的成绩[ 1 9 ]。目前的深度强化学习方法可以 分为以下 3 类:基于值函数的方法、基于策略梯 度 (policy gradient) 的方法以及 Actor-Critic 的方法[7]。 3 类方法的代表分别是 DQN[20-21] 、REINFORCE[22] 、 Actor-Critic[23] ,从 Actor-Critic 还衍生出 A3C[24] 、 PPO[25] 、DDPG[26] 等一系列当前主流的强化学习 算法。 基于值函数的方法,以 DQN w [ 20-21] 为例,用 代表神经网络的参数,其损失函数为[20] loss = E [( r +γmax a ′ Q(s ′ ,a ′ ,w)− Q(s,a,w) )2 ] (4) Q(s,a) 根据式 (1)、(3)、(4),在奖励值几乎为零的稀 疏奖励情况下,值函数的估计 接近零,值 函数网络更新缓慢。 θ 基于策略梯度的方法,以 REINFORCE[22] 为 例, 代表神经网络的参数,其更新梯度为 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·889·
·890· 智能系统学报 第15卷 7r(ds:)=Vlogπ(as:)R (5) 励问题中奖励的稀疏性,加快智能体学习速度。 根据式(1)、(5),在稀疏奖励的条件下,累积 通常用R(s,a,s)表示原MDP的奖励函数,用 奖励值R接近零,因此策略网络更新缓慢。 F(s,a,s)表示附加奖励函数,使用奖励塑造后新 基于Actor--Critic!21的方法同理,Critic部分基 MDP的奖励函数为 于值函数更新,Actor部分基于策略梯度更新,稀 R(s,a,s')=R(s,a,s')+F(s,a,s) 疏奖励的条件下两部分梯度更新均接近于零。 但是在新的MDP问题中学习到的最优策略 稀疏奖励问题除了奖励的稀疏性导致学习缓 不一定是原MDP的最优策略,也就可能导致奖 慢外,还可能存在稀疏性带来的估计不可靠的问 励塑造后学习到非理论最优的策略27-2。Ng等2可 题,由于奖励样本少,值函数估计的方差较大,这 证明了当附加奖励函数可以表示为势能函数(s) 会导致模型训练难以收敛。研究者们为解决以上 (potiental based funciton)的差分形式时,能够保证 问题,进行了一系列的研究工作。 最优策略不变。 2稀疏奖励研究现状 F(s,a,s)=y(s)-Φ(s) 其中:s表示s的下一个状态,y是原MDP中的 目前解决稀疏奖励问题的算法主要有奖励塑 折扣因子,势能函数(s)是状态到实数的映射。 造、模仿学习、课程学习、事后经验回放、好奇心 Ng等2刃使用距离、子目标来设计启发式的 驱动、分层强化学习等6类算法,我们可以根据 附加奖励函数,在表格问题中明显加速了学习过 是否引入外部引导信息将算法分为两大类,如图2 程;Jagodnik等29使用距离信息计算和人为主观 所示。引入外部引导信息的算法通常针对特定问 评价两种方式作为奖励函数来控制手臂仿真机器 题,需要相应的领域知识或数据,泛化性较差,同 人,结果均好于优化的比例微分控制器(PD con- 时也因为先验知识的引入,降低了强化学习模型 troller):Ferreira等o将奖励塑造的强化学习方法 的学习难度,通常具有实现简单、学习速度快的 引入对话管理任务中,显著提高了前期训练阶段 特点,这一类型算法有奖励塑造、模仿学习、课程 的表现。 学习。无外部引导信息的算法通过挖掘模型、数 为了克服奖励塑造泛化性较差的问题,研究 据自身的潜能,泛化性能更好,但是模型通常更 者们提出了一些自动化地设计奖励函数的方法。 为复杂,这一类型算法包括好奇心驱动、事后经 Ng等I]提出逆强化学习(inverse reinforcement 验回放、分层强化学习。接下来我们将对各个方 learning)的概念,将专家示例看作为最优或者次 法进行展开介绍。 优的策略,然后从专家示例的数据中学习出奖励 设计奖励函数 函数用于指导智能体训练。Marthi提出基于抽 励塑造 模仿专家 象函数(abstrcat function)的自动奖励塑造方法,通 引入外部引导信息 策略 模仿学习 过求解抽象MDP问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 ·课程学习 设置由简到难的课程 2.2模仿学习 稀疏奖励 模仿学习是一类从示例数据中学习策略的方 从失败经历中学习 法。稀疏奖励问题往往具有巨大的状态动作空 事后经验回放 间,难以直接进行探索和学习,使用示例数据进 平衡探索 和利用 好奇心驱动 行监督式的学习能够使智能体快速掌握示例策 无外部引导信息 略,极大减少了训练时间。 分层强化学习 模仿学习中如果只使用示例数据进行监督学 使用分层的策略结构 习,难以泛化到陌生的环境中,且长时间步的决 图2稀疏奖励主流算法 策将导致误差累积,逐渐偏离示例策略B。Ross Fig.2 Mainstream sparse reward algorithms 等证明了误差与时间步的平方成正比,为此提 2.1奖励塑造 出在交互中缓慢移动策略分布的SMLe(stochast-. 奖励塑造通常是利用先验知识人工设计附加 ic mixing iterative learning)算法,并理论证明了其 奖励函数1来引导智能体完成期望任务的一类 收敛性。Nair等B在策略梯度算法中引入行为 方法。合适的附加奖励函数能够有效克服稀疏奖 克隆损失(behavior clone loss)来学习示例策略,能
∇θπ(a|s; θ) = ∇θ logπ(a|s; θ)Rt (5) Rt 根据式 (1)、(5),在稀疏奖励的条件下,累积 奖励值 接近零,因此策略网络更新缓慢。 基于 Actor-Critic[23] 的方法同理,Critic 部分基 于值函数更新,Actor 部分基于策略梯度更新,稀 疏奖励的条件下两部分梯度更新均接近于零。 稀疏奖励问题除了奖励的稀疏性导致学习缓 慢外,还可能存在稀疏性带来的估计不可靠的问 题,由于奖励样本少,值函数估计的方差较大,这 会导致模型训练难以收敛。研究者们为解决以上 问题,进行了一系列的研究工作。 2 稀疏奖励研究现状 目前解决稀疏奖励问题的算法主要有奖励塑 造、模仿学习、课程学习、事后经验回放、好奇心 驱动、分层强化学习等 6 类算法,我们可以根据 是否引入外部引导信息将算法分为两大类,如图 2 所示。引入外部引导信息的算法通常针对特定问 题,需要相应的领域知识或数据,泛化性较差,同 时也因为先验知识的引入,降低了强化学习模型 的学习难度,通常具有实现简单、学习速度快的 特点,这一类型算法有奖励塑造、模仿学习、课程 学习。无外部引导信息的算法通过挖掘模型、数 据自身的潜能,泛化性能更好,但是模型通常更 为复杂,这一类型算法包括好奇心驱动、事后经 验回放、分层强化学习。接下来我们将对各个方 法进行展开介绍。 奖励塑造 课程学习 分层强化学习 模仿学习 引入外部引导信息 设置由简到难的课程 使用分层的策略结构 从失败经历中学习 设计奖励函数 模仿专家 策略 无外部引导信息 好奇心驱动 事后经验回放 稀疏奖励 平衡探索 和利用 图 2 稀疏奖励主流算法 Fig. 2 Mainstream sparse reward algorithms 2.1 奖励塑造 奖励塑造通常是利用先验知识人工设计附加 奖励函数[13] 来引导智能体完成期望任务的一类 方法。合适的附加奖励函数能够有效克服稀疏奖 R(s,a,s ′ ) F(s,a,s ′ ) 励问题中奖励的稀疏性,加快智能体学习速度。 通常用 表 示 原 M DP 的奖励函数,用 表示附加奖励函数,使用奖励塑造后新 MDP 的奖励函数为 R ′ (s,a,s ′ ) = R(s,a,s ′ )+ F (s,a,s ′ ) Φ(s) 但是在新的 MDP 问题中学习到的最优策略 不一定是原 MDP 的最优策略,也就可能导致奖 励塑造后学习到非理论最优的策略[27-28]。Ng 等 [27] 证明了当附加奖励函数可以表示为势能函数 (potiental based funciton) 的差分形式时,能够保证 最优策略不变。 F (s,a,s ′ ) = γΦ(s ′ )−Φ(s) s ′ s γ Φ(s) 其中: 表示 的下一个状态, 是原 MDP 中的 折扣因子,势能函数 是状态到实数的映射。 Ng 等 [ 27] 使用距离、子目标来设计启发式的 附加奖励函数,在表格问题中明显加速了学习过 程;Jagodnik 等 [29] 使用距离信息计算和人为主观 评价两种方式作为奖励函数来控制手臂仿真机器 人,结果均好于优化的比例微分控制器 (PD controller);Ferreira 等 [30] 将奖励塑造的强化学习方法 引入对话管理任务中,显著提高了前期训练阶段 的表现。 为了克服奖励塑造泛化性较差的问题,研究 者们提出了一些自动化地设计奖励函数的方法。 Ng 等 [ 31] 提出逆强化学习 (inverse reinforcement learning) 的概念,将专家示例看作为最优或者次 优的策略,然后从专家示例的数据中学习出奖励 函数用于指导智能体训练。Marthi[32] 提出基于抽 象函数 (abstrcat function) 的自动奖励塑造方法,通 过求解抽象 MDP 问题的势能函数,再计算势能 函数的差分就得到了附加奖励函数。 2.2 模仿学习 模仿学习是一类从示例数据中学习策略的方 法 [14]。稀疏奖励问题往往具有巨大的状态动作空 间,难以直接进行探索和学习,使用示例数据进 行监督式的学习能够使智能体快速掌握示例策 略,极大减少了训练时间。 模仿学习中如果只使用示例数据进行监督学 习,难以泛化到陌生的环境中,且长时间步的决 策将导致误差累积,逐渐偏离示例策略[33]。Ross 等 [33] 证明了误差与时间步的平方成正比,为此提 出在交互中缓慢移动策略分布的 SMILe (stochastic mixing iterative learning) 算法,并理论证明了其 收敛性。Nair 等 [34] 在策略梯度算法中引入行为 克隆损失 (behavior clone loss) 来学习示例策略,能 ·890· 智 能 系 统 学 报 第 15 卷
第5期 杨瑞,等:强化学习稀疏奖励算法研究— 理论与实验 ·891· 够完成复杂的机械臂控制任务,其行动损失函 不同课程阶段对应的分布满足嫡增和权重单 数为 调增加: H(Q(2)<H(Q+e(z),Ye>0 LBC= (s:l0)-a W+.(a)<W(z),z,e>0 其中:(s,a)是示例数据,π和0分别是智能体的 课程学习的一个难点在于如何自动化地设计 策略和策略的参数。Ho等3将对抗生成网络的 课程的分级,解决这个问题需要考虑训练模型时 思想引入模仿学习提出生成对抗模仿学习(gener-. 的反馈。Graves等3提出一种自适应课程学习 ative adversarial imitation learning,GAL),使用生成 方法,通过预测正确率和网络复杂性的增长来自 模型产生行为数据,使用判别模型区分行为数据 动调整课程的难度,在语言模型训练任务上显著 和专家策略数据,GAL在复杂高维环境的模仿 提高了训练速度。Akkaya等o提出ADR(auto- 任务中超过了现有方法,其优化目标函数为 matic domain randomization),通过设定表现阈值, Ez [log(D(s.a))]+Ez [log(1-D(s,a))]H() 当正确率高于表现阈值时就扩大训练的分布提高 式中:π是生成模型的策略;πE是专家策略;D是 课程难度,反之缩小训练分布,在复杂的魔方操 判别模型;H是熵函数;入是系数。 作任务中取得了成功。 通常模仿学习中的示例状态动作对(s,a,)不 2.4事后经验回放 容易获得,而示例状态序列(5o,51,…,5,)更容易获 事后经验回放(HER)是一种从失败经历中 得,从示例状态序列进行模仿学习的任务被称为 学习的强化学习方法,通过修正失败经历的目标 “从观测学习”(learning from observation)36。 产生奖励信息,解决了奖励的稀疏性问题,同时 Torabi等Im提出BCO(behavioral cloning from ob- 对失败样本的利用极大提高了样本利用效率。G servation),通过学习环境动态模型预测示例观测 表示目标空间,g∈G是实验目标,g∈G是实际实 序列的动作,然后使用行为克隆进行模仿学习, 现的目标,HER将经验数据中目标修改为g,就 在多个任务中的表现超过了GAL。 产生了成功的回合数据用于策略训练。HER的 2.3课程学习 实现将在第3节的实验部分进行更具体的介绍。 课程学习是机器学习中逐步增加任务难度以 目前对于事后经验回放算法的改进主要在于 加快学习速度的方法。在强化学习中课程学习实 降低偏差、改进目标采样方式、适配在线策略算 质上在逐步调整学习的任务分布,智能体在简单 法等。Lanka等认为HER修改目标引入的新 任务上更容易获得奖励,将相对简单的任务上学 数据带来了偏差,提出通过调整真实奖励和HER的 到的策略迁移到复杂任务中,降低了在复杂任务 奖励的权重来降低偏差。Manela等s指出,在目 中探索的难度,因此课程学习能够用于解决稀疏 标物体未移动的情况下,采样的目标只与初始位 奖励问题w。 置有关而与策略无关,这样的样本会给训练带来 Elmant38最早提出在语法学习任务中使用逐 偏差,于是提出Filtered-HER,通过滤去该类型目 步增加训练数据复杂度的方法来训练神经网络, 标来缓解该问题。Rauber等1通过重要性采样 能够解决直接使用全部数据难以训练的问题。 将HER运用到策略梯度方法上,实验结果表明 Bengio等认为,课程学习的本质是逐步调整学 HER明显提高了策略梯度方法的样本利用效率。 习样本的分布,在简单的样本分布上更容易学习 25好奇心驱动 到泛化性好的策略,并通过实验证明了课程学习 好奇心驱动是一类使用内在奖励引导智能 能够提高训练速度和收敛到更优解。Bengio等 体探索环境的方法,高效的探索能够更快地获得 给出了课程学习的数学定义,?表示训练样本,P(?) 外在奖励,同时能够降低环境的奖励、状态转 表示目标训练集分布,入∈[0,1]表示课程学习的阶 移的不确定性,平衡探索与利用,因此好奇心 段,W()是A阶段样本z的采样权重,A阶段训 驱动能解决稀硫奖励问题带来的稀硫性和不可 练分布Q()为 靠性问题。目前的好奇心驱动算法根据内在奖 Q(z)o Wa(zP(z),Yz 励计算方式可以分为访问计数法和预测差法的。 其中Q满足: Bellemare等s通过信息增益(information gain))来 ∫Q(z)dk=1 联系访问计数法和预测差法,证明了两者本质是 Q()=P(),Yz 相同的
够完成复杂的机械臂控制任务,其行动损失函 数为 LBC = ∑N i=1 ∥π(si |θπ)−ai∥ 2 2 (si 其中: ,ai) 是示例数据,π 和 θπ 分别是智能体的 策略和策略的参数。Ho 等 [35] 将对抗生成网络的 思想引入模仿学习提出生成对抗模仿学习 (generative adversarial imitation learning,GAIL),使用生成 模型产生行为数据,使用判别模型区分行为数据 和专家策略数据,GAIL 在复杂高维环境的模仿 任务中超过了现有方法,其优化目标函数为 Eπ [ log(D(s,a))] + EπE [ log(1− D(s,a))] −λH (π) π πE D H λ 式中: 是生成模型的策略; 是专家策略; 是 判别模型; 是熵函数; 是系数。 (st ,at) (s0,s1,··· ,st) 通常模仿学习中的示例状态动作对 不 容易获得,而示例状态序列 更容易获 得,从示例状态序列进行模仿学习的任务被称为 “从观测学习”(learning from observation)[ 36]。 Torabi 等 [37] 提出 BCO(behavioral cloning from observation),通过学习环境动态模型预测示例观测 序列的动作,然后使用行为克隆进行模仿学习, 在多个任务中的表现超过了 GAIL。 2.3 课程学习 课程学习是机器学习中逐步增加任务难度以 加快学习速度的方法。在强化学习中课程学习实 质上在逐步调整学习的任务分布,智能体在简单 任务上更容易获得奖励,将相对简单的任务上学 到的策略迁移到复杂任务中,降低了在复杂任务 中探索的难度,因此课程学习能够用于解决稀疏 奖励问题[14]。 z P(z) λ ∈ [0,1] Wλ (z) λ z λ Qλ (z) Elman[38] 最早提出在语法学习任务中使用逐 步增加训练数据复杂度的方法来训练神经网络, 能够解决直接使用全部数据难以训练的问题。 Bengio 等 [15] 认为,课程学习的本质是逐步调整学 习样本的分布,在简单的样本分布上更容易学习 到泛化性好的策略,并通过实验证明了课程学习 能够提高训练速度和收敛到更优解。Bengio 等 [15] 给出了课程学习的数学定义, 表示训练样本, 表示目标训练集分布, 表示课程学习的阶 段, 是 阶段样本 的采样权重, 阶段训 练分布 为 Qλ (z) ∝ Wλ (z)P(z),∀z 其中 Qλ 满足: ∫ Qλ (z)dz = 1 Q1 (z) = P(z),∀z 不同课程阶段对应的分布满足熵增和权重单 调增加: H (Qλ (z)) < H (Qλ+ϵ (z)),∀ϵ > 0 Wλ+ϵ (z) < Wλ (z),∀z,∀ϵ > 0 课程学习的一个难点在于如何自动化地设计 课程的分级,解决这个问题需要考虑训练模型时 的反馈。Graves 等 [ 39] 提出一种自适应课程学习 方法,通过预测正确率和网络复杂性的增长来自 动调整课程的难度,在语言模型训练任务上显著 提高了训练速度。Akkaya 等 [ 40] 提出 ADR(automatic domain randomization),通过设定表现阈值, 当正确率高于表现阈值时就扩大训练的分布提高 课程难度,反之缩小训练分布,在复杂的魔方操 作任务中取得了成功。 2.4 事后经验回放 G g ∈ G g ′ ∈ G g ′ 事后经验回放 (HER)[11] 是一种从失败经历中 学习的强化学习方法,通过修正失败经历的目标 产生奖励信息,解决了奖励的稀疏性问题,同时 对失败样本的利用极大提高了样本利用效率。 表示目标空间, 是实验目标, 是实际实 现的目标,HER 将经验数据中目标修改为 ,就 产生了成功的回合数据用于策略训练。HER 的 实现将在第 3 节的实验部分进行更具体的介绍。 目前对于事后经验回放算法的改进主要在于 降低偏差、改进目标采样方式、适配在线策略算 法等。Lanka 等 [41] 认为 HER 修改目标引入的新 数据带来了偏差,提出通过调整真实奖励和 HER 的 奖励的权重来降低偏差。Manela 等 [42] 指出,在目 标物体未移动的情况下,采样的目标只与初始位 置有关而与策略无关,这样的样本会给训练带来 偏差,于是提出 Filtered-HER,通过滤去该类型目 标来缓解该问题。Rauber 等 [43] 通过重要性采样 将 HER 运用到策略梯度方法上,实验结果表明 HER 明显提高了策略梯度方法的样本利用效率。 2.5 好奇心驱动 好奇心驱动是一类使用内在奖励引导智能 体探索环境的方法,高效的探索能够更快地获得 外在奖励[16] ,同时能够降低环境的奖励、状态转 移的不确定性,平衡探索与利用[44] ,因此好奇心 驱动能解决稀疏奖励问题带来的稀疏性和不可 靠性问题。目前的好奇心驱动算法根据内在奖 励计算方式可以分为访问计数法和预测差法[45]。 Bellemare 等 [46] 通过信息增益 (information gain) 来 联系访问计数法和预测差法,证明了两者本质是 相同的。 第 5 期 杨瑞,等:强化学习稀疏奖励算法研究——理论与实验 ·891·
·892· 智能系统学报 第15卷 访问计数法使用访问次数定义状态的陌生程 2.6分层强化学习 度,鼓励智能体探索更陌生的状态,以提高探索 分层强化学习(HRL)是一类使用分层策略结 能力和降低对奖励估计的不确定性。Strehl等a7 构的方法,分层的结构能够学习不同层次的策 提出了一种基于模型的内在奖励方法,使用与状 略,从而有效解决维度爆炸的问题6s。分层强 态动作对计数的平方根成反比的内部奖励,并理 化学习方法的上层策略往往能够处理更大时间尺 论证明了其最优性: 度的决策,同时分层强化学习方法还能缩小各层 rm(s,a)=BW(s,a)i 策略的动作序列空间,进一步提高了解决稀疏奖 式中:B是常系数;N(s,a)是状态动作对(s,a)的 励问题的能力。 计数值。为了将访问计数法推广到高维连续状态 目前用于稀疏奖励问题的分层强化学习算法 空间中,Tang等使用哈希函数将连续的状态空 主要有两类,基于选项6(option)的方法和基于 子目标Is(subgoal)的方法。 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 基于选项的方法结构简单,上层策略在多个 预测差法通过学习环境的状态转移,使用预 下层策略中进行选择,被选择的下层策略输出动 作,如图4所示。Sutton等s将基于选项的分层 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态3,和动作4,来预测新 算法表述为半马尔可夫决策过程(SMDP),并推导 的状态s+1的方法被称作前向动态方法(forward 出在动态规划、Q-Learning中基于选项方法的公 dynamic))9。Stadie等B提出一种根据编码后的 式。Bacon等)将基于选项的分层方法和策略梯 状态(s,)和动作a,来预测(s+)的前向动态方 度法结合,提出了Option-Critic算法,并通过实验 法,使用归一化的预测误差计算内在奖励,预测 验证了该方法能够学习到具有实际意义的选项策 误差为 略。Frans等s结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 e(5.a)=(s1)-M((5,).a) 高了学习速度。 其中M表示预测网络,该方法能够有效解决大规 选择子策略 模游戏环境的探索问题。Pathak等认为好奇心 主策略0 驱动存在电视噪声问题,于是提出ICM(intrinsic curiosity module),在前向动态模型的基础上增加 子策略, 状态s 环境 奖励r 了使用(s+)和(s)来预测a,的逆向模型,如 子策略甲: 图3所示。逆向模型的作用是提取对智能体选择 动作有影响的特征啊,能够缓解电视噪声问题。 子策略o 预测动作a, 逆向模型 动作a 图4基于选项的分层结构示意图 状态S 状态映射 Fig.4 Schematic of option-based HRL methods 内在奖励r 状态S, 状态映射 -(S) 基于子目标的方法结构则是:上层策略生成 动作a 前向模型 子目标,下层策略输出动作去实现子目标,如图5 所示。Vezhnevets等s7提出FeUdal Networks,.将 图3ICM原理图 子目标设定为隐状态空间中的方向,在蒙特祖玛 Fig.3 Schematic of ICM 复仇等多个Atari游戏中的表现均超过基线算 状态编码是高维连续状态空间下的好奇心驱 法。Nachum等s81认为,采用离线策略训练分层 动算法一个重要研究内容。Burda等l对比了 结构将因为策略的改变产生偏差,可能导致训练 ICM、VAE、Random Network、Pixels4种编码方 不稳定,因此提出了使用离线数据校正的HRO 式在54个游戏中的实验结果,得出以下结论:ICM 算法,在Ant-Gather、Ant-Maze等复杂的连续动作 的泛化性最好,Random Network也足以在45%的 控制环境中表现均优于FeUdal Networks。Ley等例 游戏中超过ICM,意味着很多游戏只需使用固定 提出了HAC(hierarchical actor critic),该方法在基 的随机网络就能够提取足够的特征用于策略学 于子目标的分层算法基础上,结合了事后经验回 习,对后续的研究具有启示作用。 放算法极大提升了学习速度且表现好于HRO
访问计数法使用访问次数定义状态的陌生程 度,鼓励智能体探索更陌生的状态,以提高探索 能力和降低对奖励估计的不确定性。Strehl 等 [47] 提出了一种基于模型的内在奖励方法,使用与状 态动作对计数的平方根成反比的内部奖励,并理 论证明了其最优性: rin (s,a) = βN(s,a) − 1 2 式中: β 是常系数; N(s,a) 是状态动作对 (s,a) 的 计数值。为了将访问计数法推广到高维连续状态 空间中,Tang 等 [48] 使用哈希函数将连续的状态空 间离散化进行计数,该方法在多个连续动作控制 问题中取得了成功。 st at st+1 ϕ(st) at ϕ(st+1) 预测差法通过学习环境的状态转移,使用预 测误差作为内在奖励,能降低环境动态的不确定 性。预测差法中使用状态 和动作 来预测新 的状态 的方法被称作前向动态方法 (forward dynamic)[49]。Stadie 等 [50] 提出一种根据编码后的 状态 和动作 来预测 的前向动态方 法,使用归一化的预测误差计算内在奖励,预测 误差为 e (st ,at ,st+1) = ∥ϕ(st+1)− M (ϕ(st),at)∥ 2 2 M ϕ(st+1) ϕ(st) at 其中 表示预测网络,该方法能够有效解决大规 模游戏环境的探索问题。Pathak 等 [45] 认为好奇心 驱动存在电视噪声问题,于是提出 ICM(intrinsic curiosity module),在前向动态模型的基础上增加 了使用 和 来预测 的逆向模型,如 图 3 所示。逆向模型的作用是提取对智能体选择 动作有影响的特征[45] ,能够缓解电视噪声问题。 动作at 状态St 状态映射 状态St+1 状态映射 前向模型 内在奖励rt 预测动作at 逆向模型 ϕ (St+1) ϕ (St ) 图 3 ICM 原理图 Fig. 3 Schematic of ICM 状态编码是高维连续状态空间下的好奇心驱 动算法一个重要研究内容。Burda 等 [16] 对比了 ICM、VAE[51] 、Random Network、Pixels 4 种编码方 式在 54 个游戏中的实验结果,得出以下结论:ICM 的泛化性最好,Random Network 也足以在 45% 的 游戏中超过 ICM,意味着很多游戏只需使用固定 的随机网络就能够提取足够的特征用于策略学 习,对后续的研究具有启示作用。 2.6 分层强化学习 分层强化学习 (HRL) 是一类使用分层策略结 构的方法,分层的结构能够学习不同层次的策 略,从而有效解决维度爆炸的问题[16, 52]。分层强 化学习方法的上层策略往往能够处理更大时间尺 度的决策,同时分层强化学习方法还能缩小各层 策略的动作序列空间,进一步提高了解决稀疏奖 励问题的能力。 目前用于稀疏奖励问题的分层强化学习算法 主要有两类[52] ,基于选项[53] (option) 的方法和基于 子目标[54] (subgoal) 的方法。 基于选项的方法结构简单,上层策略在多个 下层策略中进行选择,被选择的下层策略输出动 作,如图 4 所示。Sutton 等 [ 53] 将基于选项的分层 算法表述为半马尔可夫决策过程 (SMDP),并推导 出在动态规划、Q-Learning 中基于选项方法的公 式。Bacon 等 [55] 将基于选项的分层方法和策略梯 度法结合,提出了 Option-Critic 算法,并通过实验 验证了该方法能够学习到具有实际意义的选项策 略。Frans 等 [56] 结合元学习方法来训练基于选项 的分层结构,在多个连续动作控制问题中显著提 高了学习速度。 动作a 状态s 奖励r 子策略φ3 子策略φ1 子策略φ2 环境 主策略θ 选择子策略 图 4 基于选项的分层结构示意图 Fig. 4 Schematic of option-based HRL methods 基于子目标的方法结构则是:上层策略生成 子目标,下层策略输出动作去实现子目标,如图 5 所示。Vezhnevets 等 [57] 提出 FeUdal Networks,将 子目标设定为隐状态空间中的方向,在蒙特祖玛 复仇等多个 Atari 游戏中的表现均超过基线算 法。Nachum 等 [ 58] 认为,采用离线策略训练分层 结构将因为策略的改变产生偏差,可能导致训练 不稳定,因此提出了使用离线数据校正的 HIRO 算法,在 Ant-Gather、Ant-Maze 等复杂的连续动作 控制环境中表现均优于 FeUdal Networks。Levy 等 [59] 提出了 HAC(hierarchical actor critic),该方法在基 于子目标的分层算法基础上,结合了事后经验回 放算法极大提升了学习速度且表现好于 HIRO。 ·892· 智 能 系 统 学 报 第 15 卷