当前位置：和泉文库 > 电气与自动化 > 浏览文档

多智能体分层强化学习综述（国防科技大学：殷昌盛、杨若鹏、朱巍、邹小飞、李峰）

文件格式：PDF，文件大小：4.57MB，售价：3.9元

文档详细内容（约10页）

第15卷第4期智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992tis.201909027 多智能体分层强化学习综述殷昌盛，杨若鹏，朱巍，邹小飞，李峰 (国防科技大学信息通信学院，湖北武汉430010) 摘要：作为机器学习和人工智能领域的一个重要分支，多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合，并通过将复杂的强化学习问题分解成若干个子问题并分别解决，可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述，包括强化学习、半马尔可夫决策过程和多智能体强化学习：然后基于分层的角度，对基于选项、基于分层抽象机、基于值函数分解和基于端到端等4种多智能体分层强化学习方法的算法原理和研究现状进行了综述：最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。关键词：人工智能；机器学习；强化学习；多智能体；综述；深度学习；分层强化学习：应用现状中图分类号：TP18 文献标志码：A文章编号：1673-4785(2020)04-0646-10 中文引用格式：殷昌盛，杨若鹏，朱巍，等.多智能体分层强化学习综述.智能系统学报，2020,15(4)：646-655. 英文引用格式：YIN Changsheng,.YANG Ruopeng,.ZHU Wei,,etal.A survey on multi-agent hierarchical reinforcement learning J].. CAAI transactions on intelligent systems,2020,15(4):646-655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng,YANG Ruopeng,ZHU Wei,ZOU Xiaofei,LI Feng (School of Information and Communication,National University of Defense Technology,Wuhan 430010,China) Abstract:As an important research area in the field of machine learning and artificial intelligence,multi-agent hierarch- ical reinforcement learning(MAHRL)integrates the advantages of the collaboration of multi-agent system (MAS)and the decision making of reinforcement learning(RL)in a general-purpose form,and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality.So MAHRL offers a potential way to solve large-scale and complex decision problem.In this paper,we systematically describe three key technologies of MAHRL:reinforcement learning(RL),Semi Markov Decision Process(SMDP),multi-agent reinforcement learning (MARL).We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning,which includes Option,HAM,MAXQ and End-to-End.Finally,we end up with summarizing the application status of MAHRL in robot control,game decision making and mission planning. Keywords:artificial intelligence;machine learning:reinforcement learning;multi-agent;summary;reinforcement learn- ing;hierarchical reinforcement learning;application status 近年来，以深度学习(deep learning,DL)为核问题上取得了众多超越人类水平的成果，使得心的智能技术取得了长足的进步山，特别是以深面向自主认知的智能决策有望得到进一步发展，度强化学习(deep reinforcement learning,.DRL)为并取得关键性突破。强化学习(reinforcement 代表的智能方法在解决雅达利游戏、棋类博弈对 learning,.RL)作为解决序贯决策问题的重要方法抗、即时策略游戏(real-time strategy,RTS)等决策其通过与环境的交互试错来学习策略，恰好契合了人类的经验学习和决策思维方式，可以有效解收稿日期：2019-09-10. 基金项目：国家社会科学基金项目(2019SKJC-083), 决样本数据获取难等问题。而单Agent系统无法通信作者：殷吕盛.E-mail:yincsl989@163.com. 实现多个决策者之间的相互协作或竞争关系，往

DOI: 10.11992/tis.201909027 多智能体分层强化学习综述殷昌盛，杨若鹏，朱巍，邹小飞，李峰（国防科技大学信息通信学院，湖北武汉 430010）摘要：作为机器学习和人工智能领域的一个重要分支，多智能体分层强化学习以一种通用的形式将多智能体的协作能力与强化学习的决策能力相结合，并通过将复杂的强化学习问题分解成若干个子问题并分别解决，可以有效解决空间维数灾难问题。这也使得多智能体分层强化学习成为解决大规模复杂背景下智能决策问题的一种潜在途径。首先对多智能体分层强化学习中涉及的主要技术进行阐述，包括强化学习、半马尔可夫决策过程和多智能体强化学习；然后基于分层的角度，对基于选项、基于分层抽象机、基于值函数分解和基于端到端等 4 种多智能体分层强化学习方法的算法原理和研究现状进行了综述；最后介绍了多智能体分层强化学习在机器人控制、博弈决策以及任务规划等领域的应用现状。关键词：人工智能；机器学习；强化学习；多智能体；综述；深度学习；分层强化学习；应用现状中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2020)04−0646−10 中文引用格式：殷昌盛, 杨若鹏, 朱巍, 等. 多智能体分层强化学习综述 [J]. 智能系统学报, 2020, 15(4): 646–655. 英文引用格式：YIN Changsheng, YANG Ruopeng, ZHU Wei, et al. A survey on multi-agent hierarchical reinforcement learning[J]. CAAI transactions on intelligent systems, 2020, 15(4): 646–655. A survey on multi-agent hierarchical reinforcement learning YIN Changsheng，YANG Ruopeng，ZHU Wei，ZOU Xiaofei，LI Feng (School of Information and Communication, National University of Defense Technology, Wuhan 430010, China) Abstract: As an important research area in the field of machine learning and artificial intelligence, multi-agent hierarchical reinforcement learning (MAHRL) integrates the advantages of the collaboration of multi-agent system (MAS) and the decision making of reinforcement learning (RL) in a general-purpose form, and decomposes the RL problem into sub-problems and solves each of them to overcome the so-called curse of dimensionality. So MAHRL offers a potential way to solve large-scale and complex decision problem. In this paper, we systematically describe three key technologies of MAHRL: reinforcement learning (RL), Semi Markov Decision Process (SMDP), multi-agent reinforcement learning (MARL). We then systematically describe four main categories of the MAHRL method from the angle of hierarchical learning, which includes Option, HAM, MAXQ and End-to-End. Finally, we end up with summarizing the application status of MAHRL in robot control, game decision making and mission planning. Keywords: artificial intelligence; machine learning; reinforcement learning; multi-agent; summary; reinforcement learning; hierarchical reinforcement learning; application status 近年来，以深度学习 (deep learning，DL) 为核心的智能技术取得了长足的进步[1] ，特别是以深度强化学习 (deep reinforcement learning，DRL) 为代表的智能方法在解决雅达利游戏、棋类博弈对抗、即时策略游戏 (real-time strategy, RTS) 等决策问题上取得了众多超越人类水平的成果[2-6] ，使得面向自主认知的智能决策有望得到进一步发展，并取得关键性突破。强化学习 (reinforcement learning，RL) 作为解决序贯决策问题的重要方法[5] ，其通过与环境的交互试错来学习策略，恰好契合了人类的经验学习和决策思维方式，可以有效解决样本数据获取难等问题。而单 Agent 系统无法实现多个决策者之间的相互协作或竞争关系，往收稿日期：2019−09−10. 基金项目：国家社会科学基金项目 (2019-SKJJ-C-083). 通信作者：殷昌盛. E-mail：yincs1989@163.com. 第 15 卷第 4 期智能系统学报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020

第4期殷昌盛，等：多智能体分层强化学习综述 ·647· 往需要多智能体通过协作来求解。多智能体系馈信号，分别用正负反馈表示这个动作对学习目统(multi-.agent system,MAS)是当前分布式AI领标是否有益。Agent则通过不断地试错和反馈域的研究热点，其主要是通过研究Agent之间的来不断优化动作选择策略，最终学习到一个有目协同和交互问题，用以解决复杂实时动态多智能标导向的策略。体环境下的任务调度、资源分配、行为协调以及根据环境模型是否已知，强化学习可分为有冲突消解等协同问题，但是多智能体会导致动作模型强化学习和无模型强化学习。若已知环境空间和状态空间呈指数级增长，带来维度灾难问状态在智能体动作影响之下的转移规律和反馈，题m。分层强化学习(hierarchical reinforcement 即状态转移概率函数和奖赏函数已知，则称为有 learning,HRL)采用问题分解并分而治之的思想，模型强化学习，否则便是无模型强化学习。是解决大规模强化学习的潜在有效途径1。因有模型强化学习主要基于动态规划的思想此，研究基于三者相结合的多智能体分层强化学采用Bellman方程和Bellman最优方程进行策略 (multi-agent hierarchical reinforcement learning, 迭代和值迭代。无模型强化学习则是基于采样的 MAHRL)使解决未知大规模复杂环境下的智能决方式与环境进行交互学习，当前主要研究的方法策问题成为可能。可以分为3类：基于值函数的强化学习方法、基作为解决复杂空间下协同决策的重要途径，目于策略搜索的强化学习方法和基于环境建模的强前MAHRL技术已经在机器人控制、博弈决策、任化学习方法。务规划等领域中得到了大量的研究。本文对MAHRL )基于值函数的强化学习。其核心思想是采的研究现状和相关应用进行了阐述和探讨。用函数近似的方法将强化学习模型中的状态值函 1预备知识数、状态动作值函数或策略函数用一个显性的函数来表示，常用的近似函数有线性函数近似、决 1.1强化学习策树近似、核函数近似和神经网络等。其中深度关于机器学习的研究可以分为3个方向，即有神经网络是近年来在强化学习值函数近似方面应监督学习、无监督学习和强化学习。其中强化学用最为广泛和成功的函数。其中，最为典型的应习的核心思想是通过Agent与环境的不断交互，以用开始于20l3年DeepMind团队在NIPS上提出最大化累计回报为目标来选择合理的行动，这与的DQN(deep Q-networks)算法，其基于值函数的人类智能中经验知识获取和决策过程不谋而泛化逼近方法，有效解决了强化学习的“维数灾难合io。特别是近年来深度强化学习在以AlphaGo、问题”，但在Q函数逼近过程中存在不稳定的现 AlphaZero、AlphaStar等为代表的机器智能领域的象。为解决部分可观察的马尔可夫决策问题，突破山，进一步展现了强化学习在解决复杂决策 Hausknecht等)提出了基于循环神经网络与强化问题的能力，成为人工智能研究领域的热点。学习相结合的DRQN算法，在实验环境中取得了如图1所示，强化学习的架构主要包括远优于DQN算法的效果。典型的值函数近似方 Agent和环境两部分，Agent首先对环境状态进行法还有DDQN、Sarsa、Q-learning61等时序差感知，然后决定选择采取的动作。分的强化学习算法，它们虽然在某些实际问题中状态取得了不错的效果，但其难以求解动作空间比较 Agent 大和随机性策略问题，以及无法对连续动作空间问题进行建模等。态作动作 2)基于策略搜索的强化学习。其核心思想是环择器境将策略参数化，通过不断修正策略的参数求解最优策略。Silver等II结合Actor-Critie框架和Q- learning算法提出了确定性策略梯度算法(determ- 学习器 inistic policy gradient algorithms,.DPG),其将策略定奖赏状态” 义为一个确定性的策略函数，这样在训练模型图1强化学习的框架结构时，就不需要考虑动作空间的大小或是否连续， Fig.1 Framework structure of reinforcement learning 能够提升连续动作空间问题求解中对于梯度的估 Agent的动作会对环境产生影响，其环境状态计效率和准确性。针对经验回放的深度强化学习也会发生变化，此时Agent会收到来自环境的反方法存在对内存和计算能力要求较高的问题

往需要多智能体通过协作来求解。多智能体系统 (multi-agent system, MAS) 是当前分布式 AI 领域的研究热点，其主要是通过研究 Agent 之间的协同和交互问题，用以解决复杂实时动态多智能体环境下的任务调度、资源分配、行为协调以及冲突消解等协同问题，但是多智能体会导致动作空间和状态空间呈指数级增长，带来维度灾难问题 [7]。分层强化学习 (hierarchical reinforcement learning，HRL) 采用问题分解并分而治之的思想，是解决大规模强化学习的潜在有效途径[8]。因此，研究基于三者相结合的多智能体分层强化学习 (multi-agent hierarchical reinforcement learning， MAHRL) 使解决未知大规模复杂环境下的智能决策问题成为可能。作为解决复杂空间下协同决策的重要途径，目前 MAHRL 技术已经在机器人控制、博弈决策、任务规划等领域中得到了大量的研究。本文对 MAHRL 的研究现状和相关应用进行了阐述和探讨。 1 预备知识 1.1 强化学习关于机器学习的研究可以分为 3 个方向，即有监督学习、无监督学习和强化学习[9]。其中强化学习的核心思想是通过 Agent 与环境的不断交互，以最大化累计回报为目标来选择合理的行动，这与人类智能中经验知识获取和决策过程不谋而合 [10]。特别是近年来深度强化学习在以 AlphaGo、 AlphaZero、AlphaStar 等为代表的机器智能领域的突破[11] ，进一步展现了强化学习在解决复杂决策问题的能力，成为人工智能研究领域的热点。如图 1 所示，强化学习的架构主要包括 Agent 和环境两部分，Agent 首先对环境状态进行感知，然后决定选择采取的动作。状态感知器动作选择器学习器环境 Agent 动作状态奖赏状态’ 图 1 强化学习的框架结构 Fig. 1 Framework structure of reinforcement learning Agent 的动作会对环境产生影响，其环境状态也会发生变化，此时 Agent 会收到来自环境的反馈信号，分别用正负反馈表示这个动作对学习目标是否有益[12]。Agent 则通过不断地试错和反馈来不断优化动作选择策略，最终学习到一个有目标导向的策略。根据环境模型是否已知，强化学习可分为有模型强化学习和无模型强化学习[5]。若已知环境状态在智能体动作影响之下的转移规律和反馈，即状态转移概率函数和奖赏函数已知，则称为有模型强化学习，否则便是无模型强化学习。有模型强化学习主要基于动态规划的思想，采用 Bellman 方程和 Bellman 最优方程进行策略迭代和值迭代。无模型强化学习则是基于采样的方式与环境进行交互学习，当前主要研究的方法可以分为 3 类：基于值函数的强化学习方法、基于策略搜索的强化学习方法和基于环境建模的强化学习方法。 1) 基于值函数的强化学习。其核心思想是采用函数近似的方法将强化学习模型中的状态值函数、状态动作值函数或策略函数用一个显性的函数来表示，常用的近似函数有线性函数近似、决策树近似、核函数近似和神经网络等。其中深度神经网络是近年来在强化学习值函数近似方面应用最为广泛和成功的函数。其中,最为典型的应用开始于 2013 年 DeepMind 团队在 NIPS 上提出的 DQN(deep Q-networks) 算法[6] ，其基于值函数的泛化逼近方法，有效解决了强化学习的“维数灾难问题”，但在 Q 函数逼近过程中存在不稳定的现象。为解决部分可观察的马尔可夫决策问题， Hausknecht 等 [13] 提出了基于循环神经网络与强化学习相结合的 DRQN 算法，在实验环境中取得了远优于 DQN 算法的效果。典型的值函数近似方法还有 DDQN[14] 、Sarsa[15] 、Q-learning[16] 等时序差分的强化学习算法，它们虽然在某些实际问题中取得了不错的效果，但其难以求解动作空间比较大和随机性策略问题，以及无法对连续动作空间问题进行建模等。 2) 基于策略搜索的强化学习。其核心思想是将策略参数化，通过不断修正策略的参数求解最优策略。Silver 等 [17] 结合 Actor-Critic 框架和 Qlearning 算法提出了确定性策略梯度算法 (deterministic policy gradient algorithms, DPG)，其将策略定义为一个确定性的策略函数，这样在训练模型时，就不需要考虑动作空间的大小或是否连续，能够提升连续动作空间问题求解中对于梯度的估计效率和准确性。针对经验回放的深度强化学习方法存在对内存和计算能力要求较高的问题，第 4 期殷昌盛，等：多智能体分层强化学习综述 ·647·

·648· 智能系统学报第15卷 Mnih等1提出了异步梯度下降的深度Actor-Crit- 费的时间步长为固定的单位时间，而在SMDP中 c框架，用于并行执行多个智能体用于神经网络为变量。设N表示时间步长，则标准MDP的概控制器的优化，并与单步Q-learning、Sarsa、多步率转移函数和期望报酬可以被扩展为P(s,Ns,a) Q-learning和Actor-Critic等强化学习算法结合和R(s,Ns,a)。根据Bellman方程，可以得到确定实现了对深度神经网络的训练，并取得了更好策略π下的值函数为Agent执行动作a的立即报的效果。除此之外还有可信赖域策略搜索算法酬与转移到后续状态s的折扣累积期望之和，如 TRPO19、价值梯度SVG2o、引导策略搜索算法式(1)所示： GPs2、近端策略优化算法PPO2四和广义优势估 Vm(s)=R(s,π(s)+ 计算法GAE2]随机等几种典型的基于策略梯度 ∑P,Ms,ry(约 (1) 的方法。式中：R(s,π(s)》是Agent在状态s下执行动作 3)基于环境建模的强化学习。其核心思想是 π(5)后的期望报酬，不难看出，其整体期望报酬与通过建立环境模型来产生模拟经验样本。对于某 s、N均相关。些智能体与环境的交互成本较高的情况，而基于 1.3多智能体强化学习环境建模的强化学习通过建立环境模型来模拟经面对大规模复杂背景下决策问题时，单Agent 验样本，可以减少采样次数，或者无需在真实环系统无法实现多个决策者之间存在相互协作或竞境中进行采样。Sutton2提出的Dyna框架是一争的关系。因此，在DRL模型基础上扩展为多种典型的基于环境建模的强化学习。其基本思想个Agent之间相互合作、通信及竞争的多Agent 是利用与真实环境产生的经验样本来进行环境模系统，即多智能体强化学习(multi-agent reinforce- 型的学习，而值函数或者策略函数的学习与更新 ment learning,MARL)。多智能体强化学习示意如则基于真实样本和环境模型产生的虚拟样本。虽图3。然Dyna框架能基于真实样本来进行环境模型学环境习，并取得了不错的效果，但其环境模型的建立联合状态S 联合动作和真实经验样本和虚拟样本的权衡仍然是制约该动作a1 Agent 1 {a1,a2,,an} 方法发展的关键难点。联合奖励 F2. Agent 2 动作a 1.2半马尔可夫决策过程分层强化学习采用策略分层并分而治之的思 Agent n 动作a。想，可以有效解决维度灾难问题。策略分层的本质是基于不同的时间抽象尺度扩展动作集，即基图3多智能体强化学习示意图本动作和宏动作，而Aget通过在不同程度的时 Fig.3 Multi-agent reinforcement learning diagram 间抽象尺度上进行学习，进而实现分层控制。而目前关于MARL的研究可以包括2个方面。在马尔可夫决策过程(Markov decision process,. 1)多智能体系统研究。当前多智能体系统研 MDP)中，每个动作都是假设在单个时间步完成，究主要从体系结构、Agent信息交互方式和并没有考虑决策的时间间隔，所以基于MDP的 Agent冲突消解机制3个方面展开。①体系结构强化学习无法解决需要多个时间步完成的动作阿，研究：主要围绕集中式和分散式2种展开研究。此时就需要引入半马尔可夫决策过程(semi Markov 其中分散式又可以区分为层面式(distributed)与 decision process,.SMDP)模型，如图2所示。分层式(hierarchical)m。除了基本的分层方式，多智能体体系结构研究还包括智能体协同和任务分配机制等。②智能体之间信息交互方式研究：目前主要有Agent直接通信、信道广播方式、信息黑板模式等方法。③智能体间冲突消解研究：多智态能体系统中冲突矛盾主要包括空间冲突、信息冲突和任务冲突等。当前消解矛盾方法主要包括集中控制模块法和主从控制法2种。集中控制模块图2MDP与SMDP 法通过构建模块来集中规划所有Agent的行动策 Fig.2 MDP SMDP 略，但是会带来通信阻塞问题。主从控制法是指图2中离散的SMDP其实是MDP的一般化通过一个中心智能体来统一进行任务分配和行为过程，即MDP中在状态s下执行一个动作需要花规划来解决智能体之间的矛盾问题，但由于实时

Mnih 等 [18] 提出了异步梯度下降的深度 Actor-Critic 框架，用于并行执行多个智能体用于神经网络控制器的优化，并与单步 Q-learning、Sarsa、多步 Q-learning 和 Actor-Critic 等强化学习算法结合实现了对深度神经网络的训练，并取得了更好的效果。除此之外还有可信赖域策略搜索算法 TRPO[19] 、价值梯度 SVG[20] 、引导策略搜索算法 GPS[21] 、近端策略优化算法 PPO[22] 和广义优势估计算法 GAE[23] 随机等几种典型的基于策略梯度的方法。 3) 基于环境建模的强化学习。其核心思想是通过建立环境模型来产生模拟经验样本。对于某些智能体与环境的交互成本较高的情况，而基于环境建模的强化学习通过建立环境模型来模拟经验样本，可以减少采样次数，或者无需在真实环境中进行采样。Sutton[24] 提出的 Dyna 框架是一种典型的基于环境建模的强化学习。其基本思想是利用与真实环境产生的经验样本来进行环境模型的学习，而值函数或者策略函数的学习与更新则基于真实样本和环境模型产生的虚拟样本。虽然 Dyna 框架能基于真实样本来进行环境模型学习，并取得了不错的效果，但其环境模型的建立和真实经验样本和虚拟样本的权衡仍然是制约该方法发展的关键难点。 1.2 半马尔可夫决策过程分层强化学习采用策略分层并分而治之的思想，可以有效解决维度灾难问题。策略分层的本质是基于不同的时间抽象尺度扩展动作集，即基本动作和宏动作，而 Agent 通过在不同程度的时间抽象尺度上进行学习，进而实现分层控制。而在马尔可夫决策过程 (Markov decision process, MDP) 中，每个动作都是假设在单个时间步完成，并没有考虑决策的时间间隔，所以基于 MDP 的强化学习无法解决需要多个时间步完成的动作[25] ，此时就需要引入半马尔可夫决策过程 (semi Markov decision process, SMDP) 模型，如图 2 所示。时间 MDP SMDP 状态图 2 MDP 与 SMDP Fig. 2 MDP & SMDP s 图 2 中离散的 SMDP 其实是 MDP 的一般化过程，即 MDP 中在状态下执行一个动作需要花 P(s ′ ,N|s,a) R(s ′ ,N|s,a) π a s ′ 费的时间步长为固定的单位时间，而在 SMDP 中为变量[26]。设 N 表示时间步长，则标准 MDP 的概率转移函数和期望报酬可以被扩展为和。根据 Bellman 方程，可以得到确定策略下的值函数为 Agent 执行动作的立即报酬与转移到后续状态的折扣累积期望之和，如式 (1) 所示： V π (s) = R¯ ∑ (s, π(s))+ s ′ ,N P(s ′ ,N|s, π(s))γ NV π (s ′ ) (1) R¯ (s, π(s)) s π(s) s ′、N 式中：是 Agent 在状态下执行动作后的期望报酬，不难看出，其整体期望报酬与均相关。 1.3 多智能体强化学习面对大规模复杂背景下决策问题时，单 Agent 系统无法实现多个决策者之间存在相互协作或竞争的关系。因此，在 DRL 模型基础上扩展为多个 Agent 之间相互合作、通信及竞争的多 Agent 系统，即多智能体强化学习 (multi-agent reinforcement learning, MARL)。多智能体强化学习示意如图 3。环境 Agent 1 Agent 2 Agent n 联合奖励 {r1 , r2 , ..., rn} 联合动作 {a1 , a2 , ..., an} 联合状态 St St r1 St r2 St rn 动作 a1 动作 a2 ... 动作 an 图 3 多智能体强化学习示意图 Fig. 3 Multi-agent reinforcement learning diagram 目前关于 MARL 的研究可以包括 2 个方面。 1) 多智能体系统研究。当前多智能体系统研究主要从体系结构、 Agen t 信息交互方式和 Agent 冲突消解机制 3 个方面展开。①体系结构研究：主要围绕集中式和分散式 2 种展开研究。其中分散式又可以区分为层面式 (distributed) 与分层式 (hierarchical) [7]。除了基本的分层方式，多智能体体系结构研究还包括智能体协同和任务分配机制等。②智能体之间信息交互方式研究：目前主要有 Agent 直接通信、信道广播方式、信息黑板模式等方法。③智能体间冲突消解研究：多智能体系统中冲突矛盾主要包括空间冲突、信息冲突和任务冲突等。当前消解矛盾方法主要包括集中控制模块法和主从控制法 2 种。集中控制模块法通过构建模块来集中规划所有 Agent 的行动策略，但是会带来通信阻塞问题。主从控制法是指通过一个中心智能体来统一进行任务分配和行为规划来解决智能体之间的矛盾问题，但由于实时 ·648· 智能系统学报第 15 卷

第4期殷昌盛，等：多智能体分层强化学习综述 ·649· 性和灾难空间等问题，其适应性和鲁棒性有待提升。 tion间的调用形成分层控制结构。其中Option根 2)多智能体强化学习策略研究。目前MARL 据先验知识提前确定或者通过学习获得。根据是的学习策略主要可以分为3类：基于共享、基于基于马尔可夫或者是半马尔可夫，Option方法又对策和基于最佳响应的多智能体强化学习。①基可以分为两类：基于马尔可夫决策过程的Markov- 于共享的MARL:其主要思想是研究动作选择前 Option和基于半马尔可夫决策过程的Semi-Markov- Agent之间的相互交互、信息共享以及值函数更 Option 新方法，基于分布式强化学习提高学习速度，典 Markov--Option<g,π，B>三元组分别代表Op 型算法有状态共享、经验共享、策略共享和建议 tion的入口状态集、内部策略和终止条件。Op 共享等。②基于对策的MARL:其主要思想是以 tion开始执行的前提条件是当前状态属于入口状对策论为基础，综合考虑所有Agent的值函数，寻态集，即s二P,其中入口状态集P二S。内部策略求某种对策下的平衡来选择动作，代表算法有 π一般表示为π：p×A→0,1】，其中A为在入口 Minimax-Q、Nash-Q、WoLF、CE-Q等。③基于最状态集P上能够执行的基本动作集。终止条件B 佳响应的MARL:其主要思想是在其他Agent无为基于状态了终止的概率集合B(),一般表示为论采取何种策略情况下寻求最优策略，算法主要 B:S→[0,1]。因此B(sc)=1一般作为Option任务依赖于收敛准则和无憾准则，典型算法有PHC、的子目标状态点sc的终止条件，同时A。可以视 IGA、GIGA、GIGA-WoLF等。为Markov--Option的一种特例。 Semi-Markov-Option<p,4,B>三元组含义类 2多智能体分层强化学习方法似。同样其Option开始执行的前提条件ssp,其基于强化学习的智能决策面临的瓶颈之一是中入口状态集psS,且其只能包含该Option可能奖赏延时，如果以最终目标为导向来优化策略，探索到的所有状态。内部策略为μ：9×O。→ 其带来的维数灾难问题会使算法效率非常低27。 [0,1],其中O。为在入口状态集9上能够执行的基本动作集。终止条件B为基于状态s终止的概同时由于单Agent系统无法实现多个决策者之间率集合B(s),而B(sc)=1通常也是Option任务的存在相互协作或竞争关系，这就需要引入多智能子目标状态点sc的终止条件。体，然而多智能体的参与又会带来维度灾难等问题。HRL基于任务分层来学习每个子任务的策针对Option强化学习问题，Precup等29提出了一种基于多时间步模型的单步模型泛化方法。略，并将多个子任务的策略组合形成有效的全局策略，可以有效解决维数灾难问题2。对于任意Option o,设s(o,s,t)表示在1时刻、状态 s下o被启动，则状态s下Option o获得的累计奖 MAHRL是MARL和HRL相结合的结果。赏R(s,o)和状态转移概率P(sIs,o)可重新定义为二者结合有两种思路：一是基于分层来解决MARL R(s,0)= 问题，二是采用多智能体解决HRL问题，所以现 E{,+yT41+…+y-lr4-is(o,s,t月 (2) 有MAHRL可根据采用的HRL方法或者MARL 和方法等不同角度进行分类。由于目前的研究多集中于前者，本文从分层强化学习的角度对多智能 P(s'ls,0)= (3) = 体分层强化学习方法进行探讨，即基于选项(op 式中：t为Option o持续的总时间步，对于所有状 tion)、基于分层抽象机(hierarchical of abstract ma- 态seS,P(s,t)为Option o从状态s开始经过T chines,HAM、基于值函数分解(MaxQ value func- 个时间步后终止于状态的概率。 tion decomposition)和基于端到端的(end to end)多此时Q-Learning的值函数迭代公式为智能体分层强化学习。 Qk+1(s,o)=(1-a4)Q(,o)+ 2.1基于选项的多智能体分层强化学习 ax[r+y'maxeo.Qr(s',o)] (4) 基于选项的多智能体分层强化学习主要是采 Agent的每次学习执行都是以一个Option终用Option分层强化学习方法来解决多智能体强止为前提，故造成其利用率不高，为此Precup 化学习问题。Option是一种典型的分层强化学习基于Markov-Option提出了一种面向单时间步方法，其最早由Sutton提出，主要思想是基于选 Q-Learning的Option方法，并证明了其收敛性。项(Option)的学习任务抽象，其中Option本质上 Tang等u则针对StarCraft游戏问题，根据作战规为在某状态子空间里完成相应子任务的动作序则不同，作战要素和动作空间组合不同设计101 列。其中Option本身也视作为一种特殊的动作，种输入特征向量选项，实现了订单生产的强化并与基本动作共同构成动作集，通过上下层Op- 学习

性和灾难空间等问题，其适应性和鲁棒性有待提升。 2) 多智能体强化学习策略研究。目前 MARL 的学习策略主要可以分为 3 类：基于共享、基于对策和基于最佳响应的多智能体强化学习。①基于共享的 MARL：其主要思想是研究动作选择前 Agent 之间的相互交互、信息共享以及值函数更新方法，基于分布式强化学习提高学习速度，典型算法有状态共享、经验共享、策略共享和建议共享等。②基于对策的 MARL：其主要思想是以对策论为基础，综合考虑所有 Agent 的值函数，寻求某种对策下的平衡来选择动作，代表算法有 Minimax-Q、Nash-Q、WoLF、CE-Q 等。③基于最佳响应的 MARL：其主要思想是在其他 Agent 无论采取何种策略情况下寻求最优策略，算法主要依赖于收敛准则和无憾准则，典型算法有 PHC、 IGA、GIGA、GIGA-WoLF 等。 2 多智能体分层强化学习方法基于强化学习的智能决策面临的瓶颈之一是奖赏延时，如果以最终目标为导向来优化策略，其带来的维数灾难问题会使算法效率非常低[27]。同时由于单 Agent 系统无法实现多个决策者之间存在相互协作或竞争关系，这就需要引入多智能体，然而多智能体的参与又会带来维度灾难等问题。HRL 基于任务分层来学习每个子任务的策略，并将多个子任务的策略组合形成有效的全局策略，可以有效解决维数灾难问题[28]。 MAHRL 是 MARL 和 HRL 相结合的结果。二者结合有两种思路：一是基于分层来解决 MARL 问题，二是采用多智能体解决 HRL 问题，所以现有 MAHRL 可根据采用的 HRL 方法或者 MARL 方法等不同角度进行分类。由于目前的研究多集中于前者，本文从分层强化学习的角度对多智能体分层强化学习方法进行探讨，即基于选项 (option)、基于分层抽象机 (hierarchical of abstract machines，HAM)、基于值函数分解 (MaxQ value function decomposition) 和基于端到端的 (end to end) 多智能体分层强化学习。 2.1 基于选项的多智能体分层强化学习基于选项的多智能体分层强化学习主要是采用 Option 分层强化学习方法来解决多智能体强化学习问题。Option 是一种典型的分层强化学习方法，其最早由 Sutton 提出[28] ，主要思想是基于选项 (Option) 的学习任务抽象，其中 Option 本质上为在某状态子空间里完成相应子任务的动作序列。其中 Option 本身也视作为一种特殊的动作，并与基本动作共同构成动作集，通过上下层 Option 间的调用形成分层控制结构。其中 Option 根据先验知识提前确定或者通过学习获得。根据是基于马尔可夫或者是半马尔可夫，Option 方法又可以分为两类：基于马尔可夫决策过程的 MarkovOption 和基于半马尔可夫决策过程的 Semi-MarkovOption。 < φ, π, β > s ⊆ φ φ ⊆ S π π : φ× Aφ → [0,1] Aφ φ β s ′ β(s ′ ) β : S → [0,1] β(sG) = 1 sG Aφ Markov-Option 三元组分别代表 Option 的入口状态集、内部策略和终止条件。Option 开始执行的前提条件是当前状态属于入口状态集，即，其中入口状态集。内部策略一般表示为，其中为在入口状态集上能够执行的基本动作集。终止条件为基于状态终止的概率集合，一般表示为。因此一般作为 Option 任务的子目标状态点的终止条件，同时可以视为 Markov-Option 的一种特例。 < φ, µ, β > s ⊆ φ φ ⊆ S µ : φ×Oφ → [0,1] Oφ φ β s ′ β(s ′ ) β(sG) = 1 sG Semi-Markov-Option 三元组含义类似。同样其 Option 开始执行的前提条件，其中入口状态集，且其只能包含该 Option 可能探索到的所有状态。内部策略为，其中为在入口状态集上能够执行的基本动作集。终止条件为基于状态终止的概率集合，而通常也是 Option 任务的子目标状态点的终止条件。 ε(o,s,t) R(s,o) P(s ′ |s,o) 针对 Option 强化学习问题，Precup 等 [29] 提出了一种基于多时间步模型的单步模型泛化方法。对于任意 Option o，设表示在 t 时刻、状态 s 下 o 被启动，则状态 s 下 Option o 获得的累计奖赏和状态转移概率可重新定义为 R(s,o) = E { rt +γrt+1 +···+γ τ−1 rt+τ−1|ε(o,s,t) } (2) 和 P(s ′ |s,o) = ∑∞ τ=1 γ τP(s ′ ,τ) (3) τ s ∈ S P(s ′ ,τ) s τ s ′ 式中：为 Option o 持续的总时间步，对于所有状态，为 Option o 从状态开始经过个时间步后终止于状态的概率。此时 Q-Learning 的值函数迭代公式为 Qk+1 (s,o) = (1−αk)Qk (s,o)+ αk [ r +γ τmaxo ′∈Os ′ Qk(s ′ ,o ′ ) ] (4) Agent 的每次学习执行都是以一个 Option 终止为前提，故造成其利用率不高，为此 Precup[30] 基于 Markov-Option 提出了一种面向单时间步 Q-Learning 的 Option 方法，并证明了其收敛性。 Tang 等 [31] 则针对 StarCraft 游戏问题，根据作战规则不同，作战要素和动作空间组合不同设计 101 种输入特征向量选项，实现了订单生产的强化学习。第 4 期殷昌盛，等：多智能体分层强化学习综述 ·649·

·650· 智能系统学报第15卷综上可知，基于选项的MAHRL本质上是基的立即奖赏也基于M的立即奖赏来确定。当M 于状态空间，不断寻找子目标的学习过程，其可的状态不发生变化时，Agent时间步内获得的立执行时态拓展动作的特点对强化学习摆动期的缩即奖赏为O,所以立即奖赏也可以理解为Aget时短和效率提高均有一定的促进作用，但是由于其间步内的累积奖赏。由此可见，HAM方法是依赖是基于先验知识确定学习与任务之间的转移，所于设计者的先验知识，从而为有限马尔可夫决策以基于选项的分层强化学习在未知环境中的适用过程M提供一个受约束的策略集。性还有待提高。其中reduce(HoM)的最优策略可使用SMDP 2.2基于分层抽象的多智能体分层强化学习 Q-learning方法进行迭代逼近。设Agent在t时刻基于分层抽象的多智能体分层强化学习主要进入选择点[se,m,t+T时刻到达选择点[S,m], 采用HAM分层强化学习方法来解决多智能体则Q-learning算法的迭代更新公式为强化学习问题。其核心思想是将每个子任务抽象 Q([se,mel,ac)=(1-a)Q ([se:me],ac)+ 为一个基于MDP的随机有限状态机，综合考虑 axr+yT+1+…+y-T+-1+ (5) y'maxQ([se,mel,a)] 当前所在状态和有限状态机的状态来选择不同的式中Parr等B证明了式(5)以概率1收敛到re 策略。令M=<S,A,R,P>为一个有限MDP,S和 duce(HoM)的最优值函数Q,且与标准Q-learn- A分别为状态集合和动作集合，R:S×A→r为奖 ing算法的收敛条件一致。Kulkarni等B1提出了赏函数，P:S×A→P(S)为状态转移函数。{H}为一种分层Q值方法，其通过构造两个层级的算一个随机有限状态机的集合，其中H,=<S,6,9:>, 法，顶层用于决策，确定下一步的目标，底层用于 S、6、9,分别为H,的状态集、随机转移函数和用具体行动决策，在Montezuma's Revenge游戏中于确定H,初始状态的随机函数。取得了较好的效果。对于每个状态机，其均包含4种状态类型，即综上可知，基于分层抽象的多智能体分层强动作(action)、调用(call)、选择(choice)以及停止化学习由于对学习类型进行了限定，在一定程度 (stop)。其中在action状态时，会根据状态机的当上可以简化MDP和提高学习效率，而且由于其前状态执行一个MDP中的动作；在cal类型的状只需要部分状态即可确定有限状态机的转移，因态时，会暂停当前的状态机H,并启动执行另一此对于环境部分可观测领域，基于分层抽象的个状态机H,即把H,的状态设置为，(s),其中j MAHRL同样适用。的值由第i个状态机在时刻1时的状态确定。而 23基于值函数分解的多智能体分层强化学习 choice状态是在当前状态机下随机选择下个状基于值函数分解的多智能体分层强化学习主态，并在学习过程中不断进行策略优化。stop状要是采用Dietterich提出的MaxQ分层强化学习态则是停止当前状态机的活动并返回调用它的状方法来解决多智能体强化学习问题。其主要思想态机，同时Agent基于选择的动作进行状态转移是将一个马尔可夫决策过程M分解为子任务集并得到相应的奖赏。在整个运行过程中M若没 {Mo,M1,…,Mn,相应的策略π也可分解子策略集有选择动作，则保持状态不变。合{o,π1，…，π，其中π：即为对应M的策略，而所执行学习时，首先人为确定有限状态机集合，有子任务形成以M。为根节点的分层任务结构。然后Agent从一个随机的初始有限状态机开始，在此分层任务结构中，解决M。所采取的动作包按照一定的策略对其他有限状态机进行依次调用括两种情况，即执行基本动作和执行其他子任并执行。若SH为随机有限状态机集合H的状态务，执行子任务又依次执行其所需的动作，解决集，则SH包含Agent从初始有限状态机开始可到了根任务M。也就解决了任务M。其中每个子任达的所有状态机。为确保在MDP中可持续获得务M,均由三元组<π，T,R>组成：π：为子任务策基本动作，初始状态机中不应含有无action的确略，用于从M,的子节点中选择子任务（基本动定性无限环和stop类。作)：T:为终止谓词，用于将M的状态集合S划分设HoM为基于有限马尔可夫决策过程M和为M:策略的活动状态集S:和终止状态集F;R 上述随机有限状态机的集合H组合产生的MDP, 为伪奖赏函数，其仅在学习过程中状态集F:的奖则其状态集可表示为S×SH,H和M的状态转移赏函数分配时调用。概率函数共同确定HoM的状态转移概率函数，与分层Option方法的值函数类似，分层策略将HoM中的选择点集合记为reduce(HoM),则re- π基于在子任务上的投影值函数即可确定每个状 duce(HoM)与HoM的优化策略相同。其中M的态的期望回报值V位，s)。对于每个子任务M,其基本动作仅依赖于H的action状态，reduce(HoM) 均为离散时间SMDP,设状态集为S:,动作集则为

综上可知，基于选项的 MAHRL 本质上是基于状态空间，不断寻找子目标的学习过程，其可执行时态拓展动作的特点对强化学习摆动期的缩短和效率提高均有一定的促进作用，但是由于其是基于先验知识确定学习与任务之间的转移，所以基于选项的分层强化学习在未知环境中的适用性还有待提高。 2.2 基于分层抽象的多智能体分层强化学习 M =< S,A,R,P > R : S × A → r P : S × A → P(S ) {Hi} Hi =< S i ,δi ,φi > S i δi φi Hi Hi 基于分层抽象的多智能体分层强化学习主要采用 HAM[32] 分层强化学习方法来解决多智能体强化学习问题。其核心思想是将每个子任务抽象为一个基于 MDP 的随机有限状态机，综合考虑当前所在状态和有限状态机的状态来选择不同的策略。令为一个有限 MDP，S 和 A 分别为状态集合和动作集合, 为奖赏函数，为状态转移函数。为一个随机有限状态机的集合，其中 , 、、分别为的状态集、随机转移函数和用于确定初始状态的随机函数。 Hi Hj Hj φi(st) j 对于每个状态机，其均包含 4 种状态类型，即动作 (action)、调用 (cal1)、选择 (choice) 以及停止 (stop)。其中在 action 状态时，会根据状态机的当前状态执行一个 MDP 中的动作；在 call 类型的状态时，会暂停当前的状态机，并启动执行另一个状态机，即把的状态设置为，其中的值由第 i 个状态机在时刻 t 时的状态确定。而 choice 状态是在当前状态机下随机选择下个状态，并在学习过程中不断进行策略优化。stop 状态则是停止当前状态机的活动并返回调用它的状态机，同时 Agent 基于选择的动作进行状态转移并得到相应的奖赏。在整个运行过程中 M 若没有选择动作，则保持状态不变。 S H H S H 执行学习时，首先人为确定有限状态机集合，然后 Agent 从一个随机的初始有限状态机开始，按照一定的策略对其他有限状态机进行依次调用并执行。若为随机有限状态机集合的状态集，则包含 Agent 从初始有限状态机开始可到达的所有状态机。为确保在 MDP 中可持续获得基本动作，初始状态机中不应含有无 action 的确定性无限环和 stop 类。 H S ×S H H H 设 HoM 为基于有限马尔可夫决策过程 M 和上述随机有限状态机的集合组合产生的 MDP，则其状态集可表示为，和 M 的状态转移概率函数共同确定 HoM 的状态转移概率函数，将 HoM 中的选择点集合记为 reduce(HoM)，则 reduce(HoM) 与 HoM 的优化策略相同。其中 M 的基本动作仅依赖于的 action 状态，reduce(HoM) 的立即奖赏也基于 M 的立即奖赏来确定。当 M 的状态不发生变化时，Agent 时间步内获得的立即奖赏为 0，所以立即奖赏也可以理解为 Agent 时间步内的累积奖赏。由此可见，HAM 方法是依赖于设计者的先验知识，从而为有限马尔可夫决策过程 M 提供一个受约束的策略集。 [sc ,mc] t+τ [ s ′ c ,m ′ c ] 其中 reduce(HoM) 的最优策略可使用 SMDP Q-learning 方法进行迭代逼近。设 Agent 在 t 时刻进入选择点，时刻到达选择点，则 Q-learning 算法的迭代更新公式为 Qk+1 ([sc ,mc],ac) = (1−αk)Qk ([sc ,mc],ac)+ αk[rt +γrt+1 +···+γ τ−1 rt+τ−1+ γ τmaxQk([sc ′ ,mc ′ ],a ′ )] (5) Q ∗ 式中 Parr 等 [32] 证明了式 (5) 以概率 1 收敛到 reduce(HoM) 的最优值函数，且与标准 Q-learning 算法的收敛条件一致。Kulkarni 等 [33] 提出了一种分层 Q 值方法，其通过构造两个层级的算法，顶层用于决策，确定下一步的目标，底层用于具体行动决策，在 Montezuma’s Revenge 游戏中取得了较好的效果。综上可知，基于分层抽象的多智能体分层强化学习由于对学习类型进行了限定，在一定程度上可以简化 MDP 和提高学习效率，而且由于其只需要部分状态即可确定有限状态机的转移，因此对于环境部分可观测领域，基于分层抽象的 MAHRL 同样适用。 2.3 基于值函数分解的多智能体分层强化学习 M {M0, M1,··· , Mn} π {π0, π1,··· , πn} πi Mi M0 M0 M0 M Mi < πi ,Ti ,Ri > πi Mi Ti M S Mi S i Fi Ri Fi 基于值函数分解的多智能体分层强化学习主要是采用 Dietterich 提出的 MaxQ[34] 分层强化学习方法来解决多智能体强化学习问题。其主要思想是将一个马尔可夫决策过程分解为子任务集 ,相应的策略也可分解子策略集合 ,其中即为对应的策略，而所有子任务形成以为根节点的分层任务结构。在此分层任务结构中，解决所采取的动作包括两种情况，即执行基本动作和执行其他子任务，执行子任务又依次执行其所需的动作，解决了根任务也就解决了任务。其中每个子任务均由三元组组成：为子任务策略，用于从的子节点中选择子任务 (基本动作)；为终止谓词，用于将的状态集合划分为策略的活动状态集和终止状态集；为伪奖赏函数，其仅在学习过程中状态集的奖赏函数分配时调用。 π V π (i,s) Mi S i 与分层 Option 方法的值函数类似，分层策略基于在子任务上的投影值函数即可确定每个状态的期望回报值。对于每个子任务，其均为离散时间 SMDP，设状态集为，动作集则为 ·650· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录