第17卷第4期 智能系统学报 Vol.17 No.4 2022年7月 CAAI Transactions on Intelligent Systems Jul.2022 D0:10.11992/tis.202106044 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究 欧阳勇平,魏长赞,蔡帛良2 (1.河海大学机电工程学院,江苏常州213022:2.英国卡迪夫大学工学院,威尔士卡迪夫CF103A) 摘要:多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前,多个机器人之 间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图,给多机器人系统在非结构环境下 的协调与协作带来了挑战。针对上述问题,本文提出了不依赖精确地图的分布式异构多机器人导航避障方法, 建立了基于深度强化学习的多特征策略梯度优化算法,并考虑了人机协同环境下的社会范式,使分布式机器人 能够通过与环境的试错交互,学习最优的导航避障策略:并在Gazebo仿真环境下进行了最优策略的训练学习, 同时将模型移植到多个异构实体机器人上,将机器人控制信号解码,进行真实环境测试。实验结果表明:本文 提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略,为分布式异构多机器人在动态环 境下的应用提供了一种技术参考。 关键词:异构多机器人;深度强化学习:非结构环境;多特征策略梯度:动态避障:自学习;分布式控制:控制策略 中图分类号:TP273+.2文献标志码:A文章编号:1673-4785(2022)04-0752-12 中文引用格式:欧阳勇平,魏长蒉,蔡帛良.动态环境下分布式异构多机器人避障方法研究川智能系统学报,2022,17(4): 752-763. 英文引用格式:OUYANG Yongping,WEI Changyun,CAI Boliang.Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J.CAAI transactions on intelligent systems,2022,17(4):752-763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping',WEI Changyun',CAI Boliang'2 (1.College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China;2.School of Engineering. Cardiff University,CardiffCF103AT,UK) Abstract:Multirobot systems have been widely used in cooperative search and rescue missions,intelligent warehouses. intelligent transportation,and other fields.At present,the path planning and collision avoidance problems between mul- tiple robots and the dynamic environment still rely on accurate maps,which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments.To address the above problem,this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework.A multifeatured policy gradients algorithm is proposed in this work,and social norms are also in- tegrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environ- ment.The optimal policy is trained and obtained in the Gazebo environment,and afterward,the optimal policy is trans- ferred to several heterogeneous real robots by decoding the control signals.The experimental results show that the multi- feature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through self- learning,and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dy- namic environments. Keywords:heterogeneous multi-robot systems;deep reinforcement learning,non-structural environment;multi-feature policy gradients;dynamic collision avoidance;self-learning;distributed control;control policy 收稿日期:2021-06-25.网络出版日期:2022-05-06 基金项目:国家自然科学基金项目(61703138):中央高校基本 科研业务费项目(B200202224). 随着多机器人系统(multi-robot system,MRS) 通信作者:魏长赞.E-mail:c.wei@hhu.edu.cn. 的广泛应用,其路径规划和导航避障领域一直是
DOI: 10.11992/tis.202106044 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220505.1636.004.html 动态环境下分布式异构多机器人避障方法研究 欧阳勇平1 ,魏长赟1 ,蔡帛良1,2 (1. 河海大学 机电工程学院,江苏 常州 213022; 2. 英国卡迪夫大学 工学院,威尔士 卡迪夫 CF10 3A) 摘 要:多机器人系统在联合搜救、智慧车间、智能交通等领域得到了日益广泛的应用。目前,多个机器人之 间、机器人与动态环境之间的路径规划和导航避障仍需依赖精确的环境地图,给多机器人系统在非结构环境下 的协调与协作带来了挑战。针对上述问题,本文提出了不依赖精确地图的分布式异构多机器人导航避障方法, 建立了基于深度强化学习的多特征策略梯度优化算法,并考虑了人机协同环境下的社会范式,使分布式机器人 能够通过与环境的试错交互,学习最优的导航避障策略;并在 Gazebo 仿真环境下进行了最优策略的训练学习, 同时将模型移植到多个异构实体机器人上,将机器人控制信号解码,进行真实环境测试。实验结果表明:本文 提出的多特征策略梯度优化算法能够通过自学习获得最优的导航避障策略,为分布式异构多机器人在动态环 境下的应用提供了一种技术参考。 关键词:异构多机器人;深度强化学习;非结构环境;多特征策略梯度;动态避障;自学习;分布式控制;控制策略 中图分类号:TP273+.2 文献标志码:A 文章编号:1673−4785(2022)04−0752−12 中文引用格式:欧阳勇平, 魏长赟, 蔡帛良. 动态环境下分布式异构多机器人避障方法研究 [J]. 智能系统学报, 2022, 17(4): 752–763. 英文引用格式:OUYANG Yongping, WEI Changyun, CAI Boliang. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments[J]. CAAI transactions on intelligent systems, 2022, 17(4): 752–763. Collision avoidance approach for distributed heterogeneous multirobot systems in dynamic environments OUYANG Yongping1 ,WEI Changyun1 ,CAI Boliang1,2 (1. College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China; 2. School of Engineering, Cardiff University, Cardiff CF10 3AT, UK) Abstract: Multirobot systems have been widely used in cooperative search and rescue missions, intelligent warehouses, intelligent transportation, and other fields. At present, the path planning and collision avoidance problems between multiple robots and the dynamic environment still rely on accurate maps, which brings challenges to the coordination and cooperation of multirobot systems in unstructured environments. To address the above problem, this paper presents a navigation and collision avoidance approach that does not require accurate maps and is based on the deep reinforcement learning framework. A multifeatured policy gradients algorithm is proposed in this work, and social norms are also integrated so that the learning agent can obtain the optimal control policy via trial-and-error interactions with the environment. The optimal policy is trained and obtained in the Gazebo environment, and afterward, the optimal policy is transferred to several heterogeneous real robots by decoding the control signals. The experimental results show that the multifeature policy gradients algorithm proposed can obtain the optimal navigation collision avoidance policy through selflearning, and it provides a technical reference for the application of distributed heterogeneous multirobot systems in dynamic environments. Keywords: heterogeneous multi-robot systems; deep reinforcement learning; non-structural environment; multi-feature policy gradients; dynamic collision avoidance; self-learning; distributed control; control policy 随着多机器人系统 (multi-robot system,MRS) 的广泛应用,其路径规划和导航避障领域一直是 收稿日期:2021−06−25. 网络出版日期:2022−05−06. 基金项目:国家自然科学基金项目(61703138);中央高校基本 科研业务费项目(B200202224). 通信作者:魏长赟. E-mail:c.wei@hhu.edu.cn. 第 17 卷第 4 期 智 能 系 统 学 报 Vol.17 No.4 2022 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2022
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·753· 学者们关注的热点话题。传统的机器人避障算法 主要有粒子群寻优算法山、基于障碍物的几何构 型得到避障策略)、Khatib)提出了最优避碰策略 (optimal reciprocal collision avoidance,ORCA) 衍生的其他避障算法等,但这些导航模型在环境 复杂的情况下调整效果不佳,不适用于动态环 激光传感器 机器人 境。近年来,在基于强化学习的多机器人导航避 目标位置 障算法中,相关学者们提出了构建状态空间到动 目前航向 障碍物 ◆目标方位 作空间的映射的控制逻辑,也即策略映射8),其 ◆激光序列信息 中Zhang等I提出了一种以深度确定性策略梯度 (deep deterministic policy gradient,.DDPG)为基a础的 图1机器人导航避障模型 机器人控制模型,最终构建了基于激光雷达和位 Fig.1 Robot navigation and collision avoidance model 置信息的策略映射,但算法的收敛速度慢,训练 在图中机器人所获得的状态信息为目标点相 效率较低。Chents1则提出了一种异步DDPG算 对自身的极坐标位置(P,(图中黄色箭头),激光 法(asynchronous DDPG,ADDPG),使用多个机器 传感器所捕获的周围环境信息s=,2,…,l12s](红 色线)且每条激光编号从0开始沿图中绿色箭头 人在同一个实验环境中进行实验,提高了经验的 方向递增。 搜集效率,缩短了算法的训练时间,但没有考虑 其中,极坐标位置信息(p,)的计算公式为 移动机器人的导航避障规则。因此设计一种受客 观条件限制较低,且可以实现人机协同的机器人 p=Vx-xw)2+0-yw)月 避障算法对于提高异构多机器人的工作效率和安 0=sign(y,×vw)arccos V:'Vw 全性具有重要意义。 (ivalv. 式中:(x,y)和(xw,y)分别是机器人和目标点在全 故本文在此提出了基于深度强化学习的多特 局坐标系下的坐标,y,和v分别是机器人的速度矢 征策略梯度优化算法,并引入人机协同环境下的 量和从机器人指向目标点的矢量。 社会范式以及提出经验优先采样机制,不仅使多 最终上述两部分信息经过归一化处理后连同 机器人移动按照一定规则避障,而且提高了算法 上一时刻的机器人动作信息a,-被组成一个状态 的训练速度以及控制精度,同时搭建了分布式多 信息5,并传递给强化学习算法进行计算,其中归 机器人的控制模型,在Gazebo仿真环境下进行算 一化公式为 法的训练学习,最后在现实环境下的多异构机器 p=pl店 人平台上验证了导航避障方法的可行性。 0=8/π lili/lmax 1问题描述 式中:是环境中的最大对角线长度,最大感知距 离lm=3m。基于上述提出的不依赖精确地图导 多机器人路径规划是在工作环境中为各个机 航的异构多机器人导航避障模型,本文将在后续 器人都找到一条从起始点到目标点的最优无碰撞 仿真与真实实验中进一步介绍。 路径。其中,单个机器人前往目标点不仅需要考 虑与环境内的障碍物避免碰撞,还需避免在移动 2深度强化学习控制模型 时与其他机器人发生碰撞。因此,如何为环境内 2.1马尔可夫决策过程 的各个机器人在寻找路径时不发生碰撞是存在的 为各个机器人寻找一条最优无碰撞路径问题 难题。 可以简化为马尔可夫决策过程。马尔可夫决策过 本文以深度强化学习模型为基础,为解决异 程(Markov decision process,MDP)作为强化学习 构多机器人在动态环境下导航避障问题,搭建了 理论的基础,具有重要的理论价值。MDP的数学 不依赖精确地图机器人导航避障模型,机器人仅 要素可以表述为五元组,即(S,A,P,R,y),其中: 装有激光雷达传感器,只需对原始的测量信号进 S表示状态空间,表示MDP所在环境下所有 行获取和处理,即可实现异构多机器人的导航避 可能状态的集合; 障。具体模型如图1所示。 A表示动作空间,表示对应状态下所有可采取
学者们关注的热点话题。传统的机器人避障算法 主要有粒子群寻优算法[1] 、基于障碍物的几何构 型得到避障策略[2] 、Khatib[3] 提出了最优避碰策略 (optimal reciprocal collision avoidance, ORCA) 及其 衍生的其他避障算法等,但这些导航模型在环境 复杂的情况下调整效果不佳,不适用于动态环 境。近年来,在基于强化学习的多机器人导航避 障算法中,相关学者们提出了构建状态空间到动 作空间的映射的控制逻辑,也即策略映射[4-8] ,其 中 Zhang 等 [4] 提出了一种以深度确定性策略梯度 (deep deterministic policy gradient, DDPG) 为基础的 机器人控制模型,最终构建了基于激光雷达和位 置信息的策略映射,但算法的收敛速度慢,训练 效率较低。Chen[5] 则提出了一种异步 DDPG 算 法 (asynchronous DDPG, ADDPG),使用多个机器 人在同一个实验环境中进行实验,提高了经验的 搜集效率,缩短了算法的训练时间,但没有考虑 移动机器人的导航避障规则。因此设计一种受客 观条件限制较低,且可以实现人机协同的机器人 避障算法对于提高异构多机器人的工作效率和安 全性具有重要意义。 故本文在此提出了基于深度强化学习的多特 征策略梯度优化算法,并引入人机协同环境下的 社会范式以及提出经验优先采样机制,不仅使多 机器人移动按照一定规则避障,而且提高了算法 的训练速度以及控制精度,同时搭建了分布式多 机器人的控制模型,在 Gazebo 仿真环境下进行算 法的训练学习,最后在现实环境下的多异构机器 人平台上验证了导航避障方法的可行性。 1 问题描述 多机器人路径规划是在工作环境中为各个机 器人都找到一条从起始点到目标点的最优无碰撞 路径。其中,单个机器人前往目标点不仅需要考 虑与环境内的障碍物避免碰撞,还需避免在移动 时与其他机器人发生碰撞。因此,如何为环境内 的各个机器人在寻找路径时不发生碰撞是存在的 难题。 本文以深度强化学习模型为基础,为解决异 构多机器人在动态环境下导航避障问题,搭建了 不依赖精确地图机器人导航避障模型,机器人仅 装有激光雷达传感器,只需对原始的测量信号进 行获取和处理,即可实现异构多机器人的导航避 障。具体模型如图 1 所示。 激光传感器 机器人 目标位置 目前航向 目标方位 激光序列信息 障碍物 负 正 图 1 机器人导航避障模型 Fig. 1 Robot navigation and collision avoidance model (ρ, θ) ς = [l1,l2,··· ,l128] 在图中机器人所获得的状态信息为目标点相 对自身的极坐标位置 (图中黄色箭头),激光 传感器所捕获的周围环境信息 (红 色线)且每条激光编号从 0 开始沿图中绿色箭头 方向递增。 其中,极坐标位置信息 (ρ, θ) 的计算公式为 ρ = √ (xt − xw) 2 +(yt −yw) 2 θ = sign(vt ×vw) arccos( vt · vw |vt | |vw| ) (xt , yt) (xw, yw) vt vw 式中: 和 分别是机器人和目标点在全 局坐标系下的坐标, 和 分别是机器人的速度矢 量和从机器人指向目标点的矢量。 at−1 st 最终上述两部分信息经过归一化处理后连同 上一时刻的机器人动作信息 被组成一个状态 信息 ,并传递给强化学习算法进行计算,其中归 一化公式为 ρ¯ = ρ/ξ θ¯ = θ/π li = li/lmax ξ lmax = 3 m 式中: 是环境中的最大对角线长度,最大感知距 离 。基于上述提出的不依赖精确地图导 航的异构多机器人导航避障模型,本文将在后续 仿真与真实实验中进一步介绍。 2 深度强化学习控制模型 2.1 马尔可夫决策过程 (S,A,P,R, γ) 为各个机器人寻找一条最优无碰撞路径问题 可以简化为马尔可夫决策过程。马尔可夫决策过 程 (Markov decision process,MDP) 作为强化学习 理论的基础,具有重要的理论价值。MDP 的数学 要素可以表述为五元组,即 ,其中: S 表示状态空间,表示 MDP 所在环境下所有 可能状态的集合; A 表示动作空间,表示对应状态下所有可采取 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·753·
·754· 智能系统学报 第17卷 的动作的集合: agent DDPG(MADDPG)☒ P表示状态的条件转移概率,表示代理在t时 其中,DQN引入了两个重要策略实现了强化 刻s,状态下采取动作a后,在t+1时刻的状态s41的 学习算法与深度神经网络的融合。第一个策略是 状态为s的概率,其公式表述为 目标网络的阶段性更新策略,保证了训练Q网络 P(s'ls,a)=P(st=s'ls:=s,a=a) 的Q值稳定性。另一个策略是经验回放机制,这 R为MDP的评价函数,是算法在s状态下执行 个机制使得算法可以多次重复利用代理获得的经 动作a后变换为s的过程对算法目标结果好坏的 验,通过重复性采样,提高了经验的利用率,并有 量化评价标准,其定义为 效降低了样本数据间的及关联参数,具体训练流 R(s,a,)=E[R4is,=S,a,=a,S41=](I) 程如图3所示。 y是折扣因子,表示MDP中每一个决策环节 对相对于决策过程中未来的决策环节的重要性, 代理 环境 y≤1恒成立,表示算法更看重当前奖励而不是未 Sp an Sui 来的奖励。 MDP的实际流程可以表示为图2,环境中受 算法控制的代理对象在状态so∈S的条件下初始 O(s a) 经验池 化,并由算法根据状态so选择建议动作ao∈S并由 Q网络 数 代理对象完成该动作,环境根据所执行的动作, 更 根据条件转移概率P(slso,ao)转移至下一状态s1, () 目标 Q网络 同时,环境给出对应奖励ro(so,ao,s)。此后算法根 DQN 据状态5选择新的建议动作,并重复执行上述步 图3DQN算法训练流程 骤直至达到终止条件。 Fig.3 DQN algorithm training process DQN是应用于离散动作空间的算法,这导致 无法应对控制精度高、动作空间复杂的问题。而 DDPG作为解决连续控制型问题的算法适合本文 图2马尔可夫决策过程 所遇到的难题,其算法流程如图4所示。 Fig.2 Markov decision process 代理 环境 2.2深度强化学习 Sn an r,Sw 深度强化学习(deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 + 策略网络π口 Q网络 经 能力与强化学习的决策能力相结合,并能够通过 k步更新】 步更新 端对端的学习方式实现从原始输入到输出的直接 目标策略网络 新 目标Q网络 控制,在模拟环境中,从个人收集的所有数据都 用于在中央服务器中进行训练",例如深度Q学 习网络(deep Q-learning,DQN)2解决了使用强化 图4DDPG算法训练流程 Fig.4 DDPG algorithm training process 学习算法求解Atari游戏最优决策问题,此后,又 有诸如深度确定策略网络梯度(deep deterministic 3多特征策略梯度优化算法 policy gradient,.DDPG)l),信赖邻域策略梯度优化 (trust region policy optimization,TRPO)l,近似策 在现有的深度确定性策略梯度算法的基础上 略梯度优化(proximal policy optimization,PPO)l 通过对机器人导航任务的任务奖励进行拆分,并 等算法都取得了较好的成果,实验证明,深度强 构建了各自的Q值网络用于优化策略网络,并在 化学习可以处理解决复杂的高纬度状态动作映射 此基础上行构建了基于策略梯度优化算法的多特 问题,从而实现更全面感知决策,具有较强的实 征策略梯度优化算法。 用性i6-20。在一些多智能体强化学习(multi-agent 3.1策略网络优化 reinforcement learning,MARL)研究工作中,集中 针对前述算法中将机器人的导航奖励设计为 训练和分散执行方案用于训练多智能体系统,例 统一奖励值的算法中存在的奖励显著性下降的问 counterfactual multi-agent (COMA)multi- 题,本文将机器人的导航问题分为避障任务和导
的动作的集合; P t st a t+1 st+1 s ′ 表示状态的条件转移概率,表示代理在 时 刻 状态下采取动作 后,在 时刻的状态 的 状态为 的概率,其公式表述为 P(s ′ |s,a) = P(st+1 = s ′ |st = s,at = a) R s a s ′ 为 MDP 的评价函数,是算法在 状态下执行 动作 后变换为 的过程对算法目标结果好坏的 量化评价标准,其定义为 R(s,a,s ′ ) = E[Rt+1 |st = s,at = a,st+1 = s ′ ] (1) γ γ ⩽ 1 是折扣因子,表示 MDP 中每一个决策环节 对相对于决策过程中未来的决策环节的重要性, 恒成立,表示算法更看重当前奖励而不是未 来的奖励。 s0 ∈ S s0 a0 ∈ S P(s1|s0,a0) s1 r0(s0,a0,s1) s1 MDP 的实际流程可以表示为图 2,环境中受 算法控制的代理对象在状态 的条件下初始 化,并由算法根据状态 选择建议动作 并由 代理对象完成该动作,环境根据所执行的动作, 根据条件转移概率 转移至下一状态 , 同时,环境给出对应奖励 。此后算法根 据状态 选择新的建议动作,并重复执行上述步 骤直至达到终止条件。 s0 a0 s1 a1 s2 r0 r1 r2 a2 图 2 马尔可夫决策过程 Fig. 2 Markov decision process 2.2 深度强化学习 深度强化学习 (deep reinforcement learning) 算法模型是以一种通用的形式将深度学习的感知 能力与强化学习的决策能力相结合,并能够通过 端对端的学习方式实现从原始输入到输出的直接 控制,在模拟环境中,从个人收集的所有数据都 用于在中央服务器中进行训练[9-11] ,例如深度 Q 学 习网络 (deep Q-learning, DQN)[12] 解决了使用强化 学习算法求解 Atari 游戏最优决策问题,此后,又 有诸如深度确定策略网络梯度 (deep deterministic policy gradient, DDPG)[13] ,信赖邻域策略梯度优化 (trust region policy optimization, TRPO)[14] ,近似策 略梯度优化 (proximal policy optimization, PPO)[15] 等算法都取得了较好的成果,实验证明,深度强 化学习可以处理解决复杂的高纬度状态动作映射 问题,从而实现更全面感知决策,具有较强的实 用性[16-20]。在一些多智能体强化学习 (multi-agent reinforcement learning, MARL) 研究工作中,集中 训练和分散执行方案用于训练多智能体系统,例 如 counterfactual multi-agent (COMA) [21] 和 multiagent DDPG(MADDPG) [22]。 其中,DQN 引入了两个重要策略实现了强化 学习算法与深度神经网络的融合。第一个策略是 目标网络的阶段性更新策略,保证了训练 Q 网络 的 Q 值稳定性。另一个策略是经验回放机制,这 个机制使得算法可以多次重复利用代理获得的经 验,通过重复性采样,提高了经验的利用率,并有 效降低了样本数据间的及关联参数,具体训练流 程如图 3 所示。 代理 环境 at+1 st+1 at+1 Q 网络 目标 Q 网络 参 经验池 数 更 新 DQN st , at , r, st+1 Q (st , at ) Q (st+1, a) 图 3 DQN 算法训练流程 Fig. 3 DQN algorithm training process DQN 是应用于离散动作空间的算法,这导致 无法应对控制精度高、动作空间复杂的问题。而 DDPG 作为解决连续控制型问题的算法适合本文 所遇到的难题,其算法流程如图 4 所示。 代理 环境 at st st , at , r, st+1 策略网络 πθ 目标策略网络 π'θ 参 数 更 新 经 验 回 放 Q 网络 目标 Q 网络 k 步更新 k 步更新 图 4 DDPG 算法训练流程 Fig. 4 DDPG algorithm training process 3 多特征策略梯度优化算法 在现有的深度确定性策略梯度算法的基础上 通过对机器人导航任务的任务奖励进行拆分,并 构建了各自的 Q 值网络用于优化策略网络,并在 此基础上行构建了基于策略梯度优化算法的多特 征策略梯度优化算法。 3.1 策略网络优化 针对前述算法中将机器人的导航奖励设计为 统一奖励值的算法中存在的奖励显著性下降的问 题,本文将机器人的导航问题分为避障任务和导 ·754· 智 能 系 统 学 报 第 17 卷
第4期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·755· 航任务,分别对2个任务进行量化评价并构建避 2个Q网络对状态s的策略梯度: 障Q值网络和导航Q值网络,分别使用2个Q值 (e)= 网络计算2个Q值对策略网络参数的梯度,从而 1又,.logr(a.ls.)0(sa.) cEB 实现对策略网络的优化,本文将其称为多特征策 (e)= 略梯度优化算法(multi-.featured policy gradients, ∑7,og((a MFPG)。 因此在MFPG算法中策略网络π,的策略梯度 MFPG将机器人的任务奖励分为两部分,分 是7J=[VJav,VJCa],因此,最终的策略参数更新 别称为导航奖励和避障奖励,因此在本算法中, 公式为 算法在t时刻的经验则定义为 p=p+a.Φ7eJ(e) (2) e:=(smarra,ICA,s 式中Φ是策略梯度权重,表示每个策略梯度分量 式中:表示t时刻的导航任务奖励,表示t时 的重要程度,其值与任务奖励、Q网络损失值相关。 刻的避障任务奖励。由2个奖励构建的Q值网络 综上所述,本文所述多特征策略梯度算法的 分别为 流程图如图5所示,从图中可以看出,所提出的多 (ON(s,a)=Ex(G(r)Is,=s,a,=a) 特征策略梯度优化方法通过将对奖励信息进行划 OCA(s,a)=E(G(rCA)Is,=s.a,=a) 分,并分别由划分的两个奖励构建Q网络,并在 其中Q公和Q分别代表由导航任务奖励和避障 最终构建关于策略网络的优化梯度,实现了对策 任务奖励构建的Q值网络,根据式(1)计算出 略网络的优化。 MFPG 导航Q网路 Actor 网络 避障Q网络 TD_误差 最小化 导航Q目标 Actor 网络 目标网络 目标Q 避障O目标 网络 图5多特征策略梯度优化算法 Fig.5 MFPG algorithm 3.2社会范式的奖惩函数设计 件下的社会范式,因此将离散化的指标性奖励精 借鉴人类社会发展过程中产生的行动规则 确为基于实时状态的奖励可以有效提高算法的训 (例如右侧通行等),引入了社会范式奖励,其具 练速度。 体方式如图6所示:当受控机器人(红)与其他机 器人(黑)进行交互且产生图示的位置关系时候 受控机器人会受到负奖励,从而降低出现图示位 置关系的概率。然而,这种方法只是在图示状态 下对机器人赋予了一个离散的负奖励信息,而且 图6离散的社会范式奖励 由于负奖励的判断范围较广(阴影所示区域),导 Fig.6 Discrete social paradigm rewards 致负奖励信息只能用于定性分析受控机器人状 综上,本研究在前文研究的基础上,针对现有 态,而不能用于提高算法的控制精度,且由于算 导航算法中提出的离散式社会规范奖励存在的奖 法本身奖励稀疏,导致算法更无法学习在图示条 励稀疏、离散的社会负奖励信息只能定性分析机
航任务,分别对 2 个任务进行量化评价并构建避 障 Q 值网络和导航 Q 值网络,分别使用 2 个 Q 值 网络计算 2 个 Q 值对策略网络参数的梯度,从而 实现对策略网络的优化,本文将其称为多特征策 略梯度优化算法(multi-featured policy gradients, MFPG)。 t MFPG 将机器人的任务奖励分为两部分,分 别称为导航奖励和避障奖励,因此在本算法中, 算法在 时刻的经验则定义为 et = {st ,at ,r Nav t ,r CA t ,st+1} r Nav t t r CA t 式中: 表示 时刻的导航任务奖励, 表示 t 时 刻的避障任务奖励。由 2 个奖励构建的 Q 值网络 分别为 { Q Nav π (s,a) = Eπ(Gt(r Nav )|st = s,at = a) Q CA π (s,a) = Eπ(Gt(r CA)|st = s,at = a) Q Nav π Q CA 其中 和 π 分别代表由导航任务奖励和避障 任务奖励构建的 Q 值网络,根据式 (1) 计算出 2 个 Q 网络对状态 st的策略梯度: ∇φ J Nav(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q Nav π (se ,ae) ∇φ J CA(e) = 1 m ∑ e∈B ∇φ logπ(ae |se)Q CA π (se ,ae) πφ ∇φ J = [∇φ J Nav ,∇φ J CA] 因此在 MFPG 算法中策略网络 的策略梯度 是 ,因此,最终的策略参数更新 公式为 φ = φ+α·Φ T∇φ J(e) (2) 式中 Φ 是策略梯度权重,表示每个策略梯度分量 的重要程度,其值与任务奖励、Q 网络损失值相关。 综上所述,本文所述多特征策略梯度算法的 流程图如图 5 所示,从图中可以看出,所提出的多 特征策略梯度优化方法通过将对奖励信息进行划 分,并分别由划分的两个奖励构建 Q 网络,并在 最终构建关于策略网络的优化梯度,实现了对策 略网络的优化。 导航 Q 目标 网络 避障 Q 目标 网络 导航 Q 网络 避障 Q 网络 Actor 目标网络 Actor 网络 A Q Qπ NAV Qπ CA A' S S' MFPG 目标 Q 最小化 TD_误差 图 5 多特征策略梯度优化算法 Fig. 5 MFPG algorithm 3.2 社会范式的奖惩函数设计 借鉴人类社会发展过程中产生的行动规则 (例如右侧通行等),引入了社会范式奖励,其具 体方式如图 6 所示:当受控机器人(红)与其他机 器人(黑)进行交互且产生图示的位置关系时候 受控机器人会受到负奖励,从而降低出现图示位 置关系的概率。然而,这种方法只是在图示状态 下对机器人赋予了一个离散的负奖励信息,而且 由于负奖励的判断范围较广(阴影所示区域),导 致负奖励信息只能用于定性分析受控机器人状 态,而不能用于提高算法的控制精度,且由于算 法本身奖励稀疏,导致算法更无法学习在图示条 件下的社会范式,因此将离散化的指标性奖励精 确为基于实时状态的奖励可以有效提高算法的训 练速度。 图 6 离散的社会范式奖励 Fig. 6 Discrete social paradigm rewards 综上,本研究在前文研究的基础上,针对现有 导航算法中提出的离散式社会规范奖励存在的奖 励稀疏、离散的社会负奖励信息只能定性分析机 第 4 期 欧阳勇平,等:动态环境下分布式异构多机器人避障方法研究 ·755·
·756· 智能系统学报 第17卷 器人的社会范式状态的问题提出了一种新的基于 90° 激光雷达信息的连续空间社会范式奖励计算方 120° 60° 法,其计算公式为 -4 n=[ruse(Umin).G(]9 150° 30° 上式表示naer(lnmn)G(a)的值最终在[-9.9,9.9]的 6 边界区间内,其中rser(lm)表示当前激光雷达探测 区域最小值的计算奖励,ln=la/MAx表示激光雷 180 09 00.250.500.751.0 达的最小探测值的正则化值,MAx表示激光雷达 雷达射线 (a)带有偏置奖励参数的奖励分布 的最大侦测范围,G()表示激光雷达最小值所在 方位引起的奖励偏置因子,其中表示激光雷达传 909 120° 609 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图1。上述两 150° 值的计算公式为 ∫aser(lnin)=-emw -6 1G(z)=U-D×(1-) 式中:k表示避障增益,o表示避障奖励的偏移量, 80 00.250.500.751.00 在本文中两者分别为20和0.5,该奖励值随l的 雷达射线 (b)无偏置奖励参数的奖励分布 变化如图7所示。 图8奖励分布 Fig.8 Bonus distribution 3.3经验优先采样机制 在经验回放过程中,经验的选择会影响Q网 一5 络的收敛速度,进而影响策略网络的训练。而传 -6 统的均匀采样不能显著提高Q网络的训练速度, -7 因此,本文采用了基于Q网络损失值的经验优先 0 0.2 0.40.60.8 1.0 雷达射线长度 采样算法并进行改进,其核心在于根据Q值网络 图7避障奖励值变化 的损失值构建每一条经验的采样优先性,其主要 Fig.7 Changes of obstacle avoidance bonus value 流程为:对于每条经验e及其Q值网络的损失L(e), 此外,U和D分别表示偏置上限和偏置零点的 定义其采样优先度为 位置,在本文中U和D分别为3和2.5。因而,避障 Lo(e:) P(e)= 奖励函数的最终计算公式为 ∑.Le -l0,l1min≤0.1 式中ε表示采样优先度指数,当ε=0时代表算法采 = (n, Imin >0.1 用均匀采样方法。在经验采样时,算法按照概率 将上式标绘在平面直角坐标系中得到图8(a), P(e,)随机选择经验组成训练经验组。因此,在实 同时作为对比,图8(b)也标绘了G(a)=1时的奖励 际训练时,每条经验被采样的概率正比于其损 分布。 失函数L(e),因此可以显著提高Q网络的收敛 从图8(a)的奖励状态分布可知,如果距离机 速度。 器人最近的障碍物位于机器人两侧时,无偏置的 此外,由于Q值网络的更新会改变Q值网络 奖励算法将输出同样的奖励结果,这导致了两辆 的分布,从而改变经验e,的Q值期望,因此基于优 车辆在相遇时,无法准确对对方的形为进行预测 先级的经验回放算法会引入偏差,需要对优先采 并进行有效规避,从而导致发生碰撞,而带有偏 样获得的经验添加重要性修正权重以降低偏差, 置的奖励计算方法可以对机器人左右两侧的信息 其计算公式为 进行有效区分,从而保证强化学习算法在训练过 1 程中对于左侧和右侧的障碍物表现出明显的倾向 w(e)=8-Pea 性,因此可以保证车辆在相遇时会根据自身预设 式中:B表示经验样本集合的容量,s表示算法的 的策略倾向实现在无通讯信息条件下多机器人间 修正权重,因此,修正后的策略网络的参数更新 的安全导航避障。 公式为
器人的社会范式状态的问题提出了一种新的基于 激光雷达信息的连续空间社会范式奖励计算方 法,其计算公式为 rl = [rlaser(lmin)·G(z)]| 9.9 −9.9 rlaser(lmin)·G(z) [−9.9,9.9] rlaser(lmin) lmin = lmin/lMAX lMAX G(z) z 上式表示 的值最终在 的 边界区间内,其中 表示当前激光雷达探测 区域最小值的计算奖励, 表示激光雷 达的最小探测值的正则化值, 表示激光雷达 的最大侦测范围, 表示激光雷达最小值所在 方位引起的奖励偏置因子,其中 表示激光雷达传 感器探测到最短激光值所在位置的正则化序号 值,其具体表述及序号关系详述于图 1。上述两 值的计算公式为 { rlaser(lmin) = −e kl (lmin−ol ) G(z) = U − D×(1−z) kl ol lmin 式中: 表示避障增益, 表示避障奖励的偏移量, 在本文中两者分别为 20 和 0.5,该奖励值随 的 变化如图 7 所示。 −6 −7 −8 −4 −5 −3 −2 −1 0 0 0.2 0.4 0.6 0.8 1.0 奖励值 雷达射线长度 图 7 避障奖励值变化 Fig. 7 Changes of obstacle avoidance bonus value U D U D 此外, 和 分别表示偏置上限和偏置零点的 位置,在本文中 和 分别为 3 和 2.5。因而,避障 奖励函数的最终计算公式为 r CA t = −10, lmin ⩽ 0.1 r1 , lmin > 0.1 G(z) = 1 将上式标绘在平面直角坐标系中得到图 8(a), 同时作为对比,图 8(b) 也标绘了 时的奖励 分布。 从图 8(a) 的奖励状态分布可知,如果距离机 器人最近的障碍物位于机器人两侧时,无偏置的 奖励算法将输出同样的奖励结果,这导致了两辆 车辆在相遇时,无法准确对对方的形为进行预测 并进行有效规避,从而导致发生碰撞,而带有偏 置的奖励计算方法可以对机器人左右两侧的信息 进行有效区分,从而保证强化学习算法在训练过 程中对于左侧和右侧的障碍物表现出明显的倾向 性,因此可以保证车辆在相遇时会根据自身预设 的策略倾向实现在无通讯信息条件下多机器人间 的安全导航避障。 雷达射线 (a) 带有偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 雷达射线 (b) 无偏置奖励参数的奖励分布 180° 150° 0 0.25 0.50 0.75 1.00 120° 90° 60° 30° 0°奖励值 −6 −8 −4 −2 图 8 奖励分布 Fig. 8 Bonus distribution 3.3 经验优先采样机制 ei Lθ(ei) 在经验回放过程中,经验的选择会影响 Q 网 络的收敛速度,进而影响策略网络的训练。而传 统的均匀采样不能显著提高 Q 网络的训练速度, 因此,本文采用了基于 Q 网络损失值的经验优先 采样算法并进行改进,其核心在于根据 Q 值网络 的损失值构建每一条经验的采样优先性,其主要 流程为:对于每条经验 及其 Q 值网络的损失 , 定义其采样优先度为 P(ei) = Lθ(ei) ε ∑ e Lθ(e) ε ε ε = 0 P(ei) ei Lθ(ei) 式中 表示采样优先度指数,当 时代表算法采 用均匀采样方法。在经验采样时,算法按照概率 随机选择经验组成训练经验组。因此,在实 际训练时,每条经验 被采样的概率正比于其损 失函数 ,因此可以显著提高 Q 网络的收敛 速度。 ei 此外,由于 Q 值网络的更新会改变 Q 值网络 的分布,从而改变经验 的 Q 值期望,因此基于优 先级的经验回放算法会引入偏差,需要对优先采 样获得的经验添加重要性修正权重以降低偏差, 其计算公式为 ω(ei) = ( 1 |B| · P(ei) )ς 式中: |B| 表示经验样本集合的容量, ς 表示算法的 修正权重,因此,修正后的策略网络的参数更新 公式为 ·756· 智 能 系 统 学 报 第 17 卷