第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202107040 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004html 旋翼无人机在移动平台降落的控制 参数自学习调节方法 张鹏鹏,魏长赞,张恺睿,欧阳勇平 (河海大学机电工程学院,江苏常州213022) 摘要:无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他 无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将 无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正 纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-de rivative,PID)方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学 习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无 人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏COACH方法的深度强化学习PID方法优 于传统控制方法,且能稳定完成在移动平台上的降落任务。 关键词:自主降落;强化学习;路径规划;COACH框架;确定性策略梯度;空地协同:无人机;最优控制 中图分类号:TP273+.2文献标志码:A 文章编号:1673-4785(2022)05-0931-10 中文引用格式:张鹏鹏,魏长簧,张恺容,等.旋翼无人机在移动平台降落的控制参数自学习调节方法.智能系统学报,2022, 17(5):931-940. 英文引用格式:ZHANG Pengpeng,WEI Changyun,,ZHANG Kairui,,etal.Self-learning approach to control parameter adjust- ment for quadcopter landing on a moving platformJ.CAAI transactions on intelligent systems,2022,17(5):931-940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng,WEI Changyun,ZHANG Kairui,OUYANG Yongping (College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China) Abstract:Unmanned Aerial Vehicle(UAV)is a type of robot that performs well in mapping without being affected by the terrain.However,a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs)is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task.When deploying a team of UAVs and UGVs,it is both important and challenging to land a UAV on a mobile platform quickly and stably.To circumvent the UAV landing issue,this study proposes a reinforcement learning PID method based on the correction COACH method,thereby providing an optimal path for the UAV to land on a mobile platform.First,the reinforcement learning agent is trained using the rectification framework in a simulated environment.Next,the trained agent is used for output control parameters in the simulated and true environments,and subsequently,the output parameters are utilized to obtain the control variables of the UAV's position.The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control meth- od and can accomplish the task of a stable landing on a mobile platform. Keywords:autonomous landing;reinforcement learning;path planning;COACH frame;deterministic policy gradient; air-ground cooperation;UAV;optimal control 无人机可以应用于不同的场景,例如日常的 挖掘过程)等。单一的无人机不受地形的限制,但 便民生活应用山,农业生产过程,矿场的侦探和 是由于携带电池能量的限制,执行任务时间短,并 收稿日期:2021-07-20.网络出版日期:2022-05-20 且难以承担较重的负载。无人车(船)移动范围受 基金项目:国家自然科学基金项目(61703138):中央高校基本 科研业务费项目(B200202224). 限于地形,难以到达特定的位置。无人机-无人车 通信作者:魏长赞.E-mail:c.wei@hhu.edu.cn. (船)的组合系统可以结合两者的优点,完成复杂
DOI: 10.11992/tis.202107040 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004.html 旋翼无人机在移动平台降落的控制 参数自学习调节方法 张鹏鹏,魏长赟,张恺睿,欧阳勇平 (河海大学 机电工程学院,江苏 常州 213022) 摘 要:无人机设备能够适应复杂地形,但由于电池容量等原因,无人机无法长时间执行任务。无人机与其他 无人系统(无人车、无人船等)协同能够有效提升无人机的工作时间,完成既定任务,当无人机完成任务后,将 无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题,文中提出了基于矫正 纠偏 COACH(corrective advice communicated humans) 方法的深度强化学习比例积分微分 (proportional-integral-derivative, PID) 方法,为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学 习模型进行训练,然后在仿真环境和真实环境中,使用训练后的模型输出控制参数,最后利用输出参数获得无 人机位置控制量。仿真结果和真实无人机实验表明,基于矫正纠偏 COACH 方法的深度强化学习 PID 方法优 于传统控制方法,且能稳定完成在移动平台上的降落任务。 关键词:自主降落;强化学习;路径规划;COACH 框架;确定性策略梯度;空地协同;无人机;最优控制 中图分类号:TP273+.2 文献标志码:A 文章编号:1673−4785(2022)05−0931−10 中文引用格式:张鹏鹏, 魏长赟, 张恺睿, 等. 旋翼无人机在移动平台降落的控制参数自学习调节方法 [J]. 智能系统学报, 2022, 17(5): 931–940. 英文引用格式:ZHANG Pengpeng, WEI Changyun, ZHANG Kairui, et al. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform[J]. CAAI transactions on intelligent systems, 2022, 17(5): 931–940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng,WEI Changyun,ZHANG Kairui,OUYANG Yongping (College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China) Abstract: Unmanned Aerial Vehicle (UAV) is a type of robot that performs well in mapping without being affected by the terrain. However, a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs) is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task. When deploying a team of UAVs and UGVs, it is both important and challenging to land a UAV on a mobile platform quickly and stably. To circumvent the UAV landing issue, this study proposes a reinforcement learning PID method based on the correction COACH method, thereby providing an optimal path for the UAV to land on a mobile platform. First, the reinforcement learning agent is trained using the rectification framework in a simulated environment. Next, the trained agent is used for output control parameters in the simulated and true environments, and subsequently, the output parameters are utilized to obtain the control variables of the UAV’s position. The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control method and can accomplish the task of a stable landing on a mobile platform. Keywords: autonomous landing; reinforcement learning; path planning; COACH frame; deterministic policy gradient; air-ground cooperation; UAV; optimal control 无人机可以应用于不同的场景,例如日常的 便民生活应用[1] ,农业生产过程[2] ,矿场的侦探和 挖掘过程[3] 等。单一的无人机不受地形的限制,但 是由于携带电池能量的限制,执行任务时间短,并 且难以承担较重的负载。无人车(船)移动范围受 限于地形,难以到达特定的位置。无人机–无人车 (船)的组合系统可以结合两者的优点,完成复杂 收稿日期:2021−07−20. 网络出版日期:2022−05−20. 基金项目:国家自然科学基金项目(61703138);中央高校基本 科研业务费项目(B200202224). 通信作者:魏长赟. E-mail:c.wei@hhu.edu.cn. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
第17卷 智能系统学报 ·932· 的任务。在执行任务结束后,无人机如何移动 务,不过在文中提到的无人机降落方法依然有进 到指定位置是协同系统实际应用的关键问题, 步的空间,难以在复杂的环境中实行降落任务。 因此本文聚焦于无人机的自主降落问题。 1.2 传统控制方法应用 在文献[7-8]中,作者将多种传统的控制方法 文献[18]提出一种比例微分(proportional-.in- 应用于无人机降落任务,这些方法具有稳定和低 tegral,PD)控制器,该控制方法针对无人机自主降 算力需求的优点,但是较难实现最优的控制效 落问题,实现了无人机降落到固定平台的任务。在 果。文献[912]将强化学习理论应用于无人机降 文献[8]中,作者将模型预测控制方法应用于无 落问题,并取得良好的效果。在文献[13-16]中, 人机降落问题,该方法结构轻量,响应迅速,能够 使用强化学习原理调整控制算法的参数,面对不 在低算力的平台中运行。同时,作者在文中使用 同的控制情形,能够实现较优的控制效果,但是 仿真环境进行验证,且效果良好,但是并没有在 并没有进行真实无人机实验。 真实的场景中进行降落效果的测试。PD控制方 针对以上方法的不足,本文结合深度强化学 法在控制任务中广泛使用,但是固定参数的PD控 习理论和比例积分微分(proportional-integral-deriv- 制方法对非线性问题适应性差,在文献[刀中,作 ative,PID)控制方法,解决无人机降落至移动平台 者提出一种基于模糊逻辑的PID控制方法,结果 的问题,本方法既有PID方法的稳定性,又能够 显示,该方法优于传统的控制方法,不足之处在 发挥强化学习寻找最优控制策略的优点,迅速完 于该方法未考虑无人机降落到移动的平台的情形。 成无人机降落到无人移动平台的任务。 1.3强化学习算法的应用 1 无人机降落问题描述 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 在多机器人无人系统中,无人机在完成特定任 情况下的最优控制,这是传统控制方法难以比拟 务后需要降落至特定平台,本文基于上述任务,针 的。理论上,基于马尔可夫过程的强化学习算法 对无人机降落问题,提出一种结合深度强化学习 有潜力找到最优的控制策略,当算法训练充分后 算法和比例积分微分(proportional-integral--derivat-- 就可以实现对于无人机降落问题的最优控制。在 ive,PID)原理的控制方法。文中首先介绍多机器 文献[9,11]中,作者将确定性策略梯度方法应 人协同系统以及实现无人机降落任务的必要性, 用于无人机降落问题中,该方法在虚拟环境中进 并详细介绍传统控制方法和机器学习方法在无人 行训练,并且可以在仿真和真实环境中,实现对无 机降落问题上的应用现状。 人机降落过程的控制。确定性策略梯度方法能够 1.1关键的无人机降落问题 根据不同的状态输入输出不同的动作,进而完成 在如今的机器人学研究中,单一的机器人难 当前的任务。文献[11]中,输人状态包含x、y两 以完成复杂任务。在所有的无人设备中,无人机 个方向上的位置信息,算法根据不同的位置信息控 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 制无人机降落,以连续的状态作为输入并输出连 到达特定的位置,并且无人机在空中悬停可以为 续动作,有潜力实现精确控制,由于文章中的方法 地面无人设备和工作人员提供高处视角的图像信 未使用:方向的位置信息,当面对不同高度的输 息,为发现和定位目标物品提供可能。同时,无 入时可能有相同的输出,影响控制无人机降落的 人机由于自身结构的原因也有特定的缺点,包括 效果。文献[9]中,作者同样使用确定性策略梯度 由于电池能量不足造成的执行任务时间短和无法 方法,该方法的输入包括三轴的位置信息,可根 携带较重负载的问题等。对单一的无人机设备添 据无人机高度改变输出动作,从而实现精准控制, 加无人车(船)组成协同系统可以有效地解决无 同上面的方法一样,此方法以连续的状态作为输 人机的上述缺点。实际应用中,无人机完成任 入并输出连续的动作,保证无人机的精确控制。 务,须自动返回,以备下次任务的执行。因此,在 在文献[16,20]中,一种结合PD理论和强化 这些协同系统中,如何将无人机降落到特定的平 学习原理的方法被应用于移动机器人的路径规划 台上是一项必须解决的任务。在文献[17刀中,作 问题,在仿真实验中,对比传统PD方法,文中提 者提出一种无人机和无人车的协同系统,该系统 出的Q学习-PID方法在路径规划实验的结果中 作业于建筑行业,收集建筑区域内的各种关键数 优势明显,面对不同环境和干扰时,表现出鲁棒 据。该方法结合了两种机器人的优点,弥补单一 性强的优点。文献[21-22]将参数自学习调节方法 机器人的不足,高效地实现建筑行业数据收集任 应用于无人机降落至静止平台的任务,由于控制
的任务[4-5]。在执行任务结束后,无人机如何移动 到指定位置是协同系统实际应用的关键问题[6] , 因此本文聚焦于无人机的自主降落问题。 在文献 [7-8] 中,作者将多种传统的控制方法 应用于无人机降落任务,这些方法具有稳定和低 算力需求的优点,但是较难实现最优的控制效 果。文献 [9-12] 将强化学习理论应用于无人机降 落问题,并取得良好的效果。在文献 [13-16] 中, 使用强化学习原理调整控制算法的参数,面对不 同的控制情形,能够实现较优的控制效果,但是 并没有进行真实无人机实验。 针对以上方法的不足,本文结合深度强化学 习理论和比例积分微分 (proportional-integral-derivative, PID) 控制方法,解决无人机降落至移动平台 的问题,本方法既有 PID 方法的稳定性,又能够 发挥强化学习寻找最优控制策略的优点,迅速完 成无人机降落到无人移动平台的任务。 1 无人机降落问题描述 在多机器人无人系统中,无人机在完成特定任 务后需要降落至特定平台,本文基于上述任务,针 对无人机降落问题,提出一种结合深度强化学习 算法和比例积分微分 (proportional-integral-derivative, PID) 原理的控制方法。文中首先介绍多机器 人协同系统以及实现无人机降落任务的必要性, 并详细介绍传统控制方法和机器学习方法在无人 机降落问题上的应用现状。 1.1 关键的无人机降落问题 在如今的机器人学研究中,单一的机器人难 以完成复杂任务。在所有的无人设备中,无人机 有着多项优点,其他设备难以替代无人机执行任 务。首先无人机运动不受地形限制,可以轻易地 到达特定的位置,并且无人机在空中悬停可以为 地面无人设备和工作人员提供高处视角的图像信 息,为发现和定位目标物品提供可能。同时,无 人机由于自身结构的原因也有特定的缺点,包括 由于电池能量不足造成的执行任务时间短和无法 携带较重负载的问题等。对单一的无人机设备添 加无人车(船)组成协同系统可以有效地解决无 人机的上述缺点。实际应用中,无人机完成任 务,须自动返回,以备下次任务的执行。因此,在 这些协同系统中,如何将无人机降落到特定的平 台上是一项必须解决的任务。在文献 [17] 中,作 者提出一种无人机和无人车的协同系统,该系统 作业于建筑行业,收集建筑区域内的各种关键数 据。该方法结合了两种机器人的优点,弥补单一 机器人的不足,高效地实现建筑行业数据收集任 务,不过在文中提到的无人机降落方法依然有进 步的空间,难以在复杂的环境中实行降落任务。 1.2 传统控制方法应用 文献 [18] 提出一种比例微分 (proportional-integral, PD) 控制器,该控制方法针对无人机自主降 落问题,实现了无人机降落到固定平台的任务。在 文献 [8] 中,作者将模型预测控制方法应用于无 人机降落问题,该方法结构轻量,响应迅速,能够 在低算力的平台中运行。同时,作者在文中使用 仿真环境进行验证,且效果良好,但是并没有在 真实的场景中进行降落效果的测试。PID 控制方 法在控制任务中广泛使用,但是固定参数的 PID 控 制方法对非线性问题适应性差,在文献 [7] 中,作 者提出一种基于模糊逻辑的 PID 控制方法,结果 显示,该方法优于传统的控制方法,不足之处在 于该方法未考虑无人机降落到移动的平台的情形。 1.3 强化学习算法的应用 许多学者应用强化学习算法寻找解决问题的 最优策略。强化学习算法能够实现在干扰和复杂 情况下的最优控制,这是传统控制方法难以比拟 的。理论上,基于马尔可夫过程的强化学习算法 有潜力找到最优的控制策略,当算法训练充分后 就可以实现对于无人机降落问题的最优控制。在 文献 [9,11] 中,作者将确定性策略梯度方法[19] 应 用于无人机降落问题中,该方法在虚拟环境中进 行训练,并且可以在仿真和真实环境中,实现对无 人机降落过程的控制。确定性策略梯度方法能够 根据不同的状态输入输出不同的动作,进而完成 当前的任务。文献 [11] 中,输入状态包含 x、y 两 个方向上的位置信息,算法根据不同的位置信息控 制无人机降落,以连续的状态作为输入并输出连 续动作,有潜力实现精确控制,由于文章中的方法 未使用 z 方向的位置信息,当面对不同高度的输 入时可能有相同的输出,影响控制无人机降落的 效果。文献 [9] 中,作者同样使用确定性策略梯度 方法,该方法的输入包括三轴的位置信息,可根 据无人机高度改变输出动作,从而实现精准控制, 同上面的方法一样,此方法以连续的状态作为输 入并输出连续的动作,保证无人机的精确控制。 在文献 [16,20] 中,一种结合 PID 理论和强化 学习原理的方法被应用于移动机器人的路径规划 问题,在仿真实验中,对比传统 PID 方法,文中提 出的 Q 学习–PID 方法在路径规划实验的结果中 优势明显,面对不同环境和干扰时,表现出鲁棒 性强的优点。文献 [21-22] 将参数自学习调节方法 应用于无人机降落至静止平台的任务,由于控制 第 17 卷 智 能 系 统 学 报 ·932·
·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 器参数随当前状态自适应调节,因此取得的无人 为其后的算法带来启发,这些算法包括深度Q学 机路径控制效果均优于传统PD方法。目前类似 习2网、双Q学习0、决斗Q学习算法,但是Q学 的方法还没有应用于无人机降落至移动平台任务, 习算法由于其离散的输入和输出,只能解决复杂 在无人机降落问题中,使用结合PD理论和强化 度低的低维度问题。 学习原理的方法,具有创新性和可行性。在文献 2.2深度强化学习 [23]中,作者提出一种矫正纠偏(corrective advice 在实际任务执行时,状态和动作的表示是连 communicated humans,COACH)框架,使用人类建 续的,由于维度爆炸的问题,在连续的动作状态 议,用于帮助强化学习算法寻找最优的控制策 空间中使用离散的状态和动作难以实现。因此, 略,效果显著,能优化获得的最终策略。 本文使用神经网络非线性拟合的特点,对动作价 本文提出一种结合PD原理和强化学习理论 值函数进行估计,为了更好的表示动作价值函 的方法,完成无人机降落到移动平台的任务,应 数,本方法定义损失函数L()=E0y,-Qs,a,le)] 用矫正纠偏框架,优化最终训练得到的策略。上 来优化网络参数P,其中y=(s,a)+yQ(s41,a+ile)。 层的控制策略选择确定性策略梯度方法,该方法 如果策略是确定的,则可以将状态映射到动作 有着连续的输入和输出,在连续空间上,有潜力 上,即:S→A,之后本文定义动作网络俨,其遵循 实现优秀的控制效果。下层应用PD方法,用于 J(π)进行更新,使得J(π)变大,即根据7J(π≈ 保证无人机降落的稳定性。 EVeQ(s,dee儿==g]=EV.O(s,alee)儿==a7e4(se儿=l 进行更新。 2强化学习算法描述 确定性策略梯度方法是一种解决在连续状 2.1强化学习 态空间和动作空间的无模型算法。此方法使用动 作-评论家的结构,有两个主要的人工神经网络, 人工智能领域中,强化学习通常根据特定的 一个用于拟合动作价值函数,称为价值网络,另 状态寻找最优动作,并将动作执行进而完成相应 一个网络用于产生动作,成为动作网络俨。在这 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋、电脑游戏2s2等。 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络和 在理论上,基于强化学习的方法在经过一定回合 目标动作网络俨)对更新的两个主网络进行软更 的训练后,所获得的智能体可以在不同场景实现 新,提高其稳定性。两个目标网络分别与价值网 特定的任务。一个标准的强化学习问题可以由 络和动作网络有着相同的结构。在训练时,每个 S、A、P、r、y定义。其中S和A分别代表输入状 输出动作有随机的干扰,用于增加算法探索的空 态和输出动作的集合,s和a表示某一时间的状 间,动作作用于环境后,智能体会将观察数组 态和动作,P表示状态转移概率,r是奖励信息,” (sep,aep,'ep,Sep1)储存到记忆库中,记忆库达到 是折扣因子,同时定义总体奖励R= 定数最后,按公式L=(付)∑-Qa更新 其中∫是最后的回合数。 价值网络参数使得L减小,其中B是样本取样个 智能体在环境中进行训练,不断优化当前的 数,y=(s,a)+yQ(s41,μ(s+ilG)0),之后按照7J≈ 策略,对于一个特定的策略π,本文以公式V(s)= E[Rls=,π定义价值函数V。同样由公式Q(s,a,)= B∑.Qxd儿P.对动作网路D进 E[Rs=s,a=a,π定义动作价值函数。同时本文使 行更新,使得J增大,接着,本方法对两个目标网 用J(π)定义策略π的评价标准,具体为J(π)=E[R,]。 络进行软更新,具体公式为:0=tP+(1-r)ge和 最后使用π来代表最优的控制策略,即, =t伊+(1-T)。最后经过不断地训练,会得到 π"=arg max O'(s,a) 两个主网络,用于实际问题的解决。 智能体不断地在环境中训练,并使用贝尔曼方程: 2.3使用矫正纠偏框架的强化学习方法 a)=.a4)ty》P之en 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 不断更新状态价值函数,因此智能体在强化学 而显著增加。为了减少训练的时间并提升训练的 习算法的规则下不断训练并获得最优的控制策略。 效果,一种矫正纠偏框架用于提升训练的效率, 在强化学习的发展过程中,最具有代表性的 在智能体输出动作时,使用人类的建议(一个二 算法2叨是Q学习算法2,算法本身结构简单,并 值化的量)对智能体产生的动作进行增强或者减
器参数随当前状态自适应调节,因此取得的无人 机路径控制效果均优于传统 PID 方法。目前类似 的方法还没有应用于无人机降落至移动平台任务, 在无人机降落问题中,使用结合 PID 理论和强化 学习原理的方法,具有创新性和可行性。在文献 [23] 中,作者提出一种矫正纠偏(corrective advice communicated humans, COACH)框架,使用人类建 议,用于帮助强化学习算法寻找最优的控制策 略,效果显著,能优化获得的最终策略。 本文提出一种结合 PID 原理和强化学习理论 的方法,完成无人机降落到移动平台的任务,应 用矫正纠偏框架,优化最终训练得到的策略。上 层的控制策略选择确定性策略梯度方法,该方法 有着连续的输入和输出,在连续空间上,有潜力 实现优秀的控制效果。下层应用 PID 方法,用于 保证无人机降落的稳定性。 2 强化学习算法描述 2.1 强化学习 Rt = ∑ f i=t γ i−t r(si ,ai) 人工智能领域中,强化学习通常根据特定的 状态寻找最优动作,并将动作执行进而完成相应 的任务。基于强化学习原理的方法已经在多个领 域取得亮眼表现,包括围棋[24] 、电脑游戏[25-26] 等。 在理论上,基于强化学习的方法在经过一定回合 的训练后,所获得的智能体可以在不同场景实现 特定的任务。一个标准的强化学习问题可以由 S、A、P、r、γ 定义。其中 S 和 A 分别代表输入状 态和输出动作的集合,s 和 a 表示某一时间的状 态和动作,P 表示状态转移概率,r 是奖励信息,γ 是折扣因子,同时定义总体奖励 , 其中 f 是最后的回合数。 V π (st) = E[Rt |s = st , π] V π Q π (st ,at) = E[Rt |s = st ,a = at , π] J(π) J(π) = E[Rt |π] π ∗ 智能体在环境中进行训练,不断优化当前的 策略,对于一个特定的策略 π,本文以公式 定义价值函数 。同样由公式 定义动作价值函数。同时本文使 用 定义策略 π 的评价标准,具体为 。 最后使用 来代表最优的控制策略,即, π ∗ = argmaxQ ∗ (st ,at) 智能体不断地在环境中训练,并使用贝尔曼方程: Q(st ,at) = r(st ,at)+γ ∑ st+1∈S P at st ,st+1 ∑ at+1∈A Q(st+1,at+1) 不断更新状态价值函数,因此智能体在强化学 习算法的规则下不断训练并获得最优的控制策略。 在强化学习的发展过程中,最具有代表性的 算法[27] 是 Q 学习算法[28] ,算法本身结构简单,并 为其后的算法带来启发,这些算法包括深度 Q 学 习 [29] 、双 Q 学习[30] 、决斗 Q 学习算法[31] ,但是 Q 学 习算法由于其离散的输入和输出,只能解决复杂 度低的低维度问题。 2.2 深度强化学习 L(θ Q ) = E[(yt − Q(st ,at |θ Q ))2 ] θ Q yt = r(st ,at)+γQ(st+1,at+1|θ Q ) µ : S → A θ µ J(π) J(π) ∇θ µ J(π) ≈ E[∇θ µQ(s,a|θ Q )|s=si,a=µ(si|θ µ )]= E[∇aQ(s,a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|s=si ] 在实际任务执行时,状态和动作的表示是连 续的,由于维度爆炸的问题,在连续的动作状态 空间中使用离散的状态和动作难以实现。因此, 本文使用神经网络非线性拟合的特点,对动作价 值函数进行估计,为了更好的表示动作价值函 数,本方法定义损失函数 来优化网络参数 ,其中 。 如果策略是确定的,则可以将状态映射到动作 上,即 ,之后本文定义动作网络 ,其遵循 进行更新,使得 变大,即根据 进行更新。 θ Q θ µ θ Q ′ θ µ ′ (sstep,astep,rstep,sstep+1) L = ( 1 B ) · ∑ i (yi − Q(si ,ai |θ Q ))2 θ Q B yt = r(st ,at)+γQ(st+1, µ(st+1|θ µ ′ )|θ Q′ ) ∇θµ J ≈ 1 B ∑ i ∇aQ(s, a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|si θ µ J θ Q ′ = τθQ+(1−τ)θ Q ′ θ µ ′ = τθµ +(1−τ)θ µ ′ 确定性策略梯度方法[19] 是一种解决在连续状 态空间和动作空间的无模型算法。此方法使用动 作–评论家的结构,有两个主要的人工神经网络, 一个用于拟合动作价值函数,称为价值网络 ,另 一个网络用于产生动作,成为动作网络 。在这 两个网络进行更新时,网络的迭代会不稳定和发 散,因此,使用两个目标网络(目标价值网络 和 目标动作网络 )对更新的两个主网络进行软更 新,提高其稳定性。两个目标网络分别与价值网 络和动作网络有着相同的结构。在训练时,每个 输出动作有随机的干扰,用于增加算法探索的空 间,动作作用于环境后,智能体会将观察数组 储存到记忆库中,记忆库达到一 定数量后,按公式 更新 价值网络参数 使得 L 减小,其中 是样本取样个 数, ,之后按照 对动作网络 进 行更新,使得 增大,接着,本方法对两个目标网 络进行软更新,具体公式为: 和 。最后经过不断地训练,会得到 两个主网络,用于实际问题的解决。 2.3 使用矫正纠偏框架的强化学习方法 使用深度强化学习算法需要大量的时间进行 训练,并且训练的时间随着动作空间维度的增加 而显著增加。为了减少训练的时间并提升训练的 效果,一种矫正纠偏框架用于提升训练的效率, 在智能体输出动作时,使用人类的建议(一个二 值化的量)对智能体产生的动作进行增强或者减 ·933· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期
第17卷 智能系统学报 ·934· 弱。在矫正纠偏框架下的确定性策略梯度方法具 索,使用确定性策略梯度方法对网络进行更新, 体结构如图1所示,使用人类建议指导智能体探 最终迅速获得最优策略。 专家 初始网绍 智能体 a a,=a,'+a 仿其环境 记忆库 +终止网路 参数更新 图1使用矫正纠偏框架的确定性策略梯度方法 Fig.1 DDPG with COACH 在本文提出的方法中,使用人类的建议增加 定义,其中d,是1时刻无人机与目标点的欧式 或者减弱智能体生成的动作,最终动作作用于环 距离。当无人机降落到指定的地点,奖励值为1, 境中,并储存在(S,a,,+)中,且与确定性策略梯 当降落失败(目标消失或未降落至目标点)时,奖 度方法一致,对网络权重进行更新。总体来看,将 励值为-1,其他情况下,奖励值为与上一时刻欧 人类的建议用于修正智能体产生的动作,会使得 式距离和当前时刻欧式距离的差值。一旦记忆库 智能体在相同的训练回合下,获得更佳的策略。 存满,评价网络和动作网络便开始更新。 3无人机降落控制策略 强化学习模块 下层控制器模块 →智能体a,PD控制器“无人机 3.1传统PID方法控制无人机降落 传统的PID方法结构如图2所示,误差信号 奖励函数 (t)是设定值和测量值的差值,有比例、积分、微 分3个环节,分别由k、k、k如3个参数对输人的误 de①处理, 差信号按公式u)=kpe0+6e(rdr+k, 最终获得所需的输出控制量。 图3强化学习与PID结合方法 Fig.3 RL-based PID ke(r) 由于强化学习模块能时刻输出动作a对 PD控制模块的参数进行调整,因此本方法可在 () e(1) ke (T)dr 多个场景控制无人机进行降落。PD模块输出控 制命令4,包含x和y方向上的控制位置,无人机 D6巴 在z方向上的目标降落速度为0.3m/s保持不变, Ref代表无人机的目标位置,x是当前机器人的位 图2标准PD控制器 Fig.2 Standard structure of a PID controller 置,5是无人机在图像中相对目标点的位置,包含 3.2深度强化学习算法控制无人机降落 x、y和:三轴的信息。由于强化学习算法的加 本文提出的方法将强化学习算法应用在PID 入,本方法能够在复杂环境中更加有效地控制无 控制算法的上层,方法的结构如图3所示,有两个 人机降落。 控制模块,左边框为强化学习模块,右边框为PD 3.3应用矫正纠偏框架的深度强化学习算法控 控制模块,强化学习的输入状态由3个方向上的 制无人机降落 位置组成,输出a为PID控制模块的参数k、k、k。 本文的方法使用矫正纠偏框架优化训练过 强化学习模块时刻调节PD控制器的参数, 程,强化学习算法和矫正纠偏框架的结构如图4 具体的奖励函数由公式 所示,矫正纠偏框架使用人的建议代替干扰信 (1,成功 号,用于智能体探索环节,因为人类建议的加入, =了-1,失败 所以增强了最终获得策略的鲁棒性。 d-1-d,其他 当智能体选择动作α,然后根据人类当前指
弱。在矫正纠偏框架下的确定性策略梯度方法具 体结构如图 1 所示,使用人类建议指导智能体探 索,使用确定性策略梯度方法对网络进行更新, 最终迅速获得最优策略。 初始网络 智能体 终止网络 专家 仿真环境 参数更新 记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 1 使用矫正纠偏框架的确定性策略梯度方法 Fig. 1 DDPG with COACH (st ,at ,rt ,st+1) 在本文提出的方法中,使用人类的建议增加 或者减弱智能体生成的动作,最终动作作用于环 境中,并储存在 中,且与确定性策略梯 度方法一致,对网络权重进行更新。总体来看,将 人类的建议用于修正智能体产生的动作,会使得 智能体在相同的训练回合下,获得更佳的策略。 3 无人机降落控制策略 3.1 传统 PID 方法控制无人机降落 e(t) kP kI kD u(t) = kPe(t) + kI r t 0 e(τ)dτ + kD de(t) dt 传统的 PID 方法结构如图 2 所示,误差信号 是设定值和测量值的差值,有比例、积分、微 分 3 个环节,分别由 、 、 3 个参数对输入的误 差信号按公式 处理, 最终获得所需的输出控制量。 e (t) u (t) de (t) dt ∑ P D kD I kpe (t) kI ∫0 t e (t) dt 图 2 标准 PID 控制器 Fig. 2 Standard structure of a PID controller 3.2 深度强化学习算法控制无人机降落 kP kI kD 本文提出的方法将强化学习算法应用在 PID 控制算法的上层,方法的结构如图 3 所示,有两个 控制模块,左边框为强化学习模块,右边框为 PID 控制模块,强化学习的输入状态由 3 个方向上的 位置组成,输出 a 为 PID 控制模块的参数 、 、 。 强化学习模块时刻调节 PID 控制器的参数, 具体的奖励函数由公式 rt = 1, 成功 −1, 失败 dt−1 −dt , 其他 定义,其中 dt是 t 时刻无人机与目标点的欧式 距离。当无人机降落到指定的地点,奖励值为 1, 当降落失败(目标消失或未降落至目标点)时,奖 励值为−1,其他情况下,奖励值为与上一时刻欧 式距离和当前时刻欧式距离的差值。一旦记忆库 存满,评价网络和动作网络便开始更新。 智能体 无人机 奖励函数 ∑ Ref + − s x x r a u 强化学习模块 下层控制器模块 PID 控制器 图 3 强化学习与 PID 结合方法 Fig. 3 RL-based PID 由于强化学习模块能时刻输出动 作 a 对 PID 控制模块的参数进行调整,因此本方法可在 多个场景控制无人机进行降落。PID 模块输出控 制命令 u,包含 x 和 y 方向上的控制位置,无人机 在 z 方向上的目标降落速度为 0.3m/s 保持不变, Ref 代表无人机的目标位置,x 是当前机器人的位 置,s 是无人机在图像中相对目标点的位置,包含 x、y 和 z 三轴的信息。由于强化学习算法的加 入,本方法能够在复杂环境中更加有效地控制无 人机降落。 3.3 应用矫正纠偏框架的深度强化学习算法控 制无人机降落 本文的方法使用矫正纠偏框架优化训练过 程,强化学习算法和矫正纠偏框架的结构如图 4 所示,矫正纠偏框架使用人的建议代替干扰信 号,用于智能体探索环节,因为人类建议的加入, 所以增强了最终获得策略的鲁棒性。 a ′ 当智能体选择动作 t,然后根据人类当前指 第 17 卷 智 能 系 统 学 报 ·934·
·935· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第5期 导获得最终的输出a,其中d,的取值范围为[0,1.0] 给出的是仿真环境,图6(b)给出的是真实降落的 叠加人类的经验a,其取值为0.2或者-0.2,最终 场景。 输出的结果a,区间为[0,1.01,当a,超出1.0时,认为 输出结果为1.0,当a小于0时,认为输出结果为 0。当误差范围较大时,人类经验认为可以增大比 例参数,此时a=0.2,进而加速无人机到达目标 点,当误差范围较小时,人类经验认为需减小比 例参数,即取ah=-0.2,进而实现精准的降落,对 于积分和微分参数并没有使用人类的经验进行 (a)Gazebo仿真环境 调节。 专家经验 a,=a,'+a 智能体 仿其环境 记忆库 参数更新 (b)实际环境 图4使用矫正纠偏框架的强化学习方法 图6降落环境搭建 Fig.4 RL with COACH Fig.6 Training and testing environment 控制参数自学习调节方法具体流程如图5所 4.1 无人机降落至静止平台 示,由传感器获得无人机相对移动平台的坐标, 降落实验中,静止平台比无人机稍大,无人机 深度强化学习模块对状态进行处理,输出底层控 具体尺寸为0.4m×0.4m,平台具体的尺寸为0.6m× 制器的x、y方向上的控制参数,之后底层控制模 0.8m,用于无人机降落。在仿真实验中,搭建了 块根据当前误差和控制参数计算获得无人机位置 一个简单的环境,如图6(a)所示。为了得到无人 控制指令并执行。无人机在降落过程中不断检测 机与目标位置的相对信息,在无人机的底部加装 当前状态,若无人机位置合适,则旋翼停止运动, 有摄像头传感器,并通过ROS框架进行信息交 无人机降落至目标区域,否则无人机继续执行位 互。无人机在这个仿真环境中训练和测试,对于 置控制的步骤,直至无人机降落至目标区域。 强化学习PID方法和应用矫正纠偏COACH方法 开始 的强化学习PID方法,本实验对智能体进行了 200回合的训练。当无人机降落至平台并保持静 获取无人机状态一 止后,本实验认为无人机成功完成降落任务,经 无人机相对移动平台 是否降落 的坐标及自身高度 过共600次仿真实验测试表明,3种方法都能够 有效地(>99%)实现无人机降落任务。 3种方法控制无人机降落的轨迹如图7所示。 深度强化学习模块 无人机 PID控制器 无人机降落 +PD轨迹 ;控制参数 控制参数数值 ◆RL-PID轨迹 自学习调 ★-RLC-PID轨迹 节方法 底层PID控制模块 1300 无人机位置控制指令 250 结束 200 无人机位置控制 图5无人机自主降落流程 100 Fig.5 Autonomous landing process for an UAV 50 4实验及结果分析 10 -30-20-1001020 0 -10 本文提出的方法,在Gazebo仿真环境中训练 X/cm 30 -20 并在仿真和真实环境中进行测试。此外,PD模 图73种方法的降落轨迹(仿真) 块和强化学习模块之间的通信使用机器人操作系 Fig.7 Trajectories of three approaches for landing in a 统(robot operation system)B,如图6所示,图6(a) simulated situation
at a ′ t [0,1.0] ah at [0,1.0] at at ah = 0.2 ah = −0.2 导获得最终的输出 ,其中 的取值范围为 叠加人类的经验 ,其取值为 0.2 或者−0.2,最终 输出的结果 区间为 ,当 超出 1.0 时,认为 输出结果为 1.0,当 小于 0 时,认为输出结果为 0。当误差范围较大时,人类经验认为可以增大比 例参数,此时 ,进而加速无人机到达目标 点,当误差范围较小时,人类经验认为需减小比 例参数,即取 ,进而实现精准的降落,对 于积分和微分参数并没有使用人类的经验进行 调节。 智能体 仿真环境 专家经验 参数更新 记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 4 使用矫正纠偏框架的强化学习方法 Fig. 4 RL with COACH 控制参数自学习调节方法具体流程如图 5 所 示,由传感器获得无人机相对移动平台的坐标, 深度强化学习模块对状态进行处理,输出底层控 制器的 x、y 方向上的控制参数,之后底层控制模 块根据当前误差和控制参数计算获得无人机位置 控制指令并执行。无人机在降落过程中不断检测 当前状态,若无人机位置合适,则旋翼停止运动, 无人机降落至目标区域,否则无人机继续执行位 置控制的步骤,直至无人机降落至目标区域。 获取无人机状态 开始 深度强化学习模块 底层 PID 控制模块 无人机位置控制 是否降落 无人机降落 结束 无人机 控制参数 自学习调 节方法 无人机相对移动平台 的坐标及自身高度 PID 控制器 控制参数数值 无人机位置控制指令 Y N 图 5 无人机自主降落流程 Fig. 5 Autonomous landing process for an UAV 4 实验及结果分析 本文提出的方法,在 Gazebo 仿真环境中训练 并在仿真和真实环境中进行测试。此外,PID 模 块和强化学习模块之间的通信使用机器人操作系 统 (robot operation system)[32] ,如图 6 所示,图 6(a) 给出的是仿真环境,图 6(b) 给出的是真实降落的 场景。 (a) Gazebo 仿真环境 (b) 实际环境 图 6 降落环境搭建 Fig. 6 Training and testing environment 4.1 无人机降落至静止平台 降落实验中,静止平台比无人机稍大,无人机 具体尺寸为 0.4 m×0.4 m,平台具体的尺寸为 0.6 m× 0.8 m,用于无人机降落。在仿真实验中,搭建了 一个简单的环境,如图 6(a)所示。为了得到无人 机与目标位置的相对信息,在无人机的底部加装 有摄像头传感器,并通过 ROS 框架进行信息交 互。无人机在这个仿真环境中训练和测试,对于 强化学习 PID 方法和应用矫正纠偏 COACH 方法 的强化学习 PID 方法,本实验对智能体进行了 200 回合的训练。当无人机降落至平台并保持静 止后,本实验认为无人机成功完成降落任务,经 过共 600 次仿真实验测试表明,3 种方法都能够 有效地 (>99%) 实现无人机降落任务。 3 种方法控制无人机降落的轨迹如图 7 所示。 PID 轨迹 RL-PID 轨迹 RLC-PID 轨迹 300 250 200 150 100 50 30 30 20 20 10 10 0 0 −10 −10 −20 −20 −30 X/cm Y/cm Z/cm 图 7 3 种方法的降落轨迹(仿真) Fig. 7 Trajectories of three approaches for landing in a simulated situation ·935· 张鹏鹏,等:旋翼无人机在移动平台降落的控制参数自学习调节方法 第 5 期