当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】旋翼无人机在移动平台降落的控制参数自学习调节方法

文件格式：PDF，文件大小：5.23MB，售价：3.9元

文档详细内容（约10页）

第17卷第5期智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202107040 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004html 旋翼无人机在移动平台降落的控制参数自学习调节方法张鹏鹏，魏长赞，张恺睿，欧阳勇平 (河海大学机电工程学院，江苏常州213022) 摘要：无人机设备能够适应复杂地形，但由于电池容量等原因，无人机无法长时间执行任务。无人机与其他无人系统（无人车、无人船等）协同能够有效提升无人机的工作时间，完成既定任务，当无人机完成任务后，将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题，文中提出了基于矫正纠偏COACH(corrective advice communicated humans)方法的深度强化学习比例积分微分(proportional-integral-de rivative,PID)方法，为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学习模型进行训练，然后在仿真环境和真实环境中，使用训练后的模型输出控制参数，最后利用输出参数获得无人机位置控制量。仿真结果和真实无人机实验表明，基于矫正纠偏COACH方法的深度强化学习PID方法优于传统控制方法，且能稳定完成在移动平台上的降落任务。关键词：自主降落；强化学习；路径规划；COACH框架；确定性策略梯度；空地协同：无人机；最优控制中图分类号：TP273+.2文献标志码：A 文章编号：1673-4785(2022)05-0931-10 中文引用格式：张鹏鹏，魏长簧，张恺容，等.旋翼无人机在移动平台降落的控制参数自学习调节方法.智能系统学报，2022， 17(5):931-940. 英文引用格式：ZHANG Pengpeng,WEI Changyun,,ZHANG Kairui,,etal.Self-learning approach to control parameter adjust- ment for quadcopter landing on a moving platformJ.CAAI transactions on intelligent systems,2022,17(5):931-940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng,WEI Changyun,ZHANG Kairui,OUYANG Yongping (College of Mechanical and Electrical Engineering,Hohai University,Changzhou 213022,China) Abstract:Unmanned Aerial Vehicle(UAV)is a type of robot that performs well in mapping without being affected by the terrain.However,a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs)is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task.When deploying a team of UAVs and UGVs,it is both important and challenging to land a UAV on a mobile platform quickly and stably.To circumvent the UAV landing issue,this study proposes a reinforcement learning PID method based on the correction COACH method,thereby providing an optimal path for the UAV to land on a mobile platform.First,the reinforcement learning agent is trained using the rectification framework in a simulated environment.Next,the trained agent is used for output control parameters in the simulated and true environments,and subsequently,the output parameters are utilized to obtain the control variables of the UAV's position.The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control meth- od and can accomplish the task of a stable landing on a mobile platform. Keywords:autonomous landing;reinforcement learning;path planning;COACH frame;deterministic policy gradient; air-ground cooperation;UAV;optimal control 无人机可以应用于不同的场景，例如日常的挖掘过程)等。单一的无人机不受地形的限制，但便民生活应用山，农业生产过程，矿场的侦探和是由于携带电池能量的限制，执行任务时间短，并收稿日期：2021-07-20.网络出版日期：2022-05-20 且难以承担较重的负载。无人车（船）移动范围受基金项目：国家自然科学基金项目(61703138)：中央高校基本科研业务费项目(B200202224). 限于地形，难以到达特定的位置。无人机-无人车通信作者：魏长赞.E-mail:c.wei@hhu.edu.cn. (船)的组合系统可以结合两者的优点，完成复杂

DOI: 10.11992/tis.202107040 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220519.1429.004.html 旋翼无人机在移动平台降落的控制参数自学习调节方法张鹏鹏，魏长赟，张恺睿，欧阳勇平（河海大学机电工程学院，江苏常州 213022）摘要：无人机设备能够适应复杂地形，但由于电池容量等原因，无人机无法长时间执行任务。无人机与其他无人系统（无人车、无人船等）协同能够有效提升无人机的工作时间，完成既定任务，当无人机完成任务后，将无人机迅速稳定地降落至移动平台上是一项必要且具有挑战性的工作。针对降落问题，文中提出了基于矫正纠偏 COACH(corrective advice communicated humans) 方法的深度强化学习比例积分微分 (proportional-integral-derivative, PID) 方法，为无人机降落至移动平台提供了最优路径。首先在仿真环境中使用矫正纠偏框架对强化学习模型进行训练，然后在仿真环境和真实环境中，使用训练后的模型输出控制参数，最后利用输出参数获得无人机位置控制量。仿真结果和真实无人机实验表明，基于矫正纠偏 COACH 方法的深度强化学习 PID 方法优于传统控制方法，且能稳定完成在移动平台上的降落任务。关键词：自主降落；强化学习；路径规划；COACH 框架；确定性策略梯度；空地协同；无人机；最优控制中图分类号：TP273+.2 文献标志码：A 文章编号：1673−4785(2022)05−0931−10 中文引用格式：张鹏鹏, 魏长赟, 张恺睿, 等. 旋翼无人机在移动平台降落的控制参数自学习调节方法 [J]. 智能系统学报, 2022, 17(5): 931–940. 英文引用格式：ZHANG Pengpeng, WEI Changyun, ZHANG Kairui, et al. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform[J]. CAAI transactions on intelligent systems, 2022, 17(5): 931–940. Self-learning approach to control parameter adjustment for quadcopter landing on a moving platform ZHANG Pengpeng，WEI Changyun，ZHANG Kairui，OUYANG Yongping (College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China) Abstract: Unmanned Aerial Vehicle (UAV) is a type of robot that performs well in mapping without being affected by the terrain. However, a UAV cannot perform its tasks for long due to its small battery capacity and several other reasons. The collaboration between UAVs and other unmanned ground vehicles (UGVs) is considered a crucial solution to this concern as it can save up the time taken by UAVs effectively when completing a scheduled task. When deploying a team of UAVs and UGVs, it is both important and challenging to land a UAV on a mobile platform quickly and stably. To circumvent the UAV landing issue, this study proposes a reinforcement learning PID method based on the correction COACH method, thereby providing an optimal path for the UAV to land on a mobile platform. First, the reinforcement learning agent is trained using the rectification framework in a simulated environment. Next, the trained agent is used for output control parameters in the simulated and true environments, and subsequently, the output parameters are utilized to obtain the control variables of the UAV’s position. The simulation and real UAV experiment results show that the deep reinforcement learning PID method based on the correction COACH method is superior to the traditional control method and can accomplish the task of a stable landing on a mobile platform. Keywords: autonomous landing; reinforcement learning; path planning; COACH frame; deterministic policy gradient; air-ground cooperation; UAV; optimal control 无人机可以应用于不同的场景，例如日常的便民生活应用[1] ，农业生产过程[2] ，矿场的侦探和挖掘过程[3] 等。单一的无人机不受地形的限制，但是由于携带电池能量的限制，执行任务时间短，并且难以承担较重的负载。无人车（船）移动范围受限于地形，难以到达特定的位置。无人机–无人车（船）的组合系统可以结合两者的优点，完成复杂收稿日期：2021−07−20. 网络出版日期：2022−05−20. 基金项目：国家自然科学基金项目（61703138）；中央高校基本科研业务费项目（B200202224）. 通信作者：魏长赟. E-mail：c.wei@hhu.edu.cn. 第 17 卷第 5 期智能系统学报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022

第17卷智能系统学报 ·932· 的任务。在执行任务结束后，无人机如何移动务，不过在文中提到的无人机降落方法依然有进到指定位置是协同系统实际应用的关键问题，步的空间，难以在复杂的环境中实行降落任务。因此本文聚焦于无人机的自主降落问题。 1.2 传统控制方法应用在文献[7-8]中，作者将多种传统的控制方法文献[18]提出一种比例微分(proportional-.in- 应用于无人机降落任务，这些方法具有稳定和低 tegral,PD)控制器，该控制方法针对无人机自主降算力需求的优点，但是较难实现最优的控制效落问题，实现了无人机降落到固定平台的任务。在果。文献[912]将强化学习理论应用于无人机降文献[8]中，作者将模型预测控制方法应用于无落问题，并取得良好的效果。在文献[13-16]中，人机降落问题，该方法结构轻量，响应迅速，能够使用强化学习原理调整控制算法的参数，面对不在低算力的平台中运行。同时，作者在文中使用同的控制情形，能够实现较优的控制效果，但是仿真环境进行验证，且效果良好，但是并没有在并没有进行真实无人机实验。真实的场景中进行降落效果的测试。PD控制方针对以上方法的不足，本文结合深度强化学法在控制任务中广泛使用，但是固定参数的PD控习理论和比例积分微分(proportional-integral-deriv- 制方法对非线性问题适应性差，在文献[刀中，作 ative,PID)控制方法，解决无人机降落至移动平台者提出一种基于模糊逻辑的PID控制方法，结果的问题，本方法既有PID方法的稳定性，又能够显示，该方法优于传统的控制方法，不足之处在发挥强化学习寻找最优控制策略的优点，迅速完于该方法未考虑无人机降落到移动的平台的情形。成无人机降落到无人移动平台的任务。 1.3强化学习算法的应用 1 无人机降落问题描述许多学者应用强化学习算法寻找解决问题的最优策略。强化学习算法能够实现在干扰和复杂在多机器人无人系统中，无人机在完成特定任情况下的最优控制，这是传统控制方法难以比拟务后需要降落至特定平台，本文基于上述任务，针的。理论上，基于马尔可夫过程的强化学习算法对无人机降落问题，提出一种结合深度强化学习有潜力找到最优的控制策略，当算法训练充分后算法和比例积分微分(proportional-integral--derivat-- 就可以实现对于无人机降落问题的最优控制。在 ive,PID)原理的控制方法。文中首先介绍多机器文献[9,11]中，作者将确定性策略梯度方法应人协同系统以及实现无人机降落任务的必要性，用于无人机降落问题中，该方法在虚拟环境中进并详细介绍传统控制方法和机器学习方法在无人行训练，并且可以在仿真和真实环境中，实现对无机降落问题上的应用现状。人机降落过程的控制。确定性策略梯度方法能够 1.1关键的无人机降落问题根据不同的状态输入输出不同的动作，进而完成在如今的机器人学研究中，单一的机器人难当前的任务。文献[11]中，输人状态包含x、y两以完成复杂任务。在所有的无人设备中，无人机个方向上的位置信息，算法根据不同的位置信息控有着多项优点，其他设备难以替代无人机执行任务。首先无人机运动不受地形限制，可以轻易地制无人机降落，以连续的状态作为输入并输出连到达特定的位置，并且无人机在空中悬停可以为续动作，有潜力实现精确控制，由于文章中的方法地面无人设备和工作人员提供高处视角的图像信未使用：方向的位置信息，当面对不同高度的输息，为发现和定位目标物品提供可能。同时，无入时可能有相同的输出，影响控制无人机降落的人机由于自身结构的原因也有特定的缺点，包括效果。文献[9]中，作者同样使用确定性策略梯度由于电池能量不足造成的执行任务时间短和无法方法，该方法的输入包括三轴的位置信息，可根携带较重负载的问题等。对单一的无人机设备添据无人机高度改变输出动作，从而实现精准控制，加无人车（船）组成协同系统可以有效地解决无同上面的方法一样，此方法以连续的状态作为输人机的上述缺点。实际应用中，无人机完成任入并输出连续的动作，保证无人机的精确控制。务，须自动返回，以备下次任务的执行。因此，在在文献[16,20]中，一种结合PD理论和强化这些协同系统中，如何将无人机降落到特定的平学习原理的方法被应用于移动机器人的路径规划台上是一项必须解决的任务。在文献[17刀中，作问题，在仿真实验中，对比传统PD方法，文中提者提出一种无人机和无人车的协同系统，该系统出的Q学习-PID方法在路径规划实验的结果中作业于建筑行业，收集建筑区域内的各种关键数优势明显，面对不同环境和干扰时，表现出鲁棒据。该方法结合了两种机器人的优点，弥补单一性强的优点。文献[21-22]将参数自学习调节方法机器人的不足，高效地实现建筑行业数据收集任应用于无人机降落至静止平台的任务，由于控制

的任务[4-5]。在执行任务结束后，无人机如何移动到指定位置是协同系统实际应用的关键问题[6] ，因此本文聚焦于无人机的自主降落问题。在文献 [7-8] 中，作者将多种传统的控制方法应用于无人机降落任务，这些方法具有稳定和低算力需求的优点，但是较难实现最优的控制效果。文献 [9-12] 将强化学习理论应用于无人机降落问题，并取得良好的效果。在文献 [13-16] 中，使用强化学习原理调整控制算法的参数，面对不同的控制情形，能够实现较优的控制效果，但是并没有进行真实无人机实验。针对以上方法的不足，本文结合深度强化学习理论和比例积分微分 (proportional-integral-derivative, PID) 控制方法，解决无人机降落至移动平台的问题，本方法既有 PID 方法的稳定性，又能够发挥强化学习寻找最优控制策略的优点，迅速完成无人机降落到无人移动平台的任务。 1 无人机降落问题描述在多机器人无人系统中，无人机在完成特定任务后需要降落至特定平台，本文基于上述任务，针对无人机降落问题，提出一种结合深度强化学习算法和比例积分微分 (proportional-integral-derivative, PID) 原理的控制方法。文中首先介绍多机器人协同系统以及实现无人机降落任务的必要性，并详细介绍传统控制方法和机器学习方法在无人机降落问题上的应用现状。 1.1 关键的无人机降落问题在如今的机器人学研究中，单一的机器人难以完成复杂任务。在所有的无人设备中，无人机有着多项优点，其他设备难以替代无人机执行任务。首先无人机运动不受地形限制，可以轻易地到达特定的位置，并且无人机在空中悬停可以为地面无人设备和工作人员提供高处视角的图像信息，为发现和定位目标物品提供可能。同时，无人机由于自身结构的原因也有特定的缺点，包括由于电池能量不足造成的执行任务时间短和无法携带较重负载的问题等。对单一的无人机设备添加无人车（船）组成协同系统可以有效地解决无人机的上述缺点。实际应用中，无人机完成任务，须自动返回，以备下次任务的执行。因此，在这些协同系统中，如何将无人机降落到特定的平台上是一项必须解决的任务。在文献 [17] 中，作者提出一种无人机和无人车的协同系统，该系统作业于建筑行业，收集建筑区域内的各种关键数据。该方法结合了两种机器人的优点，弥补单一机器人的不足，高效地实现建筑行业数据收集任务，不过在文中提到的无人机降落方法依然有进步的空间，难以在复杂的环境中实行降落任务。 1.2 传统控制方法应用文献 [18] 提出一种比例微分 (proportional-integral, PD) 控制器，该控制方法针对无人机自主降落问题，实现了无人机降落到固定平台的任务。在文献 [8] 中，作者将模型预测控制方法应用于无人机降落问题，该方法结构轻量，响应迅速，能够在低算力的平台中运行。同时，作者在文中使用仿真环境进行验证，且效果良好，但是并没有在真实的场景中进行降落效果的测试。PID 控制方法在控制任务中广泛使用，但是固定参数的 PID 控制方法对非线性问题适应性差，在文献 [7] 中，作者提出一种基于模糊逻辑的 PID 控制方法，结果显示，该方法优于传统的控制方法，不足之处在于该方法未考虑无人机降落到移动的平台的情形。 1.3 强化学习算法的应用许多学者应用强化学习算法寻找解决问题的最优策略。强化学习算法能够实现在干扰和复杂情况下的最优控制，这是传统控制方法难以比拟的。理论上，基于马尔可夫过程的强化学习算法有潜力找到最优的控制策略，当算法训练充分后就可以实现对于无人机降落问题的最优控制。在文献 [9,11] 中，作者将确定性策略梯度方法[19] 应用于无人机降落问题中，该方法在虚拟环境中进行训练，并且可以在仿真和真实环境中，实现对无人机降落过程的控制。确定性策略梯度方法能够根据不同的状态输入输出不同的动作，进而完成当前的任务。文献 [11] 中，输入状态包含 x、y 两个方向上的位置信息，算法根据不同的位置信息控制无人机降落，以连续的状态作为输入并输出连续动作，有潜力实现精确控制，由于文章中的方法未使用 z 方向的位置信息，当面对不同高度的输入时可能有相同的输出，影响控制无人机降落的效果。文献 [9] 中，作者同样使用确定性策略梯度方法，该方法的输入包括三轴的位置信息，可根据无人机高度改变输出动作，从而实现精准控制，同上面的方法一样，此方法以连续的状态作为输入并输出连续的动作，保证无人机的精确控制。在文献 [16,20] 中，一种结合 PID 理论和强化学习原理的方法被应用于移动机器人的路径规划问题，在仿真实验中，对比传统 PID 方法，文中提出的 Q 学习–PID 方法在路径规划实验的结果中优势明显，面对不同环境和干扰时，表现出鲁棒性强的优点。文献 [21-22] 将参数自学习调节方法应用于无人机降落至静止平台的任务，由于控制第 17 卷智能系统学报 ·932·

·933· 张鹏鹏，等：旋翼无人机在移动平台降落的控制参数自学习调节方法第5期器参数随当前状态自适应调节，因此取得的无人为其后的算法带来启发，这些算法包括深度Q学机路径控制效果均优于传统PD方法。目前类似习2网、双Q学习0、决斗Q学习算法，但是Q学的方法还没有应用于无人机降落至移动平台任务，习算法由于其离散的输入和输出，只能解决复杂在无人机降落问题中，使用结合PD理论和强化度低的低维度问题。学习原理的方法，具有创新性和可行性。在文献 2.2深度强化学习 [23]中，作者提出一种矫正纠偏(corrective advice 在实际任务执行时，状态和动作的表示是连 communicated humans,COACH)框架，使用人类建续的，由于维度爆炸的问题，在连续的动作状态议，用于帮助强化学习算法寻找最优的控制策空间中使用离散的状态和动作难以实现。因此，略，效果显著，能优化获得的最终策略。本文使用神经网络非线性拟合的特点，对动作价本文提出一种结合PD原理和强化学习理论值函数进行估计，为了更好的表示动作价值函的方法，完成无人机降落到移动平台的任务，应数，本方法定义损失函数L()=E0y,-Qs,a,le)] 用矫正纠偏框架，优化最终训练得到的策略。上来优化网络参数P,其中y=(s,a)+yQ(s41,a+ile)。层的控制策略选择确定性策略梯度方法，该方法如果策略是确定的，则可以将状态映射到动作有着连续的输入和输出，在连续空间上，有潜力上，即：S→A,之后本文定义动作网络俨，其遵循实现优秀的控制效果。下层应用PD方法，用于 J(π)进行更新，使得J(π)变大，即根据7J(π≈ 保证无人机降落的稳定性。 EVeQ(s,dee儿==g]=EV.O(s,alee)儿==a7e4(se儿=l 进行更新。 2强化学习算法描述确定性策略梯度方法是一种解决在连续状 2.1强化学习态空间和动作空间的无模型算法。此方法使用动作-评论家的结构，有两个主要的人工神经网络，人工智能领域中，强化学习通常根据特定的一个用于拟合动作价值函数，称为价值网络，另状态寻找最优动作，并将动作执行进而完成相应一个网络用于产生动作，成为动作网络俨。在这的任务。基于强化学习原理的方法已经在多个领域取得亮眼表现，包括围棋、电脑游戏2s2等。两个网络进行更新时，网络的迭代会不稳定和发散，因此，使用两个目标网络（目标价值网络和在理论上，基于强化学习的方法在经过一定回合目标动作网络俨)对更新的两个主网络进行软更的训练后，所获得的智能体可以在不同场景实现新，提高其稳定性。两个目标网络分别与价值网特定的任务。一个标准的强化学习问题可以由络和动作网络有着相同的结构。在训练时，每个 S、A、P、r、y定义。其中S和A分别代表输入状输出动作有随机的干扰，用于增加算法探索的空态和输出动作的集合，s和a表示某一时间的状间，动作作用于环境后，智能体会将观察数组态和动作，P表示状态转移概率，r是奖励信息，” (sep,aep,'ep,Sep1)储存到记忆库中，记忆库达到是折扣因子，同时定义总体奖励R= 定数最后，按公式L=(付)∑-Qa更新其中∫是最后的回合数。价值网络参数使得L减小，其中B是样本取样个智能体在环境中进行训练，不断优化当前的数，y=(s,a)+yQ(s41,μ(s+ilG)0),之后按照7J≈ 策略，对于一个特定的策略π，本文以公式V(s)= E[Rls=,π定义价值函数V。同样由公式Q(s,a,)= B∑.Qxd儿P.对动作网路D进 E[Rs=s,a=a,π定义动作价值函数。同时本文使行更新，使得J增大，接着，本方法对两个目标网用J(π)定义策略π的评价标准，具体为J(π)=E[R,]。络进行软更新，具体公式为：0=tP+(1-r)ge和最后使用π来代表最优的控制策略，即， =t伊+(1-T)。最后经过不断地训练，会得到 π"=arg max O'(s,a) 两个主网络，用于实际问题的解决。智能体不断地在环境中训练，并使用贝尔曼方程： 2.3使用矫正纠偏框架的强化学习方法 a）=.a4)ty》P之en 使用深度强化学习算法需要大量的时间进行训练，并且训练的时间随着动作空间维度的增加不断更新状态价值函数，因此智能体在强化学而显著增加。为了减少训练的时间并提升训练的习算法的规则下不断训练并获得最优的控制策略。效果，一种矫正纠偏框架用于提升训练的效率，在强化学习的发展过程中，最具有代表性的在智能体输出动作时，使用人类的建议（一个二算法2叨是Q学习算法2，算法本身结构简单，并值化的量)对智能体产生的动作进行增强或者减

器参数随当前状态自适应调节，因此取得的无人机路径控制效果均优于传统 PID 方法。目前类似的方法还没有应用于无人机降落至移动平台任务，在无人机降落问题中，使用结合 PID 理论和强化学习原理的方法，具有创新性和可行性。在文献 [23] 中，作者提出一种矫正纠偏（corrective advice communicated humans, COACH）框架，使用人类建议，用于帮助强化学习算法寻找最优的控制策略，效果显著，能优化获得的最终策略。本文提出一种结合 PID 原理和强化学习理论的方法，完成无人机降落到移动平台的任务，应用矫正纠偏框架，优化最终训练得到的策略。上层的控制策略选择确定性策略梯度方法，该方法有着连续的输入和输出，在连续空间上，有潜力实现优秀的控制效果。下层应用 PID 方法，用于保证无人机降落的稳定性。 2 强化学习算法描述 2.1 强化学习 Rt = ∑ f i=t γ i−t r(si ,ai) 人工智能领域中，强化学习通常根据特定的状态寻找最优动作，并将动作执行进而完成相应的任务。基于强化学习原理的方法已经在多个领域取得亮眼表现，包括围棋[24] 、电脑游戏[25-26] 等。在理论上，基于强化学习的方法在经过一定回合的训练后，所获得的智能体可以在不同场景实现特定的任务。一个标准的强化学习问题可以由 S、A、P、r、γ 定义。其中 S 和 A 分别代表输入状态和输出动作的集合，s 和 a 表示某一时间的状态和动作，P 表示状态转移概率，r 是奖励信息，γ 是折扣因子，同时定义总体奖励，其中 f 是最后的回合数。 V π (st) = E[Rt |s = st , π] V π Q π (st ,at) = E[Rt |s = st ,a = at , π] J(π) J(π) = E[Rt |π] π ∗ 智能体在环境中进行训练，不断优化当前的策略，对于一个特定的策略 π，本文以公式定义价值函数。同样由公式定义动作价值函数。同时本文使用定义策略 π 的评价标准，具体为。最后使用来代表最优的控制策略，即， π ∗ = argmaxQ ∗ (st ,at) 智能体不断地在环境中训练，并使用贝尔曼方程： Q(st ,at) = r(st ,at)+γ ∑ st+1∈S P at st ,st+1 ∑ at+1∈A Q(st+1,at+1) 不断更新状态价值函数，因此智能体在强化学习算法的规则下不断训练并获得最优的控制策略。在强化学习的发展过程中，最具有代表性的算法[27] 是 Q 学习算法[28] ，算法本身结构简单，并为其后的算法带来启发，这些算法包括深度 Q 学习 [29] 、双 Q 学习[30] 、决斗 Q 学习算法[31] ，但是 Q 学习算法由于其离散的输入和输出，只能解决复杂度低的低维度问题。 2.2 深度强化学习 L(θ Q ) = E[(yt − Q(st ,at |θ Q ))2 ] θ Q yt = r(st ,at)+γQ(st+1,at+1|θ Q ) µ : S → A θ µ J(π) J(π) ∇θ µ J(π) ≈ E[∇θ µQ(s,a|θ Q )|s=si,a=µ(si|θ µ )]= E[∇aQ(s,a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|s=si ] 在实际任务执行时，状态和动作的表示是连续的，由于维度爆炸的问题，在连续的动作状态空间中使用离散的状态和动作难以实现。因此，本文使用神经网络非线性拟合的特点，对动作价值函数进行估计，为了更好的表示动作价值函数，本方法定义损失函数来优化网络参数，其中。如果策略是确定的，则可以将状态映射到动作上，即，之后本文定义动作网络，其遵循进行更新，使得变大，即根据进行更新。 θ Q θ µ θ Q ′ θ µ ′ (sstep,astep,rstep,sstep+1) L = ( 1 B ) · ∑ i (yi − Q(si ,ai |θ Q ))2 θ Q B yt = r(st ,at)+γQ(st+1, µ(st+1|θ µ ′ )|θ Q′ ) ∇θµ J ≈ 1 B ∑ i ∇aQ(s, a|θ Q )|s=si,a=µ(si)∇θ µ µ(s|θ µ )|si θ µ J θ Q ′ = τθQ+(1−τ)θ Q ′ θ µ ′ = τθµ +(1−τ)θ µ ′ 确定性策略梯度方法[19] 是一种解决在连续状态空间和动作空间的无模型算法。此方法使用动作–评论家的结构，有两个主要的人工神经网络，一个用于拟合动作价值函数，称为价值网络，另一个网络用于产生动作，成为动作网络。在这两个网络进行更新时，网络的迭代会不稳定和发散，因此，使用两个目标网络（目标价值网络和目标动作网络）对更新的两个主网络进行软更新，提高其稳定性。两个目标网络分别与价值网络和动作网络有着相同的结构。在训练时，每个输出动作有随机的干扰，用于增加算法探索的空间，动作作用于环境后，智能体会将观察数组储存到记忆库中，记忆库达到一定数量后，按公式更新价值网络参数使得 L 减小，其中是样本取样个数，，之后按照对动作网络进行更新，使得增大，接着，本方法对两个目标网络进行软更新，具体公式为：和。最后经过不断地训练，会得到两个主网络，用于实际问题的解决。 2.3 使用矫正纠偏框架的强化学习方法使用深度强化学习算法需要大量的时间进行训练，并且训练的时间随着动作空间维度的增加而显著增加。为了减少训练的时间并提升训练的效果，一种矫正纠偏框架用于提升训练的效率，在智能体输出动作时，使用人类的建议（一个二值化的量）对智能体产生的动作进行增强或者减 ·933· 张鹏鹏，等：旋翼无人机在移动平台降落的控制参数自学习调节方法第 5 期

第17卷智能系统学报 ·934· 弱。在矫正纠偏框架下的确定性策略梯度方法具索，使用确定性策略梯度方法对网络进行更新，体结构如图1所示，使用人类建议指导智能体探最终迅速获得最优策略。专家初始网绍智能体 a a,=a,'+a 仿其环境记忆库 +终止网路参数更新图1使用矫正纠偏框架的确定性策略梯度方法 Fig.1 DDPG with COACH 在本文提出的方法中，使用人类的建议增加定义，其中d,是1时刻无人机与目标点的欧式或者减弱智能体生成的动作，最终动作作用于环距离。当无人机降落到指定的地点，奖励值为1，境中，并储存在(S,a,,+)中，且与确定性策略梯当降落失败（目标消失或未降落至目标点）时，奖度方法一致，对网络权重进行更新。总体来看，将励值为-1，其他情况下，奖励值为与上一时刻欧人类的建议用于修正智能体产生的动作，会使得式距离和当前时刻欧式距离的差值。一旦记忆库智能体在相同的训练回合下，获得更佳的策略。存满，评价网络和动作网络便开始更新。 3无人机降落控制策略强化学习模块下层控制器模块 →智能体a,PD控制器“无人机 3.1传统PID方法控制无人机降落传统的PID方法结构如图2所示，误差信号奖励函数 (t)是设定值和测量值的差值，有比例、积分、微分3个环节，分别由k、k、k如3个参数对输人的误 de①处理，差信号按公式u)=kpe0+6e(rdr+k, 最终获得所需的输出控制量。图3强化学习与PID结合方法 Fig.3 RL-based PID ke(r) 由于强化学习模块能时刻输出动作a对 PD控制模块的参数进行调整，因此本方法可在 () e(1) ke (T)dr 多个场景控制无人机进行降落。PD模块输出控制命令4，包含x和y方向上的控制位置，无人机 D6巴在z方向上的目标降落速度为0.3m/s保持不变， Ref代表无人机的目标位置，x是当前机器人的位图2标准PD控制器 Fig.2 Standard structure of a PID controller 置，5是无人机在图像中相对目标点的位置，包含 3.2深度强化学习算法控制无人机降落 x、y和：三轴的信息。由于强化学习算法的加本文提出的方法将强化学习算法应用在PID 入，本方法能够在复杂环境中更加有效地控制无控制算法的上层，方法的结构如图3所示，有两个人机降落。控制模块，左边框为强化学习模块，右边框为PD 3.3应用矫正纠偏框架的深度强化学习算法控控制模块，强化学习的输入状态由3个方向上的制无人机降落位置组成，输出a为PID控制模块的参数k、k、k。本文的方法使用矫正纠偏框架优化训练过强化学习模块时刻调节PD控制器的参数，程，强化学习算法和矫正纠偏框架的结构如图4 具体的奖励函数由公式所示，矫正纠偏框架使用人的建议代替干扰信 (1,成功号，用于智能体探索环节，因为人类建议的加入， =了-1，失败所以增强了最终获得策略的鲁棒性。 d-1-d,其他当智能体选择动作α，然后根据人类当前指

弱。在矫正纠偏框架下的确定性策略梯度方法具体结构如图 1 所示，使用人类建议指导智能体探索，使用确定性策略梯度方法对网络进行更新，最终迅速获得最优策略。初始网络智能体终止网络专家仿真环境参数更新记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 1 使用矫正纠偏框架的确定性策略梯度方法 Fig. 1 DDPG with COACH (st ,at ,rt ,st+1) 在本文提出的方法中，使用人类的建议增加或者减弱智能体生成的动作，最终动作作用于环境中，并储存在中，且与确定性策略梯度方法一致，对网络权重进行更新。总体来看，将人类的建议用于修正智能体产生的动作，会使得智能体在相同的训练回合下，获得更佳的策略。 3 无人机降落控制策略 3.1 传统 PID 方法控制无人机降落 e(t) kP kI kD u(t) = kPe(t) + kI r t 0 e(τ)dτ + kD de(t) dt 传统的 PID 方法结构如图 2 所示，误差信号是设定值和测量值的差值，有比例、积分、微分 3 个环节，分别由、、 3 个参数对输入的误差信号按公式处理，最终获得所需的输出控制量。 e (t) u (t) de (t) dt ∑ P D kD I kpe (t) kI ∫0 t e (t) dt 图 2 标准 PID 控制器 Fig. 2 Standard structure of a PID controller 3.2 深度强化学习算法控制无人机降落 kP kI kD 本文提出的方法将强化学习算法应用在 PID 控制算法的上层，方法的结构如图 3 所示，有两个控制模块，左边框为强化学习模块，右边框为 PID 控制模块，强化学习的输入状态由 3 个方向上的位置组成，输出 a 为 PID 控制模块的参数、、。强化学习模块时刻调节 PID 控制器的参数，具体的奖励函数由公式 rt =    1, 成功 −1, 失败 dt−1 −dt , 其他定义，其中 dt是 t 时刻无人机与目标点的欧式距离。当无人机降落到指定的地点，奖励值为 1，当降落失败（目标消失或未降落至目标点）时，奖励值为−1，其他情况下，奖励值为与上一时刻欧式距离和当前时刻欧式距离的差值。一旦记忆库存满，评价网络和动作网络便开始更新。智能体无人机奖励函数 ∑ Ref + − s x x r a u 强化学习模块下层控制器模块 PID 控制器图 3 强化学习与 PID 结合方法 Fig. 3 RL-based PID 由于强化学习模块能时刻输出动作 a 对 PID 控制模块的参数进行调整，因此本方法可在多个场景控制无人机进行降落。PID 模块输出控制命令 u，包含 x 和 y 方向上的控制位置，无人机在 z 方向上的目标降落速度为 0.3m/s 保持不变， Ref 代表无人机的目标位置，x 是当前机器人的位置，s 是无人机在图像中相对目标点的位置，包含 x、y 和 z 三轴的信息。由于强化学习算法的加入，本方法能够在复杂环境中更加有效地控制无人机降落。 3.3 应用矫正纠偏框架的深度强化学习算法控制无人机降落本文的方法使用矫正纠偏框架优化训练过程，强化学习算法和矫正纠偏框架的结构如图 4 所示，矫正纠偏框架使用人的建议代替干扰信号，用于智能体探索环节，因为人类建议的加入，所以增强了最终获得策略的鲁棒性。 a ′ 当智能体选择动作 t，然后根据人类当前指第 17 卷智能系统学报 ·934·

·935· 张鹏鹏，等：旋翼无人机在移动平台降落的控制参数自学习调节方法第5期导获得最终的输出a,其中d,的取值范围为[0,1.0] 给出的是仿真环境，图6(b)给出的是真实降落的叠加人类的经验a,其取值为0.2或者-0.2，最终场景。输出的结果a,区间为[0,1.01，当a,超出1.0时，认为输出结果为1.0，当a小于0时，认为输出结果为 0。当误差范围较大时，人类经验认为可以增大比例参数，此时a=0.2,进而加速无人机到达目标点，当误差范围较小时，人类经验认为需减小比例参数，即取ah=-0.2,进而实现精准的降落，对于积分和微分参数并没有使用人类的经验进行 (a)Gazebo仿真环境调节。专家经验 a,=a,'+a 智能体仿其环境记忆库参数更新 (b)实际环境图4使用矫正纠偏框架的强化学习方法图6降落环境搭建 Fig.4 RL with COACH Fig.6 Training and testing environment 控制参数自学习调节方法具体流程如图5所 4.1 无人机降落至静止平台示，由传感器获得无人机相对移动平台的坐标，降落实验中，静止平台比无人机稍大，无人机深度强化学习模块对状态进行处理，输出底层控具体尺寸为0.4m×0.4m,平台具体的尺寸为0.6m× 制器的x、y方向上的控制参数，之后底层控制模 0.8m,用于无人机降落。在仿真实验中，搭建了块根据当前误差和控制参数计算获得无人机位置一个简单的环境，如图6(a)所示。为了得到无人控制指令并执行。无人机在降落过程中不断检测机与目标位置的相对信息，在无人机的底部加装当前状态，若无人机位置合适，则旋翼停止运动，有摄像头传感器，并通过ROS框架进行信息交无人机降落至目标区域，否则无人机继续执行位互。无人机在这个仿真环境中训练和测试，对于置控制的步骤，直至无人机降落至目标区域。强化学习PID方法和应用矫正纠偏COACH方法开始的强化学习PID方法，本实验对智能体进行了 200回合的训练。当无人机降落至平台并保持静获取无人机状态一止后，本实验认为无人机成功完成降落任务，经无人机相对移动平台是否降落的坐标及自身高度过共600次仿真实验测试表明，3种方法都能够有效地(>99%)实现无人机降落任务。 3种方法控制无人机降落的轨迹如图7所示。深度强化学习模块无人机 PID控制器无人机降落 +PD轨迹；控制参数控制参数数值 ◆RL-PID轨迹自学习调 ★-RLC-PID轨迹节方法底层PID控制模块 1300 无人机位置控制指令 250 结束 200 无人机位置控制图5无人机自主降落流程 100 Fig.5 Autonomous landing process for an UAV 50 4实验及结果分析 10 -30-20-1001020 0 -10 本文提出的方法，在Gazebo仿真环境中训练 X/cm 30 -20 并在仿真和真实环境中进行测试。此外，PD模图73种方法的降落轨迹（仿真）块和强化学习模块之间的通信使用机器人操作系 Fig.7 Trajectories of three approaches for landing in a 统(robot operation system)B,如图6所示，图6(a) simulated situation

at a ′ t [0,1.0] ah at [0,1.0] at at ah = 0.2 ah = −0.2 导获得最终的输出，其中的取值范围为叠加人类的经验，其取值为 0.2 或者−0.2，最终输出的结果区间为，当超出 1.0 时，认为输出结果为 1.0，当小于 0 时，认为输出结果为 0。当误差范围较大时，人类经验认为可以增大比例参数，此时，进而加速无人机到达目标点，当误差范围较小时，人类经验认为需减小比例参数，即取，进而实现精准的降落，对于积分和微分参数并没有使用人类的经验进行调节。智能体仿真环境专家经验参数更新记忆库 at ′ at=at ′+ah (st , at , rt , st+1) ah 图 4 使用矫正纠偏框架的强化学习方法 Fig. 4 RL with COACH 控制参数自学习调节方法具体流程如图 5 所示，由传感器获得无人机相对移动平台的坐标，深度强化学习模块对状态进行处理，输出底层控制器的 x、y 方向上的控制参数，之后底层控制模块根据当前误差和控制参数计算获得无人机位置控制指令并执行。无人机在降落过程中不断检测当前状态，若无人机位置合适，则旋翼停止运动，无人机降落至目标区域，否则无人机继续执行位置控制的步骤，直至无人机降落至目标区域。获取无人机状态开始深度强化学习模块底层 PID 控制模块无人机位置控制是否降落无人机降落结束无人机控制参数自学习调节方法无人机相对移动平台的坐标及自身高度 PID 控制器控制参数数值无人机位置控制指令 Y N 图 5 无人机自主降落流程 Fig. 5 Autonomous landing process for an UAV 4 实验及结果分析本文提出的方法，在 Gazebo 仿真环境中训练并在仿真和真实环境中进行测试。此外，PID 模块和强化学习模块之间的通信使用机器人操作系统 (robot operation system)[32] ，如图 6 所示，图 6(a) 给出的是仿真环境，图 6(b) 给出的是真实降落的场景。 (a) Gazebo 仿真环境 (b) 实际环境图 6 降落环境搭建 Fig. 6 Training and testing environment 4.1 无人机降落至静止平台降落实验中，静止平台比无人机稍大，无人机具体尺寸为 0.4 m×0.4 m，平台具体的尺寸为 0.6 m× 0.8 m，用于无人机降落。在仿真实验中，搭建了一个简单的环境，如图 6（a）所示。为了得到无人机与目标位置的相对信息，在无人机的底部加装有摄像头传感器，并通过 ROS 框架进行信息交互。无人机在这个仿真环境中训练和测试，对于强化学习 PID 方法和应用矫正纠偏 COACH 方法的强化学习 PID 方法，本实验对智能体进行了 200 回合的训练。当无人机降落至平台并保持静止后，本实验认为无人机成功完成降落任务，经过共 600 次仿真实验测试表明，3 种方法都能够有效地 (>99%) 实现无人机降落任务。 3 种方法控制无人机降落的轨迹如图 7 所示。 PID 轨迹 RL-PID 轨迹 RLC-PID 轨迹 300 250 200 150 100 50 30 30 20 20 10 10 0 0 −10 −10 −20 −20 −30 X/cm Y/cm Z/cm 图 7 3 种方法的降落轨迹（仿真） Fig. 7 Trajectories of three approaches for landing in a simulated situation ·935· 张鹏鹏，等：旋翼无人机在移动平台降落的控制参数自学习调节方法第 5 期

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录