当前位置：和泉文库 > 工程 > 浏览文档

《工程科学学报》：一类离散动态系统基于事件的迭代神经控制

文件格式：PDF，文件大小：1.32MB，售价：3.6元

文档详细内容（约10页）

工程科学学报 Chinese Journal of Engineering 一类离散动态系统基于事件的送代神经控制王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文：王鼎.一类离散动态系统基于事件的迭代神经控制[.工程科学学报，2022,44(3)：411-419.doi:10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding.Event-based iterative neural control for a type of discrete dynamic plant[J].Chinese Journal of Engineering.2022. 443:411-419.doi:10.13374.issn2095-9389.2020.10.28.002 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报.2019.41(9y:1194 https::/1doi.org10.13374.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报.2018.40(12：1557htps:ldoi.org10.13374.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报.2020,42(2：135 https::/1doi.0rg/10.13374.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报.2019,41(7：947 https:oi.org10.13374j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报.2020,423：372 https::/1doi.org/10.13374.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报.2017,3911：1743htps:/doi.org/10.13374.issn2095-9389.2017.11.018

一类离散动态系统基于事件的迭代神经控制王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎. 一类离散动态系统基于事件的迭代神经控制[J]. 工程科学学报, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding. Event-based iterative neural control for a type of discrete dynamic plant[J]. Chinese Journal of Engineering, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095-9389.2020.10.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构/控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报. 2019, 41(9): 1194 https://doi.org/10.13374/j.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报. 2018, 40(12): 1557 https://doi.org/10.13374/j.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报. 2020, 42(2): 135 https://doi.org/10.13374/j.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报. 2019, 41(7): 947 https://doi.org/10.13374/j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报. 2020, 42(3): 372 https://doi.org/10.13374/j.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报. 2017, 39(11): 1743 https://doi.org/10.13374/j.issn2095-9389.2017.11.018

工程科学学报.第44卷，第3期：411-419.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:411-419,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002;http://cje.ustb.edu.cn 一类离散动态系统基于事件的迭代神经控制王鼎1,23,4✉ 1)北京工业大学信息学部.北京1001242)计算智能与智能系统北京市重点实验室，北京1001243)智慧环保北京实验室，北京100124 4)北京人工智能研究院，北京100124 ☒通信作者，E-mail:dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统，提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件驱动机制结合起来，以解决离散时间非线性系统的近似最优调节问题.首先，构造两个迭代序列并建立一种事件触发的值学习策略.其次，详细给出迭代算法的收敛性分析和新型框架的神经网络实现.这里是在基于事件的迭代环境下实施启发式动态规划技术.此外，通过设计适当的阈值以确定事件驱动方法的触发条件，最后，借助两个仿真实例验证本文控制方案的优越性能，尤其是在通信资源的利用方面.本文的工作有助于构建一类事件驱动机制下的智能控制系统关键词迭代自适应评判：神经控制：事件驱动设计：智能控制：非线性动态：优化控制分类号TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 23A 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Beijing Laboratory of Smart Environmental Protection,Beijing 100124,China 4)Beijing Institute of Artificial Intelligence,Beijing 100124,China Corresponding author,E-mail:dingwang @bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales,more dynamical systems,particularly complex nonlinear dynamics,including increasing communication burdens,increasing difficulties in building accurate mathematical models,and different uncertain factors are encountered.Consequently,in contrast to the linear case,the optimization of the design of these uncertain complex systems is difficult to achieve.By combining reinforcement learning,neural networks,and dynamic programming,the adaptive critic method is regarded as an advanced approach to address intelligent control problems.The adaptive critic method has been currently used to solve the optimal regulation,trajectory tracking,robust control, disturbance attenuation,and zero-sum game problems.It has been considered a promising direction within the artificial intelligence field. However,many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism,where the control signals are updated at each time step.Thus,the related control efficiencies are often low,which results in poor performance when considering practical updating times.Hence,more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design.In this study,we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics.The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants.An event-triggered value learning strategy was established with two iterative 收稿日期：2020-10-28 基金项目：北京市自然科学基金资助项目(JQ19013):国家自然科学基金资助项目(61773373,61890930-5,62021003)：科技创新 2030一一“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5)

一类离散动态系统基于事件的迭代神经控制王鼎1,2,3,4) 苣 1) 北京工业大学信息学部，北京 100124 2) 计算智能与智能系统北京市重点实验室，北京 100124 3) 智慧环保北京实验室，北京 100124 4) 北京人工智能研究院，北京 100124 苣通信作者， E-mail: dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统，提出一种基于事件的迭代神经控制框架. 主要目标是将迭代自适应评判方法与事件驱动机制结合起来，以解决离散时间非线性系统的近似最优调节问题. 首先，构造两个迭代序列并建立一种事件触发的值学习策略. 其次，详细给出迭代算法的收敛性分析和新型框架的神经网络实现. 这里是在基于事件的迭代环境下实施启发式动态规划技术. 此外，通过设计适当的阈值以确定事件驱动方法的触发条件. 最后，借助两个仿真实例验证本文控制方案的优越性能，尤其是在通信资源的利用方面. 本文的工作有助于构建一类事件驱动机制下的智能控制系统. 关键词迭代自适应评判；神经控制；事件驱动设计；智能控制；非线性动态；优化控制分类号 TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding1,2,3,4) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Beijing Laboratory of Smart Environmental Protection, Beijing 100124, China 4) Beijing Institute of Artificial Intelligence, Beijing 100124, China 苣 Corresponding author, E-mail: dingwang@bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales, more dynamical systems, particularly complex nonlinear dynamics, including increasing communication burdens, increasing difficulties in building accurate mathematical models, and different uncertain factors are encountered. Consequently, in contrast to the linear case, the optimization of the design of these uncertain complex systems is difficult to achieve. By combining reinforcement learning, neural networks, and dynamic programming, the adaptive critic method is regarded as an advanced approach to address intelligent control problems. The adaptive critic method has been currently used to solve the optimal regulation, trajectory tracking, robust control, disturbance attenuation, and zero-sum game problems. It has been considered a promising direction within the artificial intelligence field. However, many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism, where the control signals are updated at each time step. Thus, the related control efficiencies are often low, which results in poor performance when considering practical updating times. Hence, more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design. In this study, we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics. The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants. An event-triggered value learning strategy was established with two iterative 收稿日期: 2020−10−28 基金项目: 北京市自然科学基金资助项目（ JQ19013）；国家自然科学基金资助项目（ 61773373, 61890930-5, 62021003）；科技创新 2030——“新一代人工智能”重大项目（2021ZD0112300-2）；国家重点研发计划资助项目（2018YFC1900800-5）工程科学学报，第 44 卷，第 3 期：411−419，2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 411−419, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002; http://cje.ustb.edu.cn

412 工程科学学报，第44卷.第3期 sequences.The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail.Therein,the heuristic dynamic programming technique was employed under the event-based iterative environment Moreover,the triggering condition of the event-driven approach was determined with the appropriate threshold.Finally,simulation examples were provided to illustrate the excellent control performance,particularly in utilizing the communication resource.Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中，神经网络都被视为系统，目前基于事件的迭代自适应评判控制的研一种能够用于参数学习和函数逼近的重要方法，究成果还比较少解决非线性最优反馈控制问题的关键在于如何求基于以上背景，本文提出一种适用于离散时解复杂的Hamilton-Jacobi-Bellman(HJB)方程.由间最优调节问题的事件驱动迭代神经网络策略于缺乏解析策略，文献[]构造了基于神经网络的通过收敛性分析和HDP实现，得到基于事件环境自适应评判算法来获取满意的数值结果.近年来，下的迭代自适应评判算法.然后为基于事件的离基于自适应评判结构的控制系统设计受到很多关散时间动态系统设计一个实用的触发条件.众所注，在解决优化调节，跟踪控制，鲁棒镇定，干扰抑周知，迭代自适应评判方法在学习近似最优控制制，零和博弈等方面取得不少成果2-川当考虑实方面具有重要意义，而事件驱动机制在通信资源现过程时，自适应评判有三种基本类型的技术，包利用方面优势明显.因此，将这两种机制结合起来，括启发式动态规划(Heuristic dynamic programming, 可以得到一种有效的离散时间非线性系统的事件 HDP),二次启发式规划(Dual HDP,DHP)和全局二驱动迭代神经控制方法.也就是说，通过本文的研次启发式规划(Globalized DHP,GDHP)I.近年来，究，迭代自适应评判控制和事件驱动控制的应用离散时间情形下的迭代自适应评判结构已被分别范围都将得到扩大用以处理包含HDP2,DHPI1和GDHP1结构的在本文中，R是所有实数的集合.R"是所有n维近似最优调节问题.进而，目标导向型迭代HDP设实向量组成的欧氏空间.设2是的一个紧集并且计的理论分析也在文献[15]中给出.文献[16]提平(2)是上容许控制律的集合.Rmxm是所有n×m维出一种用于离散时间未知非仿射非线性系统的在实矩阵组成的空间.是中向量的向量范数或线学习最优控制方法，并着重强调基于数据的自 Rxm中矩阵的矩阵范数.In是n×n维的单位矩阵适应评判设计过程，需要注意的是，上述这些自适 N代表所有非负整数的集合，即0,1,2，….上标应评判算法是利用基于时间的更新方法来实现的， “T”代表转置操作所设计的控制器在每个时刻都进行更新，存在着定的资源浪费现象 1问题描述与经典的时间驱动机制相比，基于事件的方本文考虑由下式描述的一类离散时间非线性法已经成为提高资源利用效率的先进工具.它不动态系统：仅能够用于传统的反馈镇定7和容错控制8，而 (1) 且已经在忆阻系统的脉冲控制中得到应用.针 x(k+1)=f(x(k))+g(x(k))u(k),kEN 对传统时间驱动模式存在通信资源浪费的问题0，式中，x()∈R是状态变量，u()∈R"是控制输入，文献21]讨论了事件驱动环境下的神经控制实现 f)和g(是可微的并且有f0)=0.通常令x(O)作为方法.值得注意的是，在基于事件的控制框架中，初始状态.假设f+gu在包含原点的集合ΩcR”上般根据指定的触发条件来更新控制信号.文献[22] 一是Lipschitz连续的.此外，假设系统(I)可以在集合给出一种基于广义模糊双曲模型的非零和博弈事 2上借助一个状态反馈控制律u()=μ(x(k)来镇定件触发设计.另一方面，基于文献[23]的工作，Dong 为了描述基于事件的设计框架，定义单调递等针对非线性离散时间系统提出一种基于事件增序列sc其中，jeN.这里，基于事件的控制的HDP算法.文献[25]则针对约束非线性系统基信号仅在采样时刻s0,51,52,更新.于是，反馈控制于事件的最优控制设计进行了扩展研究.文献[26] 律可以表示为u(k)=μ(x(s),其中，x(s)是关于时刻设计一种实时事件驱动自适应评判控制器，并将 k=s的状态，k∈[s,S*1),j∈N.在这种结构下，需其应用于实际的电力系统中，然而，关于离散动态要一个零阶保持器来保持在时刻k=s时的事件驱

sequences. The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail. Therein, the heuristic dynamic programming technique was employed under the event-based iterative environment. Moreover, the triggering condition of the event-driven approach was determined with the appropriate threshold. Finally, simulation examples were provided to illustrate the excellent control performance, particularly in utilizing the communication resource. Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic；neural control；event-based design；intelligent control；nonlinear dynamics；optimal control 在许多数值计算过程中, 神经网络都被视为一种能够用于参数学习和函数逼近的重要方法. 解决非线性最优反馈控制问题的关键在于如何求解复杂的 Hamilton-Jacobi-Bellman (HJB) 方程 . 由于缺乏解析策略, 文献 [1] 构造了基于神经网络的自适应评判算法来获取满意的数值结果. 近年来, 基于自适应评判结构的控制系统设计受到很多关注, 在解决优化调节, 跟踪控制, 鲁棒镇定, 干扰抑制, 零和博弈等方面取得不少成果[2–11] . 当考虑实现过程时, 自适应评判有三种基本类型的技术, 包括启发式动态规划 (Heuristic dynamic programming, HDP), 二次启发式规划 (Dual HDP, DHP) 和全局二次启发式规划 (Globalized DHP, GDHP)[1] . 近年来, 离散时间情形下的迭代自适应评判结构已被分别用以处理包含 HDP[12] , DHP[13] 和 GDHP[14] 结构的近似最优调节问题. 进而, 目标导向型迭代 HDP 设计的理论分析也在文献 [15] 中给出. 文献 [16] 提出一种用于离散时间未知非仿射非线性系统的在线学习最优控制方法, 并着重强调基于数据的自适应评判设计过程. 需要注意的是, 上述这些自适应评判算法是利用基于时间的更新方法来实现的, 所设计的控制器在每个时刻都进行更新, 存在着一定的资源浪费现象. 与经典的时间驱动机制相比, 基于事件的方法已经成为提高资源利用效率的先进工具. 它不仅能够用于传统的反馈镇定[17] 和容错控制[18] , 而且已经在忆阻系统的脉冲控制中得到应用[19] . 针对传统时间驱动模式存在通信资源浪费的问题[20] , 文献 [21] 讨论了事件驱动环境下的神经控制实现方法. 值得注意的是, 在基于事件的控制框架中, 一般根据指定的触发条件来更新控制信号. 文献 [22] 给出一种基于广义模糊双曲模型的非零和博弈事件触发设计. 另一方面, 基于文献 [23] 的工作, Dong 等[24] 针对非线性离散时间系统提出一种基于事件的 HDP 算法. 文献 [25] 则针对约束非线性系统基于事件的最优控制设计进行了扩展研究. 文献 [26] 设计一种实时事件驱动自适应评判控制器, 并将其应用于实际的电力系统中. 然而, 关于离散动态系统, 目前基于事件的迭代自适应评判控制的研究成果还比较少. 基于以上背景, 本文提出一种适用于离散时间最优调节问题的事件驱动迭代神经网络策略. 通过收敛性分析和 HDP 实现, 得到基于事件环境下的迭代自适应评判算法. 然后为基于事件的离散时间动态系统设计一个实用的触发条件. 众所周知, 迭代自适应评判方法在学习近似最优控制方面具有重要意义, 而事件驱动机制在通信资源利用方面优势明显. 因此, 将这两种机制结合起来, 可以得到一种有效的离散时间非线性系统的事件驱动迭代神经控制方法. 也就是说, 通过本文的研究, 迭代自适应评判控制和事件驱动控制的应用范围都将得到扩大. R R n n Ω R n Ψ(Ω) R n×m n×m ∥ · ∥ R n R n×m In n×n N {0,1,2,...} 在本文中，是所有实数的集合. 是所有维实向量组成的欧氏空间. 设是的一个紧集并且是上容许控制律的集合. 是所有维实矩阵组成的空间. 是中向量的向量范数或中矩阵的矩阵范数. 是维的单位矩阵. 代表所有非负整数的集合, 即 . 上标 “T”代表转置操作. 1 问题描述本文考虑由下式描述的一类离散时间非线性动态系统: x(k+1) = f(x(k))+g(x(k))u(k), k ∈ N （1） x(k) ∈ Rn u(k) ∈ Rm f(·) g(·) f(0) = 0 x(0) f +gu Ω ⊂ Rn Ω u(k) = µ(x(k)) 式中，是状态变量, 是控制输入, 和是可微的并且有 . 通常令作为初始状态. 假设在包含原点的集合上是 Lipschitz 连续的. 此外，假设系统 (1) 可以在集合上借助一个状态反馈控制律来镇定. {sj} ∞ j=0 j ∈ N s0 s1 s2 ... u(k) = µ(x(sj)) x(sj) k = sj k ∈ [sj ,sj+1) j ∈ N k = sj 为了描述基于事件的设计框架，定义单调递增序列 , 其中, . 这里, 基于事件的控制信号仅在采样时刻 , , , 更新. 于是, 反馈控制律可以表示为 , 其中, 是关于时刻的状态， , . 在这种结构下, 需要一个零阶保持器来保持在时刻时的事件驱 · 412 · 工程科学学报，第 44 卷，第 3 期

王鼎：一类离散动态系统基于事件的迭代神经控制 413 动控制输入，直到下一个事件发生.基于事件的误一个事件满足此触发条件时，控制输入才会被更差信号是上述结构的基本组成部分，定义为新.基于事件控制的主要问题就是如何确定一个 ek)=x(s）-x(,k∈[sj,siti,jeN (2) 合适的触发阈值，这也将在下一节介绍式中，x(s)是采样状态，x(是当前的状态向量.利 2基于事件的迭代自适应评判控制用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是，可得本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架，包括算法收敛性分析，神经网络实现和触这可以认为是非线性系统()的闭环形式发条件设计本文考虑最优控制问题，需要得到一个反馈 2.1基于事件的迭代算法及其收敛性控制律μ∈平(2)来最小化应该指出的是，在基于事件的迭代自适应评 JIxW)=元UO,4Krs》判控制方法中，需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数，并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法，其式中，μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0，x,u 中，表示迭代指标且i∈N.令初始迭代指标i=0并是效用函数，且有U0,0)=0成立.在本文中，效用且令初始代价函数J0(=0 函数选取为二次型形式然后，迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理，最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中，状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程：接下来，迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可进行更新，也可以写为由下式计算： Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是，当Ji+D(x()-J@(x()训≤e时，考虑到仿射型动态系统和二次型效用函数，停止准则生效，从而获得近似最优控制律.此外，则有通过令i=i+1来增加迭代指标，从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价函数需要注意的是，式(7)是动态规划过程中应该下面，根据有界性和单调性给出上面迭代算处理的关键式子，法的收敛性证明在本文中，为了解决基于事件的最优控制设定理1迭代代价函数序列(J⊙是有上界的，即计，应该关注两个方面的问题.一方面，需要下一个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了，i∈N,其中，了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难，下一输人，4⊙是如下定义的一个序列：节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面，在基于事件的结构中，需要设计一个形式中，迭代指标取零时的初始值Ao(=0.易知，如Ile(k)训≤e的事件触发条件，其中，e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开

动控制输入，直到下一个事件发生. 基于事件的误差信号是上述结构的基本组成部分，定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N （2） x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利用表达式 , 反馈控制律可以改写为 . 于是，可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N （3）这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈控制律来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （4） µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, ， , 是效用函数，且有成立. 在本文中，效用函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) （5） Q ∈ Rn×n P ∈ R 式中涉及到的和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) （6）且满足以下的离散时间 HJB 方程： J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （7） µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} （8）考虑到仿射型动态系统和二次型效用函数，则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) （9）需要注意的是，式 (7) 是动态规划过程中应该处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设计, 应该关注两个方面的问题. 一方面, 需要下一个时间步的值来获得最优代价函数和最优控制 . 为了克服获取和求解离散时间 HJB 方程的困难, 下一节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形如的事件触发条件, 其中, 是正阈值. 当一个事件满足此触发条件时, 控制输入才会被更新. 基于事件控制的主要问题就是如何确定一个合适的触发阈值, 这也将在下一节介绍. 2 基于事件的迭代自适应评判控制本节重点介绍基于事件的迭代自适应评判控制框架, 包括算法收敛性分析, 神经网络实现和触发条件设计. 2.1 基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评判控制方法中, 需要考虑带有触发信息的值函数学习过程. 选择一个小的正数, 并构造两个迭代序列和 , 由此开始执行算法, 其中, 表示迭代指标且 . 令初始迭代指标并且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) （10） x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} （11）进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) （12） |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当时, 停止准则生效, 从而获得近似最优控制律. 此外，通过令来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价函数. 下面, 根据有界性和单调性给出上面迭代算法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列是有上界的，即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令为触发时刻的任意容许控制输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) （13） A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, . 随着迭代指标展开王鼎：一类离散动态系统基于事件的迭代神经控制 · 413 ·

414 工程科学学报，第44卷，第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有反之，根据式(11)和定理2，有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算，可以进当i→o时，可得对于任意的μ((s》,都有一步得到Ji(x(k)≤A+(x(k)≤.于是，考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性，可以得到0≤J@(x()≤了，i∈N. o(x(k+1) (22) 证毕于是，可得定理2迭代代价函数序列（⑨是非减的，即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见，定义一个新的序列综合式(20)和(23)，最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下： (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24)，可以得到迭代序列{J⊙的 (16) 极限，即J),正是代价函数的最优值.因此，有利用数学归纳法，首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理，当i→o U(ax(k,o(x(s》≥0，可以得到不等式Bo(x(》≤ 时，也有(x(s》→(x(s》成立，这可以看做一个 J(x(k).然后，假设Bi-D(x)≤(x()对于任意推论状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式在实现迭代自适应评判算法时，需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络，即评判网络和执行网络，分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律则有评判网络输出迭代代价函数的近似值，即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12)，训练误差准则为因此，可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立，这样就完成了数学归纳证明考虑到式(I1)中代价函数(x()的导出方这里涉及的权重矩阵更新方式为式，则有JO(x(k)≤B(x(k).因此，最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕根据定理1和定理2，迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论，则有式中，>0是评判网络的学习率，1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中，w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值，即 (19) 当i→o时，进一步有 0xs》=wTσ(9Tx(s) (28)

A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) （14）即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) （15） ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到的容许性. 可知对于任意的迭代指标 , 都有成立. 由于式 (11) 中的迭代代价函数包含了最小化运算, 可以进一步得到 . 于是, 考虑到代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列是非减的, 即 , . {B (i) } B (0)(·) = 0 证明 . 为了方便起见 , 定义一个新的序列且初始值 . 该序列中的元素更新方式如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) （16） J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法，首先因为 , 可以得到不等式 . 然后, 假设对于任意状态向量都成立且，注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) （17）则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 （18） i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数的导出方式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定理 1 和定理 2, 迭代代价函数序列是收敛的. 令当时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N （19）当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （20）反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N （21）当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) （22）于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （23）综合式 (20) 和 (23)，最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} （24） {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列的极限, 即 , 正是代价函数的最优值. 因此, 有成立. 同理, 当时, 也有成立, 这可以看做一个推论. 2.2 基于神经网络的 HDP 技术实现在实现迭代自适应评判算法时, 需要建立两个神经网络, 即评判网络和执行网络, 分别用于输出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) （25）结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 （26）这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ω (i+1) c (l)   （27a） ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc   ∂E (i+1) c (k) ∂ν (i+1) c (l)   （27b） ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭代指标. 其中, 和是权重矩阵的第次迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) （28） · 414 · 工程科学学报，第 44 卷，第 3 期

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录