工程科学学报 Chinese Journal of Engineering 一类离散动态系统基于事件的送代神经控制 王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎.一类离散动态系统基于事件的迭代神经控制[.工程科学学报,2022,44(3):411-419.doi:10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding.Event-based iterative neural control for a type of discrete dynamic plant[J].Chinese Journal of Engineering.2022. 443:411-419.doi:10.13374.issn2095-9389.2020.10.28.002 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报.2019.41(9y:1194 https::/1doi.org10.13374.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报.2018.40(12:1557htps:ldoi.org10.13374.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报.2020,42(2:135 https::/1doi.0rg/10.13374.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报.2019,41(7:947 https:oi.org10.13374j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报.2020,423:372 https::/1doi.org/10.13374.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报.2017,3911:1743htps:/doi.org/10.13374.issn2095-9389.2017.11.018
一类离散动态系统基于事件的迭代神经控制 王鼎 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 引用本文: 王鼎. 一类离散动态系统基于事件的迭代神经控制[J]. 工程科学学报, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095- 9389.2020.10.28.002 WANG Ding. Event-based iterative neural control for a type of discrete dynamic plant[J]. Chinese Journal of Engineering, 2022, 44(3): 411-419. doi: 10.13374/j.issn2095-9389.2020.10.28.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002 您可能感兴趣的其他文章 Articles you may be interested in 基于有限时间滤波控制的电机驱动系统结构/控制一体化设计 Plant/controller co-design of motor driving systems based on finite-time filtering control 工程科学学报. 2019, 41(9): 1194 https://doi.org/10.13374/j.issn2095-9389.2019.09.011 基于嵌套饱和的输入约束浮空器非线性控制 Nonlinear control of aerostat with input constraints based on nested saturation 工程科学学报. 2018, 40(12): 1557 https://doi.org/10.13374/j.issn2095-9389.2018.12.015 多模型自适应控制理论及应用 Survey of multi-model adaptive control theory and its applications 工程科学学报. 2020, 42(2): 135 https://doi.org/10.13374/j.issn2095-9389.2019.02.25.006 基于非线性模型预测控制的自动泊车路径跟踪 Path tracking of automatic parking based on nonlinear model predictive control 工程科学学报. 2019, 41(7): 947 https://doi.org/10.13374/j.issn2095-9389.2019.07.014 基于自适应滑模的多螺旋桨浮空器容错控制 Fault-tolerant control for a multi-propeller airship based on adaptive sliding mode method 工程科学学报. 2020, 42(3): 372 https://doi.org/10.13374/j.issn2095-9389.2019.04.25.002 无人直升机自抗扰自适应轨迹跟踪混合控制 Trajectory-tracking hybrid controller based on ADRC and adaptive control for unmanned helicopters 工程科学学报. 2017, 39(11): 1743 https://doi.org/10.13374/j.issn2095-9389.2017.11.018
工程科学学报.第44卷,第3期:411-419.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:411-419,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002;http://cje.ustb.edu.cn 一类离散动态系统基于事件的迭代神经控制 王 鼎1,23,4✉ 1)北京工业大学信息学部.北京1001242)计算智能与智能系统北京市重点实验室,北京1001243)智慧环保北京实验室,北京100124 4)北京人工智能研究院,北京100124 ☒通信作者,E-mail:dingwang@bjut.edu.cn 摘要面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架.主要目标是将迭代自适应评判方法与事件 驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题.首先,构造两个迭代序列并建立一种事件触发的值学 习策略.其次,详细给出迭代算法的收敛性分析和新型框架的神经网络实现.这里是在基于事件的迭代环境下实施启发式动 态规划技术.此外,通过设计适当的阈值以确定事件驱动方法的触发条件,最后,借助两个仿真实例验证本文控制方案的优 越性能,尤其是在通信资源的利用方面.本文的工作有助于构建一类事件驱动机制下的智能控制系统 关键词迭代自适应评判:神经控制:事件驱动设计:智能控制:非线性动态:优化控制 分类号TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding 23A 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Beijing Laboratory of Smart Environmental Protection,Beijing 100124,China 4)Beijing Institute of Artificial Intelligence,Beijing 100124,China Corresponding author,E-mail:dingwang @bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales,more dynamical systems,particularly complex nonlinear dynamics,including increasing communication burdens,increasing difficulties in building accurate mathematical models,and different uncertain factors are encountered.Consequently,in contrast to the linear case,the optimization of the design of these uncertain complex systems is difficult to achieve.By combining reinforcement learning,neural networks,and dynamic programming,the adaptive critic method is regarded as an advanced approach to address intelligent control problems.The adaptive critic method has been currently used to solve the optimal regulation,trajectory tracking,robust control, disturbance attenuation,and zero-sum game problems.It has been considered a promising direction within the artificial intelligence field. However,many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism,where the control signals are updated at each time step.Thus,the related control efficiencies are often low,which results in poor performance when considering practical updating times.Hence,more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design.In this study,we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics.The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants.An event-triggered value learning strategy was established with two iterative 收稿日期:2020-10-28 基金项目:北京市自然科学基金资助项目(JQ19013):国家自然科学基金资助项目(61773373,61890930-5,62021003):科技创新 2030一一“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5)
一类离散动态系统基于事件的迭代神经控制 王 鼎1,2,3,4) 苣 1) 北京工业大学信息学部,北京 100124 2) 计算智能与智能系统北京市重点实验室,北京 100124 3) 智慧环保北京实验室,北京 100124 4) 北京人工智能研究院,北京 100124 苣通信作者, E-mail: dingwang@bjut.edu.cn 摘 要 面向离散时间非线性动态系统,提出一种基于事件的迭代神经控制框架. 主要目标是将迭代自适应评判方法与事件 驱动机制结合起来,以解决离散时间非线性系统的近似最优调节问题. 首先,构造两个迭代序列并建立一种事件触发的值学 习策略. 其次,详细给出迭代算法的收敛性分析和新型框架的神经网络实现. 这里是在基于事件的迭代环境下实施启发式动 态规划技术. 此外,通过设计适当的阈值以确定事件驱动方法的触发条件. 最后,借助两个仿真实例验证本文控制方案的优 越性能,尤其是在通信资源的利用方面. 本文的工作有助于构建一类事件驱动机制下的智能控制系统. 关键词 迭代自适应评判;神经控制;事件驱动设计;智能控制;非线性动态;优化控制 分类号 TP13 Event-based iterative neural control for a type of discrete dynamic plant WANG Ding1,2,3,4) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Beijing Laboratory of Smart Environmental Protection, Beijing 100124, China 4) Beijing Institute of Artificial Intelligence, Beijing 100124, China 苣 Corresponding author, E-mail: dingwang@bjut.edu.cn ABSTRACT With the widespread popularity of network-based techniques and extension of computer control scales, more dynamical systems, particularly complex nonlinear dynamics, including increasing communication burdens, increasing difficulties in building accurate mathematical models, and different uncertain factors are encountered. Consequently, in contrast to the linear case, the optimization of the design of these uncertain complex systems is difficult to achieve. By combining reinforcement learning, neural networks, and dynamic programming, the adaptive critic method is regarded as an advanced approach to address intelligent control problems. The adaptive critic method has been currently used to solve the optimal regulation, trajectory tracking, robust control, disturbance attenuation, and zero-sum game problems. It has been considered a promising direction within the artificial intelligence field. However, many traditional design processes of the adaptive critic method are conducted based on the time-based mechanism, where the control signals are updated at each time step. Thus, the related control efficiencies are often low, which results in poor performance when considering practical updating times. Hence, more improvements are needed to enhance the control efficiency of adaptive-critic-based nonlinear control design. In this study, we developed an event-based iterative neural control framework for discrete-time nonlinear dynamics. The iterative adaptive critic method was combined with the event-driven mechanism to address the approximate optimal regulation problem in discrete-time nonlinear plants. An event-triggered value learning strategy was established with two iterative 收稿日期: 2020−10−28 基金项目: 北京市自然科学基金资助项目 ( JQ19013) ; 国家自然科学基金资助项目 ( 61773373, 61890930-5, 62021003) ;科技创 新 2030——“新一代人工智能”重大项目(2021ZD0112300-2);国家重点研发计划资助项目(2018YFC1900800-5) 工程科学学报,第 44 卷,第 3 期:411−419,2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 411−419, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.28.002; http://cje.ustb.edu.cn
412 工程科学学报,第44卷.第3期 sequences.The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail.Therein,the heuristic dynamic programming technique was employed under the event-based iterative environment Moreover,the triggering condition of the event-driven approach was determined with the appropriate threshold.Finally,simulation examples were provided to illustrate the excellent control performance,particularly in utilizing the communication resource.Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中,神经网络都被视为 系统,目前基于事件的迭代自适应评判控制的研 一种能够用于参数学习和函数逼近的重要方法, 究成果还比较少 解决非线性最优反馈控制问题的关键在于如何求 基于以上背景,本文提出一种适用于离散时 解复杂的Hamilton-Jacobi-Bellman(HJB)方程.由 间最优调节问题的事件驱动迭代神经网络策略 于缺乏解析策略,文献[]构造了基于神经网络的 通过收敛性分析和HDP实现,得到基于事件环境 自适应评判算法来获取满意的数值结果.近年来, 下的迭代自适应评判算法.然后为基于事件的离 基于自适应评判结构的控制系统设计受到很多关 散时间动态系统设计一个实用的触发条件.众所 注,在解决优化调节,跟踪控制,鲁棒镇定,干扰抑 周知,迭代自适应评判方法在学习近似最优控制 制,零和博弈等方面取得不少成果2-川当考虑实 方面具有重要意义,而事件驱动机制在通信资源 现过程时,自适应评判有三种基本类型的技术,包 利用方面优势明显.因此,将这两种机制结合起来, 括启发式动态规划(Heuristic dynamic programming, 可以得到一种有效的离散时间非线性系统的事件 HDP),二次启发式规划(Dual HDP,DHP)和全局二 驱动迭代神经控制方法.也就是说,通过本文的研 次启发式规划(Globalized DHP,GDHP)I.近年来, 究,迭代自适应评判控制和事件驱动控制的应用 离散时间情形下的迭代自适应评判结构已被分别 范围都将得到扩大 用以处理包含HDP2,DHPI1和GDHP1结构的 在本文中,R是所有实数的集合.R"是所有n维 近似最优调节问题.进而,目标导向型迭代HDP设 实向量组成的欧氏空间.设2是的一个紧集并且 计的理论分析也在文献[15]中给出.文献[16]提 平(2)是上容许控制律的集合.Rmxm是所有n×m维 出一种用于离散时间未知非仿射非线性系统的在 实矩阵组成的空间.是中向量的向量范数或 线学习最优控制方法,并着重强调基于数据的自 Rxm中矩阵的矩阵范数.In是n×n维的单位矩阵 适应评判设计过程,需要注意的是,上述这些自适 N代表所有非负整数的集合,即0,1,2,….上标 应评判算法是利用基于时间的更新方法来实现的, “T”代表转置操作 所设计的控制器在每个时刻都进行更新,存在着 定的资源浪费现象 1问题描述 与经典的时间驱动机制相比,基于事件的方 本文考虑由下式描述的一类离散时间非线性 法已经成为提高资源利用效率的先进工具.它不 动态系统: 仅能够用于传统的反馈镇定7和容错控制8,而 (1) 且已经在忆阻系统的脉冲控制中得到应用.针 x(k+1)=f(x(k))+g(x(k))u(k),kEN 对传统时间驱动模式存在通信资源浪费的问题0, 式中,x()∈R是状态变量,u()∈R"是控制输入, 文献21]讨论了事件驱动环境下的神经控制实现 f)和g(是可微的并且有f0)=0.通常令x(O)作为 方法.值得注意的是,在基于事件的控制框架中, 初始状态.假设f+gu在包含原点的集合ΩcR”上 般根据指定的触发条件来更新控制信号.文献[22] 一 是Lipschitz连续的.此外,假设系统(I)可以在集合 给出一种基于广义模糊双曲模型的非零和博弈事 2上借助一个状态反馈控制律u()=μ(x(k)来镇定 件触发设计.另一方面,基于文献[23]的工作,Dong 为了描述基于事件的设计框架,定义单调递 等针对非线性离散时间系统提出一种基于事件 增序列sc其中,jeN.这里,基于事件的控制 的HDP算法.文献[25]则针对约束非线性系统基 信号仅在采样时刻s0,51,52,更新.于是,反馈控制 于事件的最优控制设计进行了扩展研究.文献[26] 律可以表示为u(k)=μ(x(s),其中,x(s)是关于时刻 设计一种实时事件驱动自适应评判控制器,并将 k=s的状态,k∈[s,S*1),j∈N.在这种结构下,需 其应用于实际的电力系统中,然而,关于离散动态 要一个零阶保持器来保持在时刻k=s时的事件驱
sequences. The convergence analysis of the iterative algorithm and the neural network implementation of the new framework were presented in detail. Therein, the heuristic dynamic programming technique was employed under the event-based iterative environment. Moreover, the triggering condition of the event-driven approach was determined with the appropriate threshold. Finally, simulation examples were provided to illustrate the excellent control performance, particularly in utilizing the communication resource. Thus, constructing a class of intelligent control systems based on the event-based mechanism will be helpful. KEY WORDS iterative adaptive critic;neural control;event-based design;intelligent control;nonlinear dynamics;optimal control 在许多数值计算过程中, 神经网络都被视为 一种能够用于参数学习和函数逼近的重要方法. 解决非线性最优反馈控制问题的关键在于如何求 解复杂 的 Hamilton-Jacobi-Bellman (HJB) 方 程 . 由 于缺乏解析策略, 文献 [1] 构造了基于神经网络的 自适应评判算法来获取满意的数值结果. 近年来, 基于自适应评判结构的控制系统设计受到很多关 注, 在解决优化调节, 跟踪控制, 鲁棒镇定, 干扰抑 制, 零和博弈等方面取得不少成果[2–11] . 当考虑实 现过程时, 自适应评判有三种基本类型的技术, 包 括启发式动态规划 (Heuristic dynamic programming, HDP), 二次启发式规划 (Dual HDP, DHP) 和全局二 次启发式规划 (Globalized DHP, GDHP)[1] . 近年来, 离散时间情形下的迭代自适应评判结构已被分别 用以处理包含 HDP[12] , DHP[13] 和 GDHP[14] 结构的 近似最优调节问题. 进而, 目标导向型迭代 HDP 设 计的理论分析也在文献 [15] 中给出. 文献 [16] 提 出一种用于离散时间未知非仿射非线性系统的在 线学习最优控制方法, 并着重强调基于数据的自 适应评判设计过程. 需要注意的是, 上述这些自适 应评判算法是利用基于时间的更新方法来实现的, 所设计的控制器在每个时刻都进行更新, 存在着 一定的资源浪费现象. 与经典的时间驱动机制相比, 基于事件的方 法已经成为提高资源利用效率的先进工具. 它不 仅能够用于传统的反馈镇定[17] 和容错控制[18] , 而 且已经在忆阻系统的脉冲控制中得到应用[19] . 针 对传统时间驱动模式存在通信资源浪费的问题[20] , 文献 [21] 讨论了事件驱动环境下的神经控制实现 方法. 值得注意的是, 在基于事件的控制框架中, 一般根据指定的触发条件来更新控制信号. 文献 [22] 给出一种基于广义模糊双曲模型的非零和博弈事 件触发设计. 另一方面, 基于文献 [23] 的工作, Dong 等[24] 针对非线性离散时间系统提出一种基于事件 的 HDP 算法. 文献 [25] 则针对约束非线性系统基 于事件的最优控制设计进行了扩展研究. 文献 [26] 设计一种实时事件驱动自适应评判控制器, 并将 其应用于实际的电力系统中. 然而, 关于离散动态 系统, 目前基于事件的迭代自适应评判控制的研 究成果还比较少. 基于以上背景, 本文提出一种适用于离散时 间最优调节问题的事件驱动迭代神经网络策略. 通过收敛性分析和 HDP 实现, 得到基于事件环境 下的迭代自适应评判算法. 然后为基于事件的离 散时间动态系统设计一个实用的触发条件. 众所 周知, 迭代自适应评判方法在学习近似最优控制 方面具有重要意义, 而事件驱动机制在通信资源 利用方面优势明显. 因此, 将这两种机制结合起来, 可以得到一种有效的离散时间非线性系统的事件 驱动迭代神经控制方法. 也就是说, 通过本文的研 究, 迭代自适应评判控制和事件驱动控制的应用 范围都将得到扩大. R R n n Ω R n Ψ(Ω) R n×m n×m ∥ · ∥ R n R n×m In n×n N {0,1,2,...} 在本文中, 是所有实数的集合. 是所有 维 实向量组成的欧氏空间. 设 是 的一个紧集并且 是上容许控制律的集合. 是所有 维 实矩阵组成的空间. 是 中向量的向量范数或 中矩阵的矩阵范数. 是 维的单位矩阵. 代表所有非负整数的集合, 即 . 上标 “T”代表转置操作. 1 问题描述 本文考虑由下式描述的一类离散时间非线性 动态系统: x(k+1) = f(x(k))+g(x(k))u(k), k ∈ N (1) x(k) ∈ Rn u(k) ∈ Rm f(·) g(·) f(0) = 0 x(0) f +gu Ω ⊂ Rn Ω u(k) = µ(x(k)) 式中, 是状态变量, 是控制输入, 和 是可微的并且有 . 通常令 作为 初始状态. 假设 在包含原点的集合 上 是 Lipschitz 连续的. 此外,假设系统 (1) 可以在集合 上借助一个状态反馈控制律 来镇定. {sj} ∞ j=0 j ∈ N s0 s1 s2 ... u(k) = µ(x(sj)) x(sj) k = sj k ∈ [sj ,sj+1) j ∈ N k = sj 为了描述基于事件的设计框架,定义单调递 增序列 , 其中, . 这里, 基于事件的控制 信号仅在采样时刻 , , , 更新. 于是, 反馈控制 律可以表示为 , 其中, 是关于时刻 的状态, , . 在这种结构下, 需 要一个零阶保持器来保持在时刻 时的事件驱 · 412 · 工程科学学报,第 44 卷,第 3 期
王鼎:一类离散动态系统基于事件的迭代神经控制 413 动控制输入,直到下一个事件发生.基于事件的误 一个事件满足此触发条件时,控制输入才会被更 差信号是上述结构的基本组成部分,定义为 新.基于事件控制的主要问题就是如何确定一个 ek)=x(s)-x(,k∈[sj,siti,jeN (2) 合适的触发阈值,这也将在下一节介绍 式中,x(s)是采样状态,x(是当前的状态向量.利 2基于事件的迭代自适应评判控制 用表达式x(s)=x()+e(),反馈控制律可以改写为 u()=μ(x(s》=μ(x()+e(k).于是,可得 本节重点介绍基于事件的迭代自适应评判控 x(k+1)=fx(k)+g(x(k)μ(ax(k)+e(k),k∈N(3) 制框架,包括算法收敛性分析,神经网络实现和触 这可以认为是非线性系统()的闭环形式 发条件设计 本文考虑最优控制问题,需要得到一个反馈 2.1基于事件的迭代算法及其收敛性 控制律μ∈平(2)来最小化 应该指出的是,在基于事件的迭代自适应评 JIxW)=元UO,4Krs》 判控制方法中,需要考虑带有触发信息的值函数 (4) 学习过程.选择一个小的正数,并构造两个迭代序 l=k 列(x()和μO(x(s》,由此开始执行算法,其 式中,μ(x(s》=μ(x(k)+e(k),jeN,U(x,)≥0,x,u 中,表示迭代指标且i∈N.令初始迭代指标i=0并 是效用函数,且有U0,0)=0成立.在本文中,效用 且令初始代价函数J0(=0 函数选取为二次型形式 然后,迭代控制函数通过 U(x(k).u(x(si)))=x(k)Qx(k)+ O(x(s》=arg min{U(x(k),μ(x(s》+ μ(x(s)Pμ(x(s》 (5) u(x(s;)) 式中涉及到的Q∈Rx和P∈Rmxm都是正定矩阵. Jo(x(k+1)》= 回顾著名的最优性原理,最优代价函数定义为 -》 ox(k+1) (10) ra》=min ox,As》 (6) 进行求解.在上述参数最小化运算中,状态向量 ()l x(k+1)=f(x(k))+g(x(k))(x(si)) 且满足以下的离散时间HB方程: 接下来,迭代代价函数通过 J'(x(k)=min{U(ax(k),μ(ax(s》+ xtsi)) i+D)(x(k))=min (U(x(k).u(x(sj))+ (s》 J厂(x(k+1)》 (7) J0(x(k+1)》 (11) 基于事件触发机制的最优控制策略(x(s)》可 进行更新,也可以写为 由下式计算: Ji+D(x(k))=U(x(k).H(D(x(sj)+ μ`(r(sj)=arg min{U(r(k),μ(r(sj》+ u(x(s;)) J(f(x(k))+g(x(k))(x(sj)) (12) J(x(k+1)》 (8) 需要注意的是,当Ji+D(x()-J@(x()训≤e时, 考虑到仿射型动态系统和二次型效用函数, 停止准则生效,从而获得近似最优控制律.此外, 则有 通过令i=i+1来增加迭代指标,从而继续求解式 rs》=-P产gWrk+I》 1 (9) a0x(k+1) (10)中的迭代控制函数和更新(11)中的迭代代价 函数 需要注意的是,式(7)是动态规划过程中应该 下面,根据有界性和单调性给出上面迭代算 处理的关键式子, 法的收敛性证明 在本文中,为了解决基于事件的最优控制设 定理1迭代代价函数序列(J⊙是有上界的,即 计,应该关注两个方面的问题.一方面,需要下一 个时间步的值J广(x(k+1)来获得最优代价函数 0≤0(x()≤了,i∈N,其中,了是一个正常数 J(x(k)和最优控制u(x(s).为了克服获取 证明.令(x(s》为触发时刻s的任意容许控制 J(x(k+1)和求解离散时间HUB方程的困难,下一 输人,4⊙是如下定义的一个序列: 节将介绍一种基于自适应评判设计的迭代结构. A+(xk)=Ux(k),(x(s》+AO(r(k+1)(13) 另一方面,在基于事件的结构中,需要设计一个形 式中,迭代指标取零时的初始值Ao(=0.易知, 如Ile(k)训≤e的事件触发条件,其中,e是正阈值.当 A(x(k)=U(x(k),(x(s).随着迭代指标展开
动控制输入,直到下一个事件发生. 基于事件的误 差信号是上述结构的基本组成部分,定义为 e(k) = x(sj)− x(k), k ∈ [sj ,sj+1), j ∈ N (2) x(sj) x(k) x(sj) = x(k)+e(k) u(k) = µ(x(sj)) = µ(x(k)+e(k)) 式中, 是采样状态, 是当前的状态向量. 利 用表达式 , 反馈控制律可以改写为 . 于是,可得 x(k+1) = f(x(k))+g(x(k))µ(x(k)+e(k)), k ∈ N (3) 这可以认为是非线性系统 (1) 的闭环形式. µ ∈ Ψ(Ω) 本文考虑最优控制问题, 需要得到一个反馈 控制律 来最小化 J(x(k)) = ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (4) µ(x(sj)) = µ(x(k)+e(k)) j ∈ N U(x,u) ⩾ 0,∀x,u U(0,0) = 0 式中, , , 是效用函数,且有 成立. 在本文中,效用 函数选取为二次型形式 U(x(k),µ(x(sj))) = x T (k)Qx(k)+ µ T (x(sj))Pµ(x(sj)) (5) Q ∈ Rn×n P ∈ R 式中涉及到的 和 m×m都是正定矩阵. 回顾著名的最优性原理, 最优代价函数定义为 J ∗ (x(k)) = min {µ(·)} ∑∞ ℓ=k U(x(ℓ),µ(x(sj))) (6) 且满足以下的离散时间 HJB 方程: J ∗ (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (7) µ ∗ 基于事件触发机制的最优控制策略 (x(sj)) 可 由下式计算: µ ∗ (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J ∗ (x(k+1))} (8) 考虑到仿射型动态系统和二次型效用函数, 则有 µ ∗ (x(sj)) = − 1 2 P −1 g T (x(k)) ∂J ∗ (x(k+1)) ∂x(k+1) (9) 需要注意的是,式 (7) 是动态规划过程中应该 处理的关键式子. J ∗ (x(k+1)) J ∗ (x(k)) µ ∗ (x(sj)) J ∗ (x(k+1)) ||e(k)|| ⩽ e¯ e¯ 在本文中, 为了解决基于事件的最优控制设 计, 应该关注两个方面的问题. 一方面, 需要下一 个时间步的值 来获得最优代价函数 和 最 优 控 制 . 为 了 克 服 获 取 和求解离散时间 HJB 方程的困难, 下一 节将介绍一种基于自适应评判设计的迭代结构. 另一方面, 在基于事件的结构中, 需要设计一个形 如 的事件触发条件, 其中, 是正阈值. 当 一个事件满足此触发条件时, 控制输入才会被更 新. 基于事件控制的主要问题就是如何确定一个 合适的触发阈值, 这也将在下一节介绍. 2 基于事件的迭代自适应评判控制 本节重点介绍基于事件的迭代自适应评判控 制框架, 包括算法收敛性分析, 神经网络实现和触 发条件设计. 2.1 基于事件的迭代算法及其收敛性 {J (i) (x(k))} {µ (i) (x(sj))} i i ∈ N i = 0 J (0)(·) = 0 应该指出的是, 在基于事件的迭代自适应评 判控制方法中, 需要考虑带有触发信息的值函数 学习过程. 选择一个小的正数, 并构造两个迭代序 列 和 , 由此开始执行算法, 其 中, 表示迭代指标且 . 令初始迭代指标 并 且令初始代价函数 . 然后, 迭代控制函数通过 µ (i) (x(sj)) = arg min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))} = − 1 2 P −1 g T (x(k)) ∂J (i) (x(k+1)) ∂x(k+1) (10) x(k+1) = f(x(k))+g(x(k))µ(x(sj)) 进行求解. 在上述参数最小化运算中, 状态向量 . 接下来, 迭代代价函数通过 J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj))+ J (i) (x(k+1))} (11) 进行更新, 也可以写为 J (i+1)(x(k)) = U ( x(k),µ (i) (x(sj))) + J (i) ( f(x(k))+g(x(k))µ (i) (x(sj))) (12) |J (i+1)(x(k))− J (i) (x(k))| ⩽ ϵ i = i+1 需要注意的是, 当 时, 停止准则生效, 从而获得近似最优控制律. 此外, 通过令 来增加迭代指标, 从而继续求解式 (10) 中的迭代控制函数和更新 (11) 中的迭代代价 函数. 下面, 根据有界性和单调性给出上面迭代算 法的收敛性证明. {J (i) } 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N J 定理 1 迭代代价函数序列 是有上界的,即 , , 其中, 是一个正常数. ζ(x(sj)) sj {A (i) } 证明. 令 为触发时刻 的任意容许控制 输入, 是如下定义的一个序列: A (i+1)(x(k)) = U(x(k), ζ(x(sj)))+ A (i) (x(k+1)) (13) A (0)(·) = 0 A (1)(x(k)) = U(x(k), ζ(x(sj))) i 式中, 迭代指标取零时的初始值 . 易知, . 随 着 迭 代 指 标 展 开 王 鼎: 一类离散动态系统基于事件的迭代神经控制 · 413 ·
414 工程科学学报,第44卷,第3期 A+D(x(k)-AO(x(k),最终可以得到. Jo(x()≥min{U(r(k),(ax(s》+ (x(sj)) A(i+D(x(k))-A(i(x(k))=A(x(k+i)) (14) Jo(x(k+1)》 (20) 即有 反之,根据式(11)和定理2,有下式成立 A+(x(K)=∑AD(xk+》 (15) Ji+(x(k)≤U(x(k),μ(x(s)+ =0 @(x(k+1)》≤ 考虑到(x(s》的容许性.可知对于任意的迭代 U(x(k),μ(x(s)+ 指标i,都有A+(x()≤了成立.由于式(11)中的迭 Jo(x(k+1),i∈N (21) 代代价函数+(x()包含了最小化运算,可以进 当i→o时,可得对于任意的μ((s》,都有 一步得到Ji(x(k)≤A+(x(k)≤.于是,考虑到 Jo(x(k)≤U(x(k),μ(r(s)+ 代价函数的非负性,可以得到0≤J@(x()≤了,i∈N. o(x(k+1) (22) 证毕 于是,可得 定理2迭代代价函数序列(⑨是非减的,即 Jo(x(k)≤min{U(x(k),μ(ar(s》+ μ(r(s) Jo(x(k)≤Ji+1(x(),i∈N. J(x(k+1)》} (23) 证明.为了方便起见,定义一个新的序列 综合式(20)和(23),最终得到 {B且初始值BO()=0.该序列中的元素更新方式 J(x(k))=min (U(x(k).I(x(sj)))+ 如下: (x(sj)) B(i+D(x(k))=U(x(k).u+D(x(sj)+ Jo(x(k+1)》 (24) B(i(x(k+1)) 比较式(7)和(24),可以得到迭代序列{J⊙的 (16) 极限,即J),正是代价函数的最优值.因此,有 利用数学归纳法,首先因为J(x(k)-BO(x()= J0(x(k)→Jo(x(k)=J产(x(k)成立.同理,当i→o U(ax(k,o(x(s》≥0,可以得到不等式Bo(x(》≤ 时,也有(x(s》→(x(s》成立,这可以看做一个 J(x(k).然后,假设Bi-D(x)≤(x()对于任意 推论 状态向量都成立且i=2,3,,注意到式(12)和由 2.2基于神经网络的HDP技术实现 (16)推得的表达式 在实现迭代自适应评判算法时,需要建立两 B(x(k))=U(x(k).u(x(sj))+ 个神经网络,即评判网络和执行网络,分别用于输 Bi-I(x(k+1)》 (17) 出近似代价函数和近似控制律 则有 评判网络输出迭代代价函数的近似值,即 B(D(x(k))-Ji+D(x(k))= ji+D(x(k))=+DT(v+DTx(k)) (25) Bi-(x(k+1)-J0(x(k+1)≤0 (18) 结合式(12),训练误差准则为 因此,可以得到对于任意i∈N,都有BO(x(k)≤ =+x-+cxk)2 E+(k)= (26) J+(x()成立,这样就完成了数学归纳证明 考虑到式(I1)中代价函数(x()的导出方 这里涉及的权重矩阵更新方式为 式,则有JO(x(k)≤B(x(k).因此,最终得到不等式 wl+1)-w+(0=-nc (aED(k aogd (27a) J(x(k)》≤BO(x()≤Ji+I)(x().证毕 根据定理1和定理2,迭代代价函数序列 y+0+1)-y*(0=-n (ED(k) (27b) (J0是收敛的.令当i→o时的迭代代价函数为J) m+0 考虑式(11)且根据定理2的结论,则有 式中,>0是评判网络的学习率,1是内循环的迭 J(x()≥Ji+I(x(k)= 代指标.其中,w+(0和v+(0是权重矩阵的第次 min{U(x(k),μ(x(si)》+ 迭代值. 4(xrsj》 J(x(k+1)),iEN 执行网络输出迭代控制函数的近似值,即 (19) 当i→o时,进一步有 0xs》=wTσ(9Tx(s) (28)
A (i+1)(x(k))− A (i) (x(k)), 最终可以得到. A (i+1)(x(k))− A (i) (x(k)) = A (1)(x(k+i)) (14) 即有 A (i+1)(x(k)) = ∑ i h¯=0 A (1)(x(k+h¯)) (15) ζ(x(sj)) i A (i+1)(x(k)) ⩽ J J (i+1)(x(k)) J (i+1)(x(k)) ⩽ A (i+1)(x(k)) ⩽ J 0 ⩽ J (i) (x(k)) ⩽ J i ∈ N 考虑到 的容许性. 可知对于任意的迭代 指标 , 都有 成立. 由于式 (11) 中的迭 代代价函数 包含了最小化运算, 可以进 一步得到 . 于是, 考虑到 代价函数的非负性, 可以得到 , . 证毕. {J (i) } J (i) (x(k)) ⩽ J (i+1)(x(k)) i ∈ N 定理 2 迭代代价函数序列 是非减的, 即 , . {B (i) } B (0)(·) = 0 证 明 . 为了方便起见 , 定义一个新的序列 且初始值 . 该序列中的元素更新方式 如下: B (i+1)(x(k)) = U ( x(k),µ (i+1)(x(sj))) + B (i) (x(k+1)) (16) J (1)(x(k))− B (0)(x(k)) = U(x(k),µ (0)(x(sj)) ⩾ 0 B (0)(x(k)) ⩽ J (1)(x(k)) B (i−1)(x(k)) ⩽ J (i) (x(k)) i = 2,3,··· 利用数学归纳法,首先因为 , 可 以 得 到 不 等 式 . 然后, 假设 对于任意 状态向量都成立且 ,注意到式 (12) 和由 (16) 推得的表达式 B (i) (x(k)) = U(x(k),µ (i) (x(sj)))+ B (i−1)(x(k+1)) (17) 则有 B (i) (x(k))− J (i+1)(x(k)) = B (i−1)(x(k+1))− J (i) (x(k+1)) ⩽ 0 (18) i ∈ N B (i) (x(k)) ⩽ J (i+1)(x(k)) 因此, 可以得到对于任意 , 都有 成立, 这样就完成了数学归纳证明. J (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) J (i) (x(k)) ⩽ B (i) (x(k)) ⩽ J (i+1)(x(k)) 考虑到式 (11) 中代价函数 的导出方 式, 则有 . 因此, 最终得到不等式 . 证毕. {J (i) } i → ∞ J (∞) 根据定 理 1 和 定 理 2, 迭代代价函数序列 是收敛的. 令当 时的迭代代价函数为 . 考虑式 (11) 且根据定理 2 的结论, 则有 J (∞) (x(k)) ⩾ J (i+1)(x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (i) (x(k+1))}, i ∈ N (19) 当 i → ∞时, 进一步有 J (∞) (x(k)) ⩾ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (20) 反之, 根据式 (11) 和定理 2, 有下式成立: J (i+1)(x(k)) ⩽ U(x(k),µ(x(sj)))+ J (i) (x(k+1)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)), i ∈ N (21) 当 i → ∞时, 可得对于任意的 µ(x(sj)), 都有 J (∞) (x(k)) ⩽ U(x(k),µ(x(sj)))+ J (∞) (x(k+1)) (22) 于是, 可得 J (∞) (x(k)) ⩽ min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (23) 综合式 (20) 和 (23),最终得到 J (∞) (x(k)) = min µ(x(sj )) {U(x(k),µ(x(sj)))+ J (∞) (x(k+1))} (24) {J (i) } J (∞) J (i) (x(k)) → J (∞) (x(k)) = J ∗ (x(k)) i → ∞ µ (i) (x(sj)) → µ ∗ (x(sj)) 比较式 (7) 和 (24), 可以得到迭代序列 的 极限, 即 , 正是代价函数的最优值. 因此, 有 成立. 同理, 当 时, 也有 成立, 这可以看做一个 推论. 2.2 基于神经网络的 HDP 技术实现 在实现迭代自适应评判算法时, 需要建立两 个神经网络, 即评判网络和执行网络, 分别用于输 出近似代价函数和近似控制律. 评判网络输出迭代代价函数的近似值, 即 Jˆ (i+1)(x(k)) = ω (i+1)T c σ ( ν (i+1)T c x(k) ) (25) 结合式 (12), 训练误差准则为 E (i+1) c (k) = 1 2 [ Jˆ (i+1)(x(k))− J (i+1)(x(k))]2 (26) 这里涉及的权重矩阵更新方式为 ω (i+1) c (l+1)−ω (i+1) c (l) = −ηc ∂E (i+1) c (k) ∂ω (i+1) c (l) (27a) ν (i+1) c (l+1)−ν (i+1) c (l) = −ηc ∂E (i+1) c (k) ∂ν (i+1) c (l) (27b) ηc > 0 l ω (i+1) c (l) ν (i+1) c (l) l 式中, 是评判网络的学习率, 是内循环的迭 代指标. 其中, 和 是权重矩阵的第 次 迭代值. 执行网络输出迭代控制函数的近似值, 即 µˆ (i) (x(sj)) = ω (i)T a σ ( ν (i)T a x(sj) ) (28) · 414 · 工程科学学报,第 44 卷,第 3 期