第6章神经网络控制 教学内容 首先介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方法。然后讲授典型的前向神经网 络、反馈神经网络的原理、结构、基本算法,给岀了BP网络的算法改进。最后介绍了神经网络PID控制。 教学重点 1.神经网络的各种学习算法,神经网络的训练。 2.感知器网络、BP网络的结构和算法、BP网络学习算法的改进,反馈网络的结构、学习算法。 3.神经网络PID控制 教学难点 神经网络的各种学习算法以及神经网络PD控制。 教学要求 1.理解神经网络的基本概念。 2.掌握无监督Hebb学习规则、有监督的学习规则或 Widow-Ho学习规则、有监督Hebb学习规则 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法 4.掌握BP网络的算法改进。 5.了解和掌握神经网络PID控制。 61概述 基于人工神经网络的控制(ANN- based Control)简称神经控制( Neural Control)。神经网络是由大量人工 神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出 来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网终特性应用 于控制领域,可使控制系统的智能化向前迈进一大步。 随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的 对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括- 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。 本节将介绍人工神经网络的基本概念和ANN的特性,以及神经网络的学习方 611生物神经元模型 人脑大约包含102个神经元,分成约1000种类型,每个神经元大约与102~104个其他神经元相连接,形成 极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的 连接却可以演化出丰富多彩的行为方式。同时,如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴 含了变化莫测的反应方式 个神经元结构的模型示意图如图所示。 由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔 基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有 许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可 能包有一层厚的绝缘组织,称为髓鞘(梅林鞘),髋鞘规则地分为许多短段,段与段之间的部位称为郎飞节( Ranvier
第6章 神经网络控制 教学内容 首先介绍人工神经网络的基本概念和 ANN 的特性,以及神经网络的学习方法。然后讲授典型的前向神经网 络、反馈神经网络的原理、结构、基本算法,给出了 BP 网络的算法改进。最后介绍了神经网络 PID 控制。 教学重点 1. 神经网络的各种学习算法,神经网络的训练。 2. 感知器网络、BP 网络的结构和算法、BP 网络学习算法的改进,反馈网络的结构、学习算法。 3. 神经网络 PID 控制。 教学难点 神经网络的各种学习算法以及神经网络 PID 控制。 教学要求 1.理解神经网络的基本概念。 2.掌握无监督 Hebb 学习规则、有监督的 学习规则或 Widow-Hoff 学习规则、有监督 Hebb 学习规则。 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法。 4.掌握 BP 网络的算法改进。 5.了解和掌握神经网络 PID 控制。 6.1 概述 基于人工神经网络的控制(ANN—based Control)简称神经控制(Neural Control)。神经网络是由大量人工 神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出 来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网络特性应用 于控制领域,可使控制系统的智能化向前迈进一大步。 随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的 对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括一 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。 本节将介绍人工神经网络的基本概念 和 ANN 的特性,以及神经网络的学习方法。 6.1.1 生物神经元模型 人脑大约包含 1012 个神经元,分成约 1000 种类型,每个神经元大约与 102 ~104 个其他神经元相连接,形成 极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的 连接却可以演化出丰富多彩的行为方式。同时,如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴 含了变化莫测的反应方式。 一个神经元结构的模型示意图如图所示。 由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔 基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有 许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可 能包有一层厚的绝缘组织,称为髓鞘(梅林鞘),髋鞘规则地分为许多短段,段与段之间的部位称为郎飞节(Ranvier 节)
V 梅林鞘 轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们 同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经 元的树突称为突触的后膜;前膜和后膜两者之间的窄缝空间称为突触的间隙,前一个神经元的信息由其轴突传到 末梢之后,通过突触对后面各个神经元产生影响。 从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性: 1.时空整合功能 神经元对于不同时间通过同一突触传入的神经冲动,具有时间整合功能;对于同一时间通过不同突触传人的 神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴 奋的受体电位或突触电位的代数和。 2.兴奋与抑制状态 神经元具有两种常规工作状态:兴奋——一当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作 电位的阈值(约为40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制—一当传人冲动的时空整 合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴 奋、抑制”状态 3.脉冲与电位转换 突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离 散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子 化学方式实现(电脉冲一神经化物质一膜电位)的变换过程。 4.神经纤维传导速度 神经冲动沿神经传导的速度在1~150m/s之间,因纤维的粗细、髓鞘的有无而有所不同:有髓鞘的粗纤维, 其传导速度在100m/s以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5.突触延时和不应期 突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期 间对激励不响应,不能传递神经冲动。 6.学习、遗忘和疲劳 由于结构可塑性,突触的传递作用可增强、减弱和饱和,所以细胞具有相应的学习功能,遗忘或疲劳效应(饱 和效应)。 随着脑科学和生物控制论研究的进展,人们对神经元的结构和功能有了进一步的了解,神经元并不是一个筒 单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.12人工神经元模型 人工神经元是对生物神经元的一种模拟与简化,它是神经网络的基本处理单元。如图所示为一种简化的人工 神经元结构。它是一个多输入、单输出的非线性元件
轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们 同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经 元的树突称为突触的后膜;前膜和后膜两者之间的窄缝空间称为突触的间隙,前一个神经元的信息由其轴突传到 末梢之后,通过突触对后面各个神经元产生影响。 从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性: 1. 时空整合功能 神经元对于不同时间通过同一突触传入的神经冲动,具有时间整合功能;对于同一时间通过不同突触传人的 神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴 奋的受体电位或突触电位的代数和。 2. 兴奋与抑制状态 神经元具有两种常规工作状态:兴奋——当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作 电位的阈值(约为 40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制——当传人冲动的时空整 合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴 奋、抑制”状态。 3. 脉冲与电位转换 突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离 散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子 化学方式实现(电脉冲—神经化物质—膜电位)的变换过程。 4. 神经纤维传导速度 神经冲动沿神经传导的速度在 1~150 m/s 之间,因纤维的粗细、髓鞘的有无而有所不同:有髓鞘的粗纤维, 其传导速度在 100 m/s 以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5. 突触延时和不应期 突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期 间对激励不响应,不能传递神经冲动。 6. 学习、遗忘和疲劳 由于结构可塑性,突触的传递作用可增强、减弱和饱和,所以细胞具有相应的学习功能,遗忘或疲劳效应(饱 和效应)。 随着脑科学和生物控制论研究的进展,人们对神经元的结构和功能有了进一步的了解,神经元并不是一个筒 单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.1.2 人工神经元模型 人工神经元是对生物神经元的一种模拟与简化,它是神经网络的基本处理单元。如图所示为一种简化的人工 神经元结构。它是一个多输入、单输出的非线性元件
∑|f(:)) 其输入、输出关系为 1=∑vx- y1=f(1) 其中,x(=1,2∴…,m)是从其他神经元传来的输入信号;w表示从神经元j到神经元i的连接权值:为阙值 f(°)称为激发函数或作用函数 方便起见,常把-θ,也看成是恒等于1的输x0的权值,因此上式可写成: l1=∑wn 其中:wo=-日,xo=1。 输出激发函数f(·又称为变换函数,它决定神经元(节点)的输出。该输出为1或0,取决于其输入之和 大于或小于内部阈值O。f(·)函数一般具有非线性特性。下图为几种常见的激发函数图 1.阈值型函数(见图a,b) 当y取0或1时,f(x)为图(a)所示的阶跃函数: l,x≥0 f(x)= x<0 当y取-1或1时,f(x)为图(b)所示的sgn函数(符号函数) ≥0 sgn(x)=f(x) 2.饱和型函数(见图(c)) x≥l/k f(x)={kx-1/k≤x<l/k x<1/k
其输入、输出关系为: ∑= = − n j i ij j i I w x 1 θ ( ) i i y = f I 其中,x ( j 1,2, ,n) j = ⋅⋅⋅ 是从其他神经元传来的输入信号;wij 表示从神经元 j 到神经元 i 的连接权值;θ i 为阈值; f (•) 称为激发函数或作用函数。 方便起见,常把 −θ i 也看成是恒等于 1 的输 0 x 的权值,因此上式可写成: ∑= = n j i ij j I w x 0 其中: w0i = −θ i , x0 = 1。 输出激发函数 f (•) 又称为变换函数,它决定神经元(节点)的输出。该输出为 1 或 0,取决于其输入之和 大于或小于内部阈值θ i 。 f (•) 函数一般具有非线性特性。下图为几种常见的激发函数图。 1. 阈值型函数(见图 a,b) 当 i y 取 0 或 1 时, f (x) 为图(a)所示的阶跃函数: ⎩ ⎨ ⎧ < ≥ = 0, 0 1, 0 ( ) x x f x 当 i y 取-1 或 1 时, f (x) 为图(b)所示的 sgn 函数(符号函数): ⎩ ⎨ ⎧ − < ≥ = = 1, 0 1, 0 sgn( ) ( ) x x x f x 2. 饱和型函数(见图(c)) ⎪ ⎩ ⎪ ⎨ ⎧ − < − ≤ < ≥ = x k kx k x k x k f x 1 1/ 1/ 1/ 1 1/ ( )
fax) fCr) f(x)↓p=5 3.双曲函数(见图d) f(x)=tanh(x) 4.S型函数(见e) 神经元的状态与输入作用之间的关系是在(0,1)内连续取值的单调可微函数,称为 Sigmoid函数,简称S 型函数。 当β趋于无穷时,S型曲线趋于阶跃函数,通常情况下,β取值为1。 f(x) 1+e -,B>0 5.高斯函数(见图f) 在径向基函数( Radial Basis function,RBF)构成的神经网络中,神经元的结构可用高斯函数描述如下: f(x)=e-x2182 613人工神经网络模型 人工神经网络是以工程技术手段来模拟人脑神经网络的结构与特征的系统。利用人工神经元可以构成各种不 同拓扑结构的神经网络,它是生物神经网络的一种模拟和近似。目前已有数十种不同的神经网络模型,其中前馈 型网络和反馈型网络是两种典型的结构模型 1.前馈型神经网络 前馈型神经网络,又称前向网络( Feed forward nN)。如图所示,神经元分层排列,有输入层、隐层(亦称 中间层,可有若干层)和输出层,每一层的神经元只接受前一层神经元的输入 输入层 输出层 从学习的观点来看,前馈网络是一种强有力的学习系统,其结构简单而易于编程;从系统的观点看,前馈网 络是一静态非线性映射,通过简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。但从计算的观点 看,缺乏丰富的动力学行为。大部分前馈网络都是学习网络,它们的分类能力和模式识别能力一般都强于反馈网 络,典型的前馈网络有感知器网络、BP网络等
3. 双曲函数(见图 d) f (x) = tanh(x) 4. S 型函数(见 e) 神经元的状态与输入作用之间的关系是在(0,1)内连续取值的单调可微函数,称为 Sigmoid 函数,简称 S 型函数。 当 β 趋于无穷时,S 型曲线趋于阶跃函数,通常情况下, β 取值为 1。 , 0 1 exp( ) 1 ( ) > + − = β βx f x 5. 高斯函数(见图 f) 在径向基函数(Radial Basis Function,RBF)构成的神经网络中,神经元的结构可用高斯函数描述如下: 2 2 / ( ) x δ f x e − = 6.1.3 人工神经网络模型 人工神经网络是以工程技术手段来模拟人脑神经网络的结构与特征的系统。利用人工神经元可以构成各种不 同拓扑结构的神经网络,它是生物神经网络的一种模拟和近似。目前已有数十种不同的神经网络模型,其中前馈 型网络和反馈型网络是两种典型的结构模型。 1. 前馈型神经网络 前馈型神经网络,又称前向网络(Feed forward NN)。如图所示,神经元分层排列,有输入层、隐层(亦称 中间层,可有若干层)和输出层,每一层的神经元只接受前一层神经元的输入。 从学习的观点来看,前馈网络是一种强有力的学习系统,其结构简单而易于编程;从系统的观点看,前馈网 络是一静态非线性映射,通过简单非线性处理单元的复合映射,可获得复杂的非线性处理能力。但从计算的观点 看,缺乏丰富的动力学行为。大部分前馈网络都是学习网络,它们的分类能力和模式识别能力一般都强于反馈网 络,典型的前馈网络有感知器网络、BP 网络等
2.反馈型神经网络 反馈型神经网络( Feedback NN)的结构如图所示。如果总节点(神经元)数为N,那么每个节点有N个输 入和一个输出,所有节点都是一样的,它们之间都可相互连接。 反馈神经网络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。 Hopfield神经网络是反馈网络中 最简单且应用广泛的模型,它具有联想记忆的功能,如果将 Lyapunov函数定义为寻优函数, Hopfield神经网络 还可以用来解决快速寻优问题。 614神经网络的学习方法 学习方法是体现人工神经网络智能特性的主要标志,正是由于有学习算法,人工神经网络就具有了自适应、 自组织和自学习的能力。目前神经网络的学习方法有多种,按有无导师来分类,可分为有教师学习( Supervised Learning)、无教师学习( Unsupervised Learning)和再励学习( Reinforcement Learning)等几大类。在有教师的 学习方式中,网络的输出和期望的输出(即教师信号)进行比较,然后根据两者之间的差异调整网络的权值,最 终使差异变小。在无教师的学习方式中,输入模式进人网络后,网络按照预先设定的规则(如竞争规则)自动调 整权值,使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。 下面介绍神经网络中常用的几种最基本的学习方法。 1.Hebb学习规则 Heb学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如,在空间和时间上 相互接近的事物间,在性质上相似(或相反)的事物间都容易在人脑中引起联想。生物学家 D O. Hebbian基于 对生物学和心理学的研究,提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋,即 两个神经元同时处于激发状态时,它们之间的连接强度将得到加强,这一论述的数学描述被称为Hebb学习规则, 其中,w(k)为连接从神经元i到神经元j的当前权值;,l为神经元的激活水平。 Heb学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称 为相关学习或并联学习。 当神经元由下式描述时, 1=∑ y1=f(1)=1/(1+exp(-l1) Hebb学习规则可写成如下: k+1)=(k)+yy 另外,根据神经元状态变化来调整权值的Hebb学习方法称为微分Hebb学习方法,可描述为 W(k+1)=wn(k)+Dy(k)-y(k-1)y(k)-y(k-1)
2. 反馈型神经网络 反馈型神经网络(Feedback NN)的结构如图所示。如果总节点(神经元)数为 N,那么每个节点有 N 个输 入和一个输出,所有节点都是一样的,它们之间都可相互连接。 反馈神经网络是一种反馈动力学系统,它需要工作一段时间才能达到稳定。Hopfield 神经网络是反馈网络中 最简单且应用广泛的模型,它具有联想记忆的功能,如果将 Lyapunov 函数定义为寻优函数,Hopfie1d 神经网络 还可以用来解决快速寻优问题。 6.1.4 神经网络的学习方法 学习方法是体现人工神经网络智能特性的主要标志,正是由于有学习算法,人工神经网络就具有了自适应、 自组织和自学习的能力。目前神经网络的学习方法有多种,按有无导师来分类,可分为有教师学习(Supervised Learning)、无教师学习(Unsupervised Learning)和再励学习(Reinforcement Learning)等几大类。在有教师的 学习方式中,网络的输出和期望的输出(即教师信号)进行比较,然后根据两者之间的差异调整网络的权值,最 终使差异变小。在无教师的学习方式中,输入模式进人网络后,网络按照预先设定的规则(如竞争规则)自动调 整权值,使网络最终具有模式分类等功能。再励学习是介于上述两者之间的一种学习方式。 下面介绍神经网络中常用的几种最基本的学习方法。 1.Hebb 学习规则 Hebb 学习规则是一种联想式学习方法。联想是人脑形象思维过程的一种表现形式。例如,在空间和时间上 相互接近的事物间,在性质上相似(或相反)的事物间都容易在人脑中引起联想。生物学家 D.○.Hebbian 基于 对生物学和心理学的研究,提出了学习行为的突触联系和神经群理论。他认为突触前与突触后二者同时兴奋,即 两个神经元同时处于激发状态时,它们之间的连接强度将得到加强,这一论述的数学描述被称为 Hebb 学习规则, 即 ij ij i j w (k +1) = w (k) + I I 其中, w (k) ij 为连接从神经元 i 到神经元 j 的当前权值; i I , j I 为神经元的激活水平。 Hebb 学习规则是一种无教师的学习方法,它只根据神经元连接间的激活水平改变权值,因此这种方法又称 为相关学习或并联学习。 当神经元由下式描述时, ( ) 1/(1 exp( )) i i i i ij j j y f I I I w x = = + − = ∑ −θ Hebb 学习规则可写成如下: ij ij i j w (k +1) = w (k) + y y 另外,根据神经元状态变化来调整权值的 Hebb 学习方法称为微分 Hebb 学习方法,可描述为 w (k +1) = w (k) + [ y (k) − y (k −1)][y (k) − y (k −1)] ij ij i i j j