2. Delta(d)学习规则 假设下列误差准则函数: E=∑(dn-yn)2=∑En 其中,d,代表期望的输出(教师信号);yp=f(Wx)为网络的实际输出:W是网络的所有权值组成的向量 w=u ] X为输入模式:X=【xm,x;…“,xm,训练样本数P=12…P 可用梯度下降法来调整权值W,使准则函数最小。其求解基本思想是沿着E的负梯度方向不断修正W值, 直到E达到最小,这种方法的数学表 vw=n( W dE 其中 用日表示WX,则有 dE. dE 00 oE ay Xn=-d-y,)f(0,)x W的修正规则为 △W (d,-y f(8)x 上式称为δ学习规则,又称误差修正规则。定义误差传播函数δ为 aEaE ay P δ规则实现了E中的梯度下降,因此使误差函数达到最小值。但δ学习规则只适用于线性可分函数,无法 用于多层网络。BP网络的学习算法称为BP算法,是在δ规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数T。T越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T越小时 情形正相反。概率式学习的典型代表是 boltzmann机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 boltzmann机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: △W=(P-P)
2.Delta(δ )学习规则 假设下列误差准则函数: ∑ ∑ = = = − = p p p p p p Ep E d y 1 1 2 2 1 ( ) 其中,d p 代表期望的输出(教师信号); ( ) p WX p y = f 为网络的实际输出;W 是网络的所有权值组成的向量: T W w w wn [ , , , ] 0 1 = ⋅⋅⋅⋅⋅⋅ X p 为输入模式: T p p p pn X [x , x , , x ] 0 1 = ⋅⋅⋅⋅⋅⋅ ,训练样本数 p = 1,2,⋅⋅⋅⋅⋅⋅, P 。 可用梯度下降法来调整权值W ,使准则函数最小。其求解基本思想是沿着 E 的负梯度方向不断修正W 值, 直到 E 达到最小,这种方法的数学表达式为: ( ) Wi E W ∂ ∂ ∇ =η − ∑= ∂ ∂ = ∂ ∂ p p i p i W E W E 1 其中: 2 2 1 ( ) p p p E = d − y 用θ p 表示WX p ,则有 ip p p p ip p p p p i p p p i p X d y f X y y E W E W E ( ) ( ) ' θ θ θ θ = − − ∂ ∂ ∂ ∂ = ∂ ∂ ∂ ∂ = ∂ ∂ W 的修正规则为 ∑= Δ = − p p i p p p Xip W d y f 1 ' η ( ) (θ ) 上式称为δ 学习规则,又称误差修正规则。定义误差传播函数δ 为 p p p p p p y y E E θ θ δ ∂ ∂ ∂ ∂ = − ∂ ∂ = δ 规则实现了 E 中的梯度下降,因此使误差函数达到最小值。但δ 学习规则只适用于线性可分函数,无法 用于多层网络。BP 网络的学习算法称为 BP 算法,是在δ 规则基础上发展起来的,可在多网络上有效地学习。 3.概率式学习 从统计力学、分子热力学和概率论中关于系统稳态能量的标准出发,进行神经网络学习的方式称概率式学习。 神经网络处于某一状态的概率主要取决于在此状态下的能量,能量越低,概率越大。同时,此概率还取决于温度 参数 T。T 越大,不同状态出现概率的差异便越小,较容易跳出能量的局部极小点而到全局的极小点;T 越小时, 情形正相反。概率式学习的典型代表是 Boltzmann 机学习规则。它是基于模拟退火的统计优化方法,因此又称模 拟退火算法。 Boltzmann 机模型是一个包括输入、输出和隐含层的多层网络,但隐含层间存在互联结构并且网络层次不明 显。对于这种网络的训练过程,就是根据规则: ( ) ' ij ij ij ΔW =η p − p
对神经元,j间的连接权值进行调整的过程。式中,7为学习速率:P表示网络受到学习样本的约束且系统达 到平衡状态时第i个和第j个神经元同时为1的概率;PG表示系统为自由运转状态且达到平衡状态时第i个和第 j个神经元同时为1的概率 调整权值的原则是:当P>P时,则权值增加,否则减少权值。这种权值调整公式称为 boltzmann机学习 规则,即 W(k+1)=n(k)+0(P-P2,7>0 当Pg-P小于一定容限时,学习结束 由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成 局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习 竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接,以及同一层内距离 很近的神经元间发生同样的兴奋性联接,而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制 的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识 竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需 执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自 适应共振网络模型 Adaptive Resonance Theory ART) 自组织神经网络要求识别与输入最匹配的节点,定义距离d,为接近距离测度,即 d1=∑(u1-)2 其中,u为N维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入更敏感。 定义N,其半径逐渐减小至接近于零,权值的学习规则为 a(u i∈N 0 N 在这类学习规则中,关键不在于实节点的输出怎样与外部的期望输出相一致,而在于调整权向量以反映观察 事件的分布,提供基于检测特性空间的活动规律的性能描写 从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元 间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通 过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化 求解等功能,这是一个正在发展中的研究课题。 62前向神经网络 621感知器网络 感知器( perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络 它主要用于模式分类,单层的感知器网络结构如下图所示
对神经元 i,j 间的连接权值进行调整的过程。式中,η 为学习速率; pij 表示网络受到学习样本的约束且系统达 到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率; ' ij p 表示系统为自由运转状态且达到平衡状态时第 i 个和第 j 个神经元同时为 1 的概率。 调整权值的原则是:当 ' ij ij p > p 时,则权值增加,否则减少权值。这种权值调整公式称为 Boltzmann 机学习 规则,即 ( 1) ( ) ( ), 0 ' Wij k + = wij k +η pij − pij η > 当 ' ij ij p − p 小于一定容限时,学习结束。 由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成 局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习 竞争式学习属于无教师学习方式。此种学习方式利用不同层间的神经元发生兴奋性联接,以及同一层内距离 很近的神经元间发生同样的兴奋性联接,而距离较远的神经元产生抑制性联接。在这种联接机制中引人竞争机制 的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识 别。 竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需 执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自 适应共振网络模型 Adaptive Resonance Theory ART)。 自组织神经网络要求识别与输入最匹配的节点,定义距离 d j 为接近距离测度,即 ∑ − = = − 1 0 2 ( ) N i d j ui wij 其中,u 为 N 维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入u 更敏感。 定义 Nc ,其半径逐渐减小至接近于零,权值的学习规则为 ⎩ ⎨ ⎧ ∉ − ∈ Δ = c i ij c ij i N u w i N w 0 α( ) 在这类学习规则中,关键不在于实节点的输出怎样与外部的期望输出相一致,而在于调整权向量以反映观察 事件的分布,提供基于检测特性空间的活动规律的性能描写。 从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元 间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通 过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化 求解等功能,这是一个正在发展中的研究课题。 6.2 前向神经网络 6.2.1 感知器网络 感知器(perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络。 它主要用于模式分类,单层的感知器网络结构如下图所示
其中X=[x,x2…x是输入特征向量:y(=12;…m)为输出量,是按照不同特征分类的结果:v是x 到ν的连接权值,此权值是可调整的,因而有学习功能 由于按不同特征的分类是相互独立的,因而可以取出其中的一个神经元来讨论,如图所示。 为方便起见,令输入量x0=1,将阈值并入权中(因为6值也需要学习),-b=W0,感知器的输入输出 关系可表示为 fC∑mx) 当其输入的加权和大于或等于阈值时,输出为1,否则为-1(或为0)。 下面给出感知器的一种学习算法 1).随机地给定一组连接权w(O)(较小的非零值),这里w,(k)为k时刻第i个输入上的权(≤i≤m) 0(k)为k时刻的阈值。 2)输入一组样本X=(x0,x1…x)和期望的输出d(亦称之为教师信号)。如果X∈A类(某一类),则 y4=1,如果X∈B类(另一类),则y4=-1 3).计算感知器实际输出 1,∑(k)x,≥0 y(k)=f(∑v(k)x) 1,∑w(k) xo=1,w0(0)=-6) 按下式修正权值:
其中 T n X [x , x , , x ] 1 2 = ⋅⋅⋅ 是输入特征向量;y (i 1,2, ,m) i = ⋅⋅⋅ 为输出量,是按照不同特征分类的结果;wij 是 j x 到 i y 的连接权值,此权值是可调整的,因而有学习功能。 由于按不同特征的分类是相互独立的,因而可以取出其中的一个神经元来讨论,如图所示。 为方便起见,令输入量 x0 = 1,将阈值θ 并入权中(因为θ 值也需要学习),−θ = w0 ,感知器的输入输出 关系可表示为 ( ) 0 ∑= = n i i i y f w x 当其输入的加权和大于或等于阈值时,输出为 1,否则为-1(或为 0)。 下面给出感知器的一种学习算法: 1). 随机地给定一组连接权 (0) wi (较小的非零值),这里 w (k) i 为 k 时刻第 i 个输入上的权 (1 ≤ i ≤ n) , ( ) 0 w k 为k 时刻的阈值。 2). 输入一组样本 ( , , , ) 0 1 n X = x x ⋅⋅⋅ x 和期望的输出 d (亦称之为教师信号)。如果 X∈A 类(某一类),则 yd = 1,如果 X∈B 类(另一类),则 yd = −1。 3). 计算感知器实际输出: ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ − < ≥ = = ∑ ∑ ∑ − − = n i i i n i n i i i i i w k x w k x y k f w k x 0 0 0 1, ( ) 0 1, ( ) 0 ( ) ( ( ) ) ( 1, (0) ) x0 = w0 = −θ 4). 按下式修正权值: