第06讲反向传播网络 给定任意E>0和任意La函数f:[0,1∈R→Rm,存在一个三层BP网络,可以在 任意E平方误差精度内逼近∫ 实现任意N个输入向量构成的任何布尔函数的前向网络所需权系数数目为 1+log, N 我们前面讲到的感知器神经网络和线性神经元网络均为单层网络结构,其传递函数都十 分简单,感知器为单边符号函数,线性神经网络为纯线性函数。在此,我们将上面网络结构 进行推广,推广到多层网络,并且将传递函数变为非线性可微分函数,这就是BP网络。 反向传播网络( Back-Propagation Network,简称BP网络)是将W-H学习规则一般化, 对非线性可微分函数进行权值训练的多层网络。 由于感知器神经网络中神经元的变换函数采用符号函数,其输出为二值量,因此它主要 用于模式分类。BP网络是一种多层前向反馈神经网络,其神经元的变换函数是S型函数, 因此输出量为0到1之间的连续量,它可以实现从输入到输出的任意的非线性映射。由于其 权值的调整采用反向传播( Backpropagation)的学习算法,因此被称为BP网络 BP网络主要用于 1)函数逼近:用输入矢量和相应的输出矢量训练一个网络逼近一个函数 2)模式识别:用一个特定的输出矢量将它与输入矢量联系起来 3)分类:把输入矢量以所定义的合适方式进行分类 4)数据压缩:减少输出矢量维数以便于传输或存储。 在人工神经网络的实际应用中,80%~90%的人工神经网络模型是采用BP网络或它的 变化形式,它也是前向网络的核心部分,体现了人工神经网络最精华的部分。在人们掌握反 向传播网络的设计之前,感知器和自适应线性元件都只能适用于对单层网络模型的训练,只 是后来才得到了进一步拓展
1 第 06 讲 反向传播网络 给定任意 0 和任意 L2 函数 :[0,1]n n m f R R → ,存在一个三层 BP 网络,可以在 任意 平方误差精度内逼近 f 。 实现任意 N 个输入向量构成的任何布尔函数的前向网络所需权系数数目为: 2 1 log N W N + 我们前面讲到的感知器神经网络和线性神经元网络均为单层网络结构,其传递函数都十 分简单,感知器为单边符号函数,线性神经网络为纯线性函数。在此,我们将上面网络结构 进行推广,推广到多层网络,并且将传递函数变为非线性可微分函数,这就是 BP 网络。 反向传播网络(Back—Propagation Network,简称 BP 网络)是将 W—H 学习规则一般化, 对非线性可微分函数进行权值训练的多层网络。 由于感知器神经网络中神经元的变换函数采用符号函数,其输出为二值量,因此它主要 用于模式分类。BP 网络是一种多层前向反馈神经网络,其神经元的变换函数是 S 型函数, 因此输出量为 0 到 1 之间的连续量,它可以实现从输入到输出的任意的非线性映射。由于其 权值的调整采用反向传播(Backpropagation)的学习算法,因此被称为 BP 网络。 BP 网络主要用于: 1)函数逼近:用输入矢量和相应的输出矢量训练一个网络逼近—个函数; 2)模式识别:用一个特定的输出矢量将它与输入矢量联系起来; 3)分类:把输入矢量以所定义的合适方式进行分类; 4)数据压缩:减少输出矢量维数以便于传输或存储。 在人工神经网络的实际应用中,80%~90%的人工神经网络模型是采用 BP 网络或它的 变化形式,它也是前向网络的核心部分,体现了人工神经网络最精华的部分。在人们掌握反 向传播网络的设计之前,感知器和自适应线性元件都只能适用于对单层网络模型的训练,只 是后来才得到了进一步拓展
6.1BP网络模型与结构 一个具有r个输入和一个隐含层的神经网络模型结构如图6.1所示 SIrr ,网 k A2 l q [2 sIxl 2 i=1,2,…,s1;k=l,2,…,s2; j=l,2,…,r 图6.1具有一个隐含层的神经网络模型结构图 感知器和自适应线性元件的主要差别在激活函数上:前者是二值型的,后者是线性的。 BP网络具有一层或多层隐含层,除了在多层网络上与前面已介绍过的模型有不同外,其主 要差别也表现在激活函数上。BP网络的激活函数必须是处处可微的,所以它就不能采用二 值型的阀值函数{0,1}或符号函数{—1,1},BP网络经常使用的是S型的对数或正切激活 函数和线性函数 图6.2所示的是S型激活函数的图形。可以看到f()是一个连续可微的函数,其 阶导数存在。对于多层网络,这种激活函数所划分的区域不再是线性划分,而是由一个非线 性的超平面组成的区域。它是比较柔和、光滑的任意界面,因而它的分类比线性划分精确 合理,这种网络的容错性较好。另外一个重要的特点是由于激活函数是连续可微的,它可以 严格利用梯度法进行推算,它的权值修正的解析式十分明确,其算法被称为误差反向传播法, 也简称BP算法,这种网络也称为BP网络
2 6.1 BP 网络模型与结构 一个具有 r 个输入和一个隐含层的神经网络模型结构如图 6.1 所示。 图 6.1 具有一个隐含层的神经网络模型结构图 感知器和自适应线性元件的主要差别在激活函数上:前者是二值型的,后者是线性的。 BP 网络具有一层或多层隐含层,除了在多层网络上与前面已介绍过的模型有不同外,其主 要差别也表现在激活函数上。BP 网络的激活函数必须是处处可微的,所以它就不能采用二 值型的阀值函数{0,1}或符号函数{—1,1},BP 网络经常使用的是 S 型的对数或正切激活 函数和线性函数。 图 6.2 所示的是 S 型激活函数的图形。可以看到 f(·)是一个连续可微的函数,其一 阶导数存在。对于多层网络,这种激活函数所划分的区域不再是线性划分,而是由一个非线 性的超平面组成的区域。它是比较柔和、光滑的任意界面,因而它的分类比线性划分精确、 合理,这种网络的容错性较好。另外一个重要的特点是由于激活函数是连续可微的,它可以 严格利用梯度法进行推算,它的权值修正的解析式十分明确,其算法被称为误差反向传播法, 也简称 BP 算法,这种网络也称为 BP 网络
图6.2BP网络S型激活函数 因为S型函数具有非线性放大系数功能,它可以把输入从负无穷大到正无穷大的信号, 变换成-1到1之间输出,对较大的输入信号,放大系数较小;而对较小的输入信号,放大系 数则较大,所以采用S型激活函数可以去处理和逼近非线性的输入输出关系。不过,如果 在输出层采用S型函数,输出则被限制到一个很小的范围了,若采用线性激活函数,则可 使网络输出任何值。所以只有当希望对网络的输出进行限制,如限制在0和1之间,那么在 输出层应当包含S型激活函数,在一般情况下,均是在隐含层采用S型激活函数,而输出 层采用线性激活函数 BP网络的特点 输入和输出是并行的模拟量 2、网络的输入输出关系是各层连接的权因子决定,没有固定的算法; 3、权因子是通过学习信号调节的,这样学习越多,网络越聪明 4、隐含层越多,网络输出精度越高,且个别权因子的损坏不会对网络输出产生大的影 6.2BP学习规则 BP网络的产生归功于BP算法的获得。BP算法属于δ算法,是一种监督式的学习算法。 其主要思想为:对于q个输入学习样本:P,P2,P,已知与其对应的输出样本为:T T2,T。学习的目的是用网络的实际输出A,A2,…A,与目标矢量T,T2,T, 之间的误差来修改其权值,使A,(=l,2…,q)与期望的T尽可能地接近;即:使网络输 出层的误差平方和达到最小。它是通过连续不断地在相对于误差函数斜率下降的方向上计算 网络权值和偏差的变化而逐渐逼近目标的。每一次权值和偏差的变化都与网络误差的影响成
3 图 6. 2 BP 网络 S 型激活函数 因为 S 型函数具有非线性放大系数功能,它可以把输入从负无穷大到正无穷大的信号, 变换成-1 到 l 之间输出,对较大的输入信号,放大系数较小;而对较小的输入信号,放大系 数则较大,所以采用 S 型激活函数可以去处理和逼近非线性的输入/输出关系。不过,如果 在输出层采用 S 型函数,输出则被限制到一个很小的范围了,若采用线性激活函数,则可 使网络输出任何值。所以只有当希望对网络的输出进行限制,如限制在 0 和 1 之间,那么在 输出层应当包含 S 型激活函数,在一般情况下,均是在隐含层采用 S 型激活函数,而输出 层采用线性激活函数。 BP 网络的特点: 1、 输入和输出是并行的模拟量; 2、 网络的输入输出关系是各层连接的权因子决定,没有固定的算法; 3、 权因子是通过学习信号调节的,这样学习越多,网络越聪明; 4、 隐含层越多,网络输出精度越高,且个别权因子的损坏不会对网络输出产生大的影 响。 6.2 BP 学习规则 BP 网络的产生归功于 BP 算法的获得。BP 算法属于δ算法,是一种监督式的学习算法。 其主要思想为:对于 q 个输入学习样本:P 1,P 2,……P q,已知与其对应的输出样本为:T 1, T 2,……T q。学习的目的是用网络的实际输出 A1,A2,……Aq,与目标矢量 T 1,T 2,……T q, 之间的误差来修改其权值,使 Al,(l=l,2…,q)与期望的 T l 尽可能地接近;即:使网络输 出层的误差平方和达到最小。它是通过连续不断地在相对于误差函数斜率下降的方向上计算 网络权值和偏差的变化而逐渐逼近目标的。每一次权值和偏差的变化都与网络误差的影响成
正比,并以反向传播的方式传递到每一层的 BP算法是由两部分组成:信息的正向传递与误差的反向传播。在正向传播过程中,输 入信息从输入经隐含层逐层计算传向输出层,每一层神经元的状态只影响下一层神经元的状 态。如果在输出层没有得到期望的输出,则计算输出层的误差变化值,然后转向反向传播, 通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标。 为了明确起见,现以图6.1所示两层网络为例进行BP算法推导,其简化图如图6.3 所 w2 ki k k=l,2,,s2;i=1,2,…,sl, j=l,2,…,F 图6.3具有一个隐含层的简化网络图 设输入为P,输入神经元有r个,隐含层内有sl个神经元,激活函数为F1,输出层内 有s2个神经元,对应的激活函数为F2,输出为A,目标矢量为T 6.2.1信息的正向传递 1)隐含层中第i个神经元的输出为: nl2=∫1(∑w1j+b1),i=1,2,…,.l (6.1) 2)输出层第k个神经元的输出为
4 正比,并以反向传播的方式传递到每一层的。 BP 算法是由两部分组成:信息的正向传递与误差的反向传播。在正向传播过程中,输 入信息从输入经隐含层逐层计算传向输出层,每一层神经元的状态只影响下一层神经元的状 态。如果在输出层没有得到期望的输出,则计算输出层的误差变化值,然后转向反向传播, 通过网络将误差信号沿原来的连接通路反传回来修改各层神经元的权值直至达到期望目标。 为了明确起见,现以图 6.1 所示两层网络为例进行 BP 算法推导,其简化图如图 6.3 所。 图 6.3 具有一个隐含层的简化网络图 设输入为 P,输入神经元有 r 个,隐含层内有 s1 个神经元,激活函数为 F1,输出层内 有 s2 个神经元,对应的激活函数为 F2,输出为 A,目标矢量为 T。 6.2.1 信息的正向传递 1)隐含层中第 i 个神经元的输出为: (6.1) 2)输出层第 k 个神经元的输出为:
2 k=f2(>w2kiali +b2k),k=1, = 3)定义误差函数为: EW,B)=∑(tk-a2k) 6.2.2利用梯度下降法求权值变化及误差的反向传播 (1)输出层的权值变化 对从第i个输入到第k个输出的权值有: dE de da2 2k=-n n ki k ki η(t ali sn o kia 其中 6=(tk-a2)=ek2 (6.5)(6.6) 同理可得: E dE 12k △b2ki=-n 0b2 n k da2k a62 ki m(tk-a2k)·f2′=n·8k (2)隐含层权值变化 对从第j个输入到第i个输出的权值,有: E E dwi dali dwi ∑ k)·∫2′·w2kif1′·pj=η·8i·pj 其中
5 (6.2) 3)定义误差函数为: (6.3) 6.2.2 利用梯度下降法求权值变化及误差的反向传播 (1)输出层的权值变化 对从第 i 个输入到第 k 个输出的权值有: (6.4) 其中: (6.5)(6.6) 同理可得: (6.7) (2)隐含层权值变化 对从第 j 个输入到第 i 个输出的权值,有: (6.8) 其中: