感知器的表征能力(3) 因为所有的布尔函数都可表示为基于原子函数 的互连单元的某个网络,因此感知器网络可以 表示所有的布尔函数。事实上,只需要两层深 度的网络,比如表示析取范式 注意,要把一个AND感知器的输入求反只要简 单地改变相应输入权的符号 因为感知器网络可以表示大量的函数,而单独 的单元不能做到这一点,所以我们感兴趣的是 学习感知器组成的多层网络 2003.12.18机器学习-人工神经网络作者: Mitchel译者:曾华军等讲者:陶晓鹏 16
2003.12.18 机器学习-人工神经网络作者:Mitchell 译者:曾华军等讲者:陶晓鹏 16 感知器的表征能力(3) • 因为所有的布尔函数都可表示为基于原子函数 的互连单元的某个网络,因此感知器网络可以 表示所有的布尔函数。事实上,只需要两层深 度的网络,比如表示析取范式 • 注意,要把一个AND感知器的输入求反只要简 单地改变相应输入权的符号 • 因为感知器网络可以表示大量的函数,而单独 的单元不能做到这一点,所以我们感兴趣的是 学习感知器组成的多层网络
感知器训练法则 虽然我们的目的是学习由多个单元互连的网络,但我 们还是要从如何学习单个感知器的权值开始 单个感知器的学习任务,决定一个权向量,它可以使 感知器对于给定的训练样例输出正确的1或-1 我们主要考虑两种算法 感知器法则 delta法则 这两种算法保证收敛到可接受的假设,在不同的条件 下收敛到的假设略有不同 这两种算法提供了学习多个单元构成的网络的基础 2003.12.18机器学习-人工神经网络作者: Mitchel译者:曾华军等讲者:陶晓鹏 17
2003.12.18 机器学习-人工神经网络作者:Mitchell 译者:曾华军等讲者:陶晓鹏 17 感知器训练法则 • 虽然我们的目的是学习由多个单元互连的网络,但我 们还是要从如何学习单个感知器的权值开始 • 单个感知器的学习任务,决定一个权向量,它可以使 感知器对于给定的训练样例输出正确的1或-1 • 我们主要考虑两种算法 – 感知器法则 – delta法则 • 这两种算法保证收敛到可接受的假设,在不同的条件 下收敛到的假设略有不同 • 这两种算法提供了学习多个单元构成的网络的基础
感知器法则 算法过程 从随机的权值开始 反复应用这个感知器到每个训练样例,只要它误分 类样例就修改感知器的权值 重复这个过程,直到感知器正确分类所有的训练样 例 ·感知器训练法则 V←+△ 其中 △w1=nx(t-o)x 2003.12.18机器学习-人工神经网络作者: Mitchel译者:曾华军等讲者:陶晓鹏 18
2003.12.18 机器学习-人工神经网络作者:Mitchell 译者:曾华军等讲者:陶晓鹏 18 感知器法则 • 算法过程 – 从随机的权值开始 – 反复应用这个感知器到每个训练样例,只要它误分 类样例就修改感知器的权值 – 重复这个过程,直到感知器正确分类所有的训练样 例 • 感知器训练法则 其中 wi wi + wi i i w =(t −o)x
感知器法则(2) 为什么这个更新法则会成功收敛到正确 的权值呢? 些例子 可以证明( Minsky& Papert1969 如果训练样例线性可分,并且使用了充分小的n ·否则,不能保证 2003.12.18机器学习-人工神经网络作者: Mitchel译者:曾华军等讲者:陶晓鹏
2003.12.18 机器学习-人工神经网络作者:Mitchell 译者:曾华军等讲者:陶晓鹏 19 感知器法则(2) • 为什么这个更新法则会成功收敛到正确 的权值呢? – 一些例子 – 可以证明(Minskey & Papert 1969) • 如果训练样例线性可分,并且使用了充分小的 • 否则,不能保证
梯度下降和 delta法则 delta法则克服感应器法则的不足,在线性不可 分的训练样本上,收敛到目标概念的最佳近似 delta法则的关键思想是,使用梯度下降来搜索 可能的权向量的假设空间,以找到最佳拟合训 练样例的权向量 dela法则为反向传播算法提供了基础,而反向 传播算法能够学习多个单元的互连网络 对于包含多种不同类型的连续参数化假设的假 设空间,梯度下降是必须遍历这样的空间的所 有算法的基础 2003.12.18机器学习-人工神经网络作者: Mitchel译者:曾华军等讲者:陶晓鹏 20
2003.12.18 机器学习-人工神经网络作者:Mitchell 译者:曾华军等讲者:陶晓鹏 20 梯度下降和delta法则 • delta法则克服感应器法则的不足,在线性不可 分的训练样本上,收敛到目标概念的最佳近似 • delta法则的关键思想是,使用梯度下降来搜索 可能的权向量的假设空间,以找到最佳拟合训 练样例的权向量 • delta法则为反向传播算法提供了基础,而反向 传播算法能够学习多个单元的互连网络 • 对于包含多种不同类型的连续参数化假设的假 设空间,梯度下降是必须遍历这样的空间的所 有算法的基础