觉相反。 高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯诺依曼计算机,以 纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作, 人们自然地想像脑是某种形式相当复杂的冯·诺依曼计算机。这种比较,如果陷入极端的话, 将导致不切实际的理论。 计算机是构建在固有的高速组件之上的。即便是个人计算机,其基本周期,或称时钟频率, 也高于每秒1000万次操作。相反地,一个神经元的典型发放率仅仅在每秒100个脉冲的范 围内。计算机要快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来, 计算机的操作是序列式的,即一条操作接着一条操作。与此相反,脑的工作方式则通常是大 规模并行的,例如,从每只眼晴到达脑的轴突大约有100万个,它们全都同时工作。在系统 中这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元 行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行 为。用专业术语讲,脑被称作“故障弱化”(degrade gracefully)。而计算机则是脆弱的,哪 怕是对它极小的损伤,或是程序中的一个小错误,也会引起大的灾难。计算机中出现错误则 是灾难性的(degrade catastrophically)。 计算机在工作中是高度稳定的。因为其单个组件是很可靠的,当给定相同的输入时通常产 生完全同样的输出。反之,单个神经元则具有更多的变化。它们受可以调节其行为的信号所 支配,有些特性边“计算”边改变。 一个典型的神经元可能具有来自各处的上百乃至数万个输入,其轴突又有大量投射。而计 算机的一个基本元件一一晶体管,则只有极少数的输入和输出。 在计算机中,信息被编码成由0和1组成的脉冲序列。计算机通过这种形式高度精确地将 信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址,提取或者改变那里所 贮存的内容。这样就能够将信息存入记忆体的某个特殊位置,并在以后的某些时刻进一步加 以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式(而 不仅仅是其平均发放率)可能携带某些信息,但并不存在精确的由脉冲编码的信息。①这样, 记忆必然将以不同的形式“存贮”。 脑看起来一点也不像通用计算机。脑的不同部分,甚至是新皮层的不同部分,都是专门用 来处理不同类型的信息的(至少在某种程度上是这样的)。看来大多数记忆存贮在进行当前 操作的那个地方。所有这些与传统的冯·诺依曼计算机完全不同,因为执行计算机的基本操 作(如加法乘法等等)仅在一个或少数几个地方,而它的记忆却存贮在许多很不同的地方。 最后,计算机是由工程师精心设计出来的,而脑则是动物经自然选择一代又一代进化而来
觉相反。 高速数字计算机是近 50 年来最重要的技术发展之一。它时常被称作冯.诺依曼计算机,以 纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作, 人们自然地想像脑是某种形式相当复杂的冯·诺依曼计算机。这种比较,如果陷入极端的话, 将导致不切实际的理论。 计算机是构建在固有的高速组件之上的。即便是个人计算机,其基本周期,或称时钟频率, 也高于每秒 1000 万次操作。相反地,一个神经元的典型发放率仅仅在每秒 100 个脉冲的范 围内。计算机要快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来, 计算机的操作是序列式的,即一条操作接着一条操作。与此相反,脑的工作方式则通常是大 规模并行的,例如,从每只眼睛到达脑的轴突大约有 100 万个,它们全都同时工作。在系统 中这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元 行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行 为。用专业术语讲,脑被称作“故障弱化”(degrade gracefully)。而计算机则是脆弱的,哪 怕是对它极小的损伤,或是程序中的一个小错误,也会引起大的灾难。计算机中出现错误则 是灾难性的(degrade catastrophically)。 计算机在工作中是高度稳定的。因为其单个组件是很可靠的,当给定相同的输入时通常产 生完全同样的输出。反之,单个神经元则具有更多的变化。它们受可以调节其行为的信号所 支配,有些特性边“计算”边改变。 一个典型的神经元可能具有来自各处的上百乃至数万个输入,其轴突又有大量投射。而计 算机的一个基本元件——晶体管,则只有极少数的输入和输出。 在计算机中,信息被编码成由 0 和 1 组成的脉冲序列。计算机通过这种形式高度精确地将 信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址,提取或者改变那里所 贮存的内容。这样就能够将信息存入记忆体的某个特殊位置,并在以后的某些时刻进一步加 以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式(而 不仅仅是其平均发放率)可能携带某些信息,但并不存在精确的由脉冲编码的信息。①这样, 记忆必然将以不同的形式“存贮”。 脑看起来一点也不像通用计算机。脑的不同部分,甚至是新皮层的不同部分,都是专门用 来处理不同类型的信息的(至少在某种程度上是这样的)。看来大多数记忆存贮在进行当前 操作的那个地方。所有这些与传统的冯·诺依曼计算机完全不同,因为执行计算机的基本操 作(如加法.乘法等等)仅在一个或少数几个地方,而它的记忆却存贮在许多很不同的地方。 最后,计算机是由工程师精心设计出来的,而脑则是动物经自然选择一代又一代进化而来
的。这就产生了如第一章所述的本质上不同的设计形式。 人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件(计算机程序)时几乎 不必了解硬件(回路等)的细节,所以人们一一特别是心理学家一一争论说没必要了解有关 脑的“硬件”的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的,脑的硬 件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度 并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制,因而,在脑 的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。 人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行,因而擅长解决 诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没 有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察 物体并理解其意义,即便是最现代的计算机也显得无能为力。 近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计 使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由 一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等 类似问题,其基本要素在多处出现。此时超级计算机特别有用。 人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算 中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程 序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为 可能性较小的结论。 在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特 别是在记忆的存贮上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似 性可能会有困难。 一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为PDP 方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。在1943年沃仑·麦 卡洛克(Warrenc MeCulloch)和沃尔特·皮兹(Walter Pitts)的工作是这方面最早的尝试之 一。他们表明,在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算 术函数进行计算。因为网络的单元有些像大大简化的神经元,它现在常被称作“神经网络”。 这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现 代计算机的设计有所帮助,但它的最引人注目的结论就脑而言则是极端错误的。 下一个重要的进展是弗兰克·罗森布拉特(Frank Rosenblatt)发明的一种非常简单的单层
的。这就产生了如第一章 所述的本质上不同的设计形式。 人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件(计算机程序)时几乎 不必了解硬件(回路等)的细节,所以人们——特别是心理学家——争论说没必要了解有关 脑的“硬件”的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的,脑的硬 件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度 并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制,因而,在脑 的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。 人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行,因而擅长解决 诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没 有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察 物体并理解其意义,即便是最现代的计算机也显得无能为力。 近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计 使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由 一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等 类似问题,其基本要素在多处出现。此时超级计算机特别有用。 人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算 中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程 序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为 可能性较小的结论。 在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特 别是在记忆的存贮上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似 性可能会有困难。 一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为 PDP 方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。在 1943 年沃仑·麦 卡洛克(Warrenc McCulloch)和沃尔特·皮兹(Walter Pitts)的工作是这方面最早的尝试之 一。他们表明,在原则上由非常简单的单元连接在一起组成的“网络”可以对任何逻辑和算 术函数进行计算。因为网络的单元有些像大大简化的神经元,它现在常被称作“神经网络”。 这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现 代计算机的设计有所帮助,但它的最引人注目的结论就脑而言则是极端错误的。 下一个重要的进展是弗兰克·罗森布拉特(Frank Rosenblatt)发明的一种非常简单的单层
装置,他称之为感知机(Perceptron)。意义在于,虽然它的连接最初是随机的,它能使用一 种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置 的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或是错误。你只需告诉它 它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森 布拉特证明,对于某一类简单的问题一一“线性可分”的问题一一感知机通过有限次训练就 能学会正确的行为。 由于这个结果在数学上很优美,从而吸引了众人的注目。只可惜它时运不济,它的影响很 快就消退了。马文·明斯基(Mar VinMinsky)和西摩·佩伯特(Segmour Papert)证明感知机 的结构及学习规则无法执行“异或问题”(如,判断这是苹果还是桔子,但不是二者皆是), 因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性。这在许多年内扼杀了 人们对感知机的兴趣(明斯基后来承认做得过分了)。此问大部分工作将注意力转向人工智 能方法。① 用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似 任务),这是可能的。这种网络必定具有许多不同层次上的连接,问题在于,对哪些最初是 随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了 解答,而不是把感知机打入死路的话,他们的贡献会更大些。 下一个引起广泛注意的发展来自约翰·霍普菲尔德(John Hop-field),一位加利福尼亚州 理工学院的物理学家,后来成为分子生物学家和脑理论家。1982年他提出了一种网络,现 在被称为霍普菲尔德网络(见图53)。这是一个具有自反馈的简单网络。每个单元只能有两 种输出:一1(表示抑制)或十1(表示兴奋)。但每个单元具有多个输入。每个连接均被 指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个 总和大于0则置输出状态为十1(平均而言,当单元兴奋性输入大于抑制性输人时,则输出 为正),否则就输出一1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发 生了改变而改变。 尽管如此,仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格 (stephen Grossberg),吉姆·安德森(Jim Anderson),托伊沃科霍宁(TeuvoKohonen) 和戴维·威尔肖(Devid Willshaw)。(2)每个输入对单元的影响是将当前的输入信号(+1 或-1)与其相应的权值相乘而得到的。(如果当前信号是-1,权重是+2,则影响为-2。) 计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。①在霍普菲尔德网络中, 所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行,霍普菲尔德从理论上 证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也 不会进入振荡,而是迅速达到一个稳态。①
装置,他称之为感知机(Perceptron)。意义在于,虽然它的连接最初是随机的,它能使用一 种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置 的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或是错误。你只需告诉它 它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森 布拉特证明,对于某一类简单的问题——“线性可分”的问题——感知机通过有限次训练就 能学会正确的行为。 由于这个结果在数学上很优美,从而吸引了众人的注目。只可惜它时运不济,它的影响很 快就消退了。马文·明斯基(MarVinMinsky)和西摩·佩伯特(Segmour Papert)证明感知机 的结构及学习规则无法执行“异或问题”(如,判断这是苹果还是桔子,但不是二者皆是), 因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性。这在许多年内扼杀了 人们对感知机的兴趣(明斯基后来承认做得过分了)。此问大部分工作将注意力转向人工智 能方法。① 用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似 任务),这是可能的。这种网络必定具有许多不同层次上的连接,问题在于,对哪些最初是 随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了 解答,而不是把感知机打入死路的话,他们的贡献会更大些。 下一个引起广泛注意的发展来自约翰·霍普菲尔德(John Hop-field),一位加利福尼亚州 理工学院的物理学家,后来成为分子生物学家和脑理论家。1982 年他提出了一种网络,现 在被称为霍普菲尔德网络(见图 53)。这是一个具有自反馈的简单网络。每个单元只能有两 种输出:一 1(表示抑制)或十 1(表示兴奋)。但每个单元具有多个输入。每个连接均被 指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个 总和大于 0 则置输出状态为十 1(平均而言,当单元兴奋性输入大于抑制性输人时,则输出 为正),否则就输出一 1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发 生了改变而改变。 尽管如此,仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格 (stephen Grossberg),吉姆·安德森(Jim Anderson),托伊沃.科霍宁(TeuvoKohonen) 和戴维·威尔肖(Devid Willshaw)。(2)每个输入对单元的影响是将当前的输入信号(+1 或-1)与其相应的权值相乘而得到的。(如果当前信号是-1,权重是+2,则影响为-2。) 计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。①在霍普菲尔德网络中, 所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行,霍普菲尔德从理论上 证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也 不会进入振荡,而是迅速达到一个稳态。①
霍普菲尔德的论证令人信服,表达也清晰有力。他的网络对数学家和物理学家有巨大的吸 引力,他们认为终于找到了一种他们可以涉足脑研究的方法(正如我们在加利福尼亚州所说 的)。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。 如何调节所有这些连接的强度呢?l94年,加拿大心理学家唐纳德·赫布(DonaldHebb) 出版了《行为的组织》一书。当时人们就像现在一样普遍相信,在学习过程中,一个关键因 素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加 其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中 有一个后来被广泛引用的段落:“当细胞A的一个轴突和细胞B很近,足以对它产生影响, 并且持久地、不断地参与了对细胞B的兴奋,那么在这两个细胞或其中之一会发生某种生 长过程或新陈代谢变化,以致于A作为能使B兴奋的细胞之一,它的影响加强了。”这个 机制以及某些类似规则,现在称为“赫布律”。 霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种 模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具 有相反的输出,则两个权重均设为-1。大致他说,每个单元激励它的“朋友”并试图削弱它 的“敌人”。 霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该 状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模 式的一小部分作为“线索”,它在经过短暂的演化后,会稳定在正确的输出即整个模式上, 在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地 从某些仅仅与其存贮的“记忆”接近的东西中恢复出该记忆,此外,这种记忆也被称作是按 “内容寻址”的一一即它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。 输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。 请注意记忆并不必存贮在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模 式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为0), 但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳 定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保 持)。你能记住大量现在一时想不起来的事情。 神经网络(特别是霍普菲尔德网络)能“记住”一个模式,但是除此以外它还能再记住第 二个模式吗?如果几个模式彼此不太相似,一个网络是能够全部记住这几个不同模式,即给 出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个 记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可 能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常 不会显著改变网络的行为
霍普菲尔德的论证令人信服,表达也清晰有力。他的网络对数学家和物理学家有巨大的吸 引力,他们认为终于找到了一种他们可以涉足脑研究的方法(正如我们在加利福尼亚州所说 的)。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。 如何调节所有这些连接的强度呢?194 年,加拿大心理学家唐纳德·赫布(DonaldHebb) 出版了《行为的组织》一书。当时人们就像现在一样普遍相信,在学习过程中,一个关键因 素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加 其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中 有一个后来被广泛引用的段落:“当细胞 A 的一个轴突和细胞 B 很近,足以对它产生影响, 并且持久地、不断地参与了对细胞 B 的兴奋,那么在这两个细胞或其中之一会发生某种生 长过程或新陈代谢变化,以致于 A 作为能使 B 兴奋的细胞之一,它的影响加强了。”这个 机制以及某些类似规则,现在称为“赫布律”。 霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种 模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具 有相反的输出,则两个权重均设为-1。大致他说,每个单元激励它的“朋友”并试图削弱它 的“敌人”。 霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该 状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模 式的一小部分作为“线索”,它在经过短暂的演化后,会稳定在正确的输出即整个模式上, 在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地 从某些仅仅与其存贮的“记忆”接近的东西中恢复出该记忆,此外,这种记忆也被称作是按 “内容寻址”的——即它没有通常计算机中具有的分离的、唯一用于作为“地址”的信号。 输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。 请注意记忆并不必存贮在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模 式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为 0), 但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳 定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保 持)。你能记住大量现在一时想不起来的事情。 神经网络(特别是霍普菲尔德网络)能“记住”一个模式,但是除此以外它还能再记住第 二个模式吗?如果几个模式彼此不太相似,一个网络是能够全部记住这几个不同模式,即给 出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个 记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可 能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常 不会显著改变网络的行为
为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容 易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输 出。① 有人提出这是我们做梦时出现的现象(弗洛伊德称之为“凝聚”一一condensation),但 这是题外话。值得注意的是,所有这些特性是“自然发生”的。它们并不是网络设计者精心 设置的,而是由单元的本性、它们连接的模式以及权重调节规则所决定的。 霍普菲尔德网络还有另一个性质,即当几个输人事实上彼此大致相似时,在适当计算网络 的连接权重后,它“记住”的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。 对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉 得它是一样的。输入是相似但不同的,而输出一一我们所听到的一一则是一样的。 这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为 有所了解,即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络 中,此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马 中有一个称为CA3的区域,它的连接事实上很像一个按内容寻址的网络。当然,这是否正 确尚需实验检验。 有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此 重叠地存贮在一起:全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降:全 息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类 比。几乎可以肯定这种比较是没有价值的。原因有两个。详细的数学分析表明神经网络和全 息图在数学上是不同的。更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元 构建的,没有证据表明脑中具有全息图所需的装置或处理过程。(1) 一本更新的书产生了巨大的冲击力,这就是戴维·鲁梅尔哈特(David Rumelhart)、詹姆 斯·麦克莱兰(James McClelland)和PDP小组所编的一套很厚的两卷著作《平行分布式处 理》(1)。该书于1986年问世,并很快至少在学术界成为最畅销书。名义上我也是PDP小 组的成员,并和浅沼智行(Chiko Asanuma)合写了其中的一个章节。不过我起的作用很小。 我几乎只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。 加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约一英里。在70年代末80 年代初我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如 今已变成了巨大的停车场。生活的步伐越来越快,我现在己改为驱车飞驰于两地之间了。 研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久麦克莱兰就离开前往东海岸
为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容 易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输 出。① 有人提出这是我们做梦时出现的现象(弗洛伊德称之为“凝聚”——condensation),但 这是题外话。值得注意的是,所有这些特性是“自然发生”的。它们并不是网络设计者精心 设置的,而是由单元的本性、它们连接的模式以及权重调节规则所决定的。 霍普菲尔德网络还有另一个性质,即当几个输人事实上彼此大致相似时,在适当计算网络 的连接权重后,它“记住”的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。 对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉 得它是一样的。输入是相似但不同的,而输出——我们所听到的——则是一样的。 这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为 有所了解,即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络 中,此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马 中有一个称为 CA3 的区域,它的连接事实上很像一个按内容寻址的网络。当然,这是否正 确尚需实验检验。 有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此 重叠地存贮在一起;全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降;全 息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类 比。几乎可以肯定这种比较是没有价值的。原因有两个。详细的数学分析表明神经网络和全 息图在数学上是不同的。更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元 构建的,没有证据表明脑中具有全息图所需的装置或处理过程。(1) 一本更新的书产生了巨大的冲击力,这就是戴维·鲁梅尔哈特(David Rumelhart)、詹姆 斯·麦克莱兰(James McClelland)和 PDP 小组所编的一套很厚的两卷著作《平行分布式处 理》(1)。该书于 1986 年问世,并很快至少在学术界成为最畅销书。名义上我也是 PDP 小 组的成员,并和浅沼智行(Chiko Asanuma)合写了其中的一个章节。不过我起的作用很小。 我几乎只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。 加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约一英里。在 70 年代末 80 年代初我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如 今已变成了巨大的停车场。生活的步伐越来越快,我现在已改为驱车飞驰于两地之间了。 研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久麦克莱兰就离开前往东海岸