第章 行为学习论 第二节操作性条件反射论 斯金纳(见图6-2)1904年出生于宾夕法尼亚州的一个小镇上。父亲是一位律 师。斯金纳从小善于制造各种各样的机械装置,如小雪橇、喷枪【》等 等。天生灵巧的双手为他以后的研究事业制造出许多灵巧的实验 装置,包括著名的斯金纳箱。斯金纳在大学时主修英文,希望成 为作家。可是经过两年的尝试之后,他终于发现自已“没有什么 重要的话要讲”。他因为偶尔读到华生和巴甫洛夫的书而对心理 学产生兴趣,于是从未学习过心理学的斯金纳来到哈佛大学心理 学研究所,以每天不列人作息表的时间不超过15分钟的高度自 律和勤奋开始了他成为世界一流心理学家的生涯。他是操作性条 件反射理论的创立人,新行为主义的主要代表。斯金纳一生著述 颇丰,其中《有机体的行为》(1938)、《沃尔登第二》(1948)、 图6-2斯金纳 《科学和人类行为》(1953)、《强化的程序》(1957)、《超越自由与尊严》(1971)、 《关于行为主义》(1974)等都是影响颇大的力作。斯金纳殊荣不断的辉煌人生终止于 1990年8月。 与当时大多数行为主义者一样,斯金纳对有机体内部机制的研究没有兴趣,而是致 力于研究环境刺激与行为学习之间的联系。斯金纳一生都是一个忠实的操作主义者,他 对操作性条件反射,尤其是对强化的深人而精细的研究是他最为突出的贡献。 一、操作性条件反射与人类行为的学习 斯金纳设计制作了一些比桑代克的猫笼更为灵巧的箱子,即后来被广为称道的斯金 纳箱。在一只舒适的鼠箱的箱壁上安装着一根能活动的横竿,它的下面正对着一只小食 盘和喷水口。这样,只要小鼠的前爪有意或无意地搭在横竿上,一粒食丸就会自动落入 食盘中。同时,连接在笼外的一些设备就会画出一条线来,一分钟 一分钟地记录小鼠按 下横竿的次数。这个自动化的装置不仅能更方便、有效地收集数据,而且不需要人专门 去看着实验小鼠,不用看着它何时按横竿,并适时地送上食丸或水。由于可以免去实验 人员的陪同,小鼠按横竿的频率和时间间距完全由它自己来决定,同时;如果需要的 话,实验者也可以很方便地控制给予食丸或水的频率或时间间距。这样,斯金纳顺理成 章地将他的行为学习的原理建立在“反应概率”的基础之上 据此,斯金纳给了“学习” 一个行为主义的定义:学习即行为反应概率的变化。 斯金纳认为,一切行为都是由反射构成的,而反射的基本要素是刺激$和反应R。行为 学习理论所面临的任务,就是指出引起行为反应概率变化的条件,并提出一种分析各种 环境刺激的功能的方法,以决定和预测有机体的行为如何习得、改变和消退等。 ·191·
格 理学 斯金纳把有机体的反应分为两类:一类是应答性反应。这类反应是由已知的、先行 的刺激($)引发的,正如巴甫洛夫的经典条件反射实验所描述的那样,实验狗分泌唾 液的应答性行为往往是随意的和本能性的行为,狗对无条件或条件刺激被动地作出反 应,没有先行的刺激就没有后继的反应。另一类是操作性反应。这类反应可以利用安排 结果性的、后继的刺激一斯金纳称为强化物、强化刺激 一而得到巩固或消退,这正 是他的操作性条件反射理论所关注的核心。这种反应大多是随意的或有目的的行为,有 机体能以自己的某种操作行为主动地作用于环境以达到对环境的有效适应。他进一步认 为,经典条件反射理论在解释应答性行为时是确切的,但是人和动物的许多行为反应并 不是由明显的刺激引发的,人类的绝大多数有意义的行为都是操作性的,我们完全可以 通过研究强化物的作用机制、呈现方式来观察有机体反应概率的变化,探讨人类行为学 习的条件和规律 斯金纳很少提到人格、行为风格,在他看来,人格仅仅是通过操作性条件反射的强 化而形成的一种惯常性的行为方式。如果我们能认识、操纵、预测人的行为,那么也就 没有什么人格问题是不能解释和解决的。 二、强化与强化的原理 强化在斯金纳的行为学习理论中占有极其重要的地位,是其理论的核心概念之一。 在斯金纳的实验中,刺激往往是在动物做出某一种操作行为之后出现的。例如,食丸是 白鼠按压横竿之后落入箱中的,是该操作行为带来的“结果”。如果某一结果性的刺激 使这一操作行为发生的概率增加,那么这一刺激就是这一操作行为的强化物(或称强 化刺激),利用强化物诱使某一操作行为的概率增加的过程就叫做强化。强化物在相应 的操作反应行为之后出现一次,我们就说这一操作反应行为得到了一次强化。 基于实验可以看出:首先,强化是针对行为反应而言的,而不是针对机体而言的, 我们可以说食丸强化了小鼠按横竿的反应行为,而不能说食丸对小鼠进行了强化。明白 这一点在个体的行为教导中具有现实的意义。我们在生活中经常听到这样的话:“这是 奖给你的!”“打的就是你!”好像我们给予奖励和惩罚不是因为对方的行为值得嘉奖或 惩戒,而仅仅因为他是他自己所以他就应该得到嘉奖或惩戒一样。这种“对人不对事” 而不是“对事不对人”的强化方针不仅不利于被强化者明确地意识到自己的行为与其 后果之间的直接联系,而且容易导致偏见的产生,以及自做或自卑心理的形成。其次 强化物并不一定是令人愉快的刺激。强化物的作用只在于提高有机体某项行为反应的概 率,与它是不是令人愉快并没有必然联系。赞扬一个人助人为乐的行为可以促使他下 次继续帮助别人,责备他见死不救也可能促使他下一次主动帮助别人,被责备显然不是 什么愉快刺激。 由于强化能够提高特定行为反应的强度,斯金纳认为,形成操作性条件反射的关键 就在于强化。例如,艾伦等人(1964)报告了这样一个案例:一个四岁的小女孩,聪 明而讨人喜欢,但具有不合群的性格特征。进入幼儿园后,她的不合群受到老师的特别 .192
第乐章 行为学习论 关注。这种关注不经意间强化着她的不合群行为,并形成了恶性循环。后来,老师改变 强化对象,强化她的合群行为,只在她和小朋友们一起时才关注她,当她离开小朋友想 和老师接触时,老师就停止对她的关注。这样一来,她与别的小朋友一起的时间明显增 加。12天后,老师再次强化她的不合群行为,她的孤独行为再次出现。在第17天,又 强化她的合群行为,她又开始接触小朋友们。后来,她的合群行为保持在一个相对稳定 的水平上。可见强化决定了人机体行为方式的形成、转化和消退的过程,也决定了行为 学习的进程和效果。只要合理地控制强化,就能达到控制行为、塑造行为的目的。斯金 纳对强化的原理作了广泛而精细的研究,提出了建立操作性条件反射的原则,探讨了强 化的类型、来源、方式等与人机体学习活动的关系 (一)建立操作性条件反射的原则 斯金纳提出了两条原则:①任何反应若有强化刺激随后呈现,都会具有重复出现的 倾向。②强化刺激可以是增强操作反应的概率的任何刺激物。他进一步指出,这两条原 则可以用来解释人类学习的许多现象。比如,孩子学会各种称谓,是因为他偶尔的一次 正确的称呼得到了强化:要矫正个体的不良行为,可以通过待他出现理想行为时给予适 宜的强化物来完成。个人的性格、社会规范、价值观实际上是由被社会强化了的个人特 征、行为方式和观念积淀而成的。 格林斯朋(Greenspoon,1955)用他的一些实验证明,上述两个原则在人类的行为 学习中同样适用,而且被试在整个学习过程中几乎意识不到它们在发生作用。他设置了 一种情境:当被试在与他进行轻松自如的交谈中说出一个复数名词时,他就发出 “1因 哼”的应答声。结果表明,这种方式提高了被试说出复数名词的频率,虽然没 有二个被试意识到自己的讲话行为正在发生改变。可见,即使是像“嗯一哼”这样 的声音也可以是一种有效的强化刺激。 (二】强化的类型 斯金纳按照强化的性质将强化分为正强化和负强化两种类型。在建立操作反应时, 如果呈现某一后继的刺激物,有机体的操作反应概率增加,那么该刺激物就是这一反应 的正强化物;如果撤去某一刺激物,有机体的反应概率增加,那么该刺激物就是这一反 应的负强化物。比如,在小鼠形成按横竿的操作条件反射中,食丸就可以作为正强化 物,而电击则可以是负强化物。呈现正强化物和撤去负强化物都可以增加按横竿的反应 的概率,因而这两种情祝都是在对操作行为进行强化,前者称为正强化,后者称为负强 化。另外,撤去正强化物和呈现负强化物都可能会导致某一操作行为概率下降,因而它 们是对该行为进行惩罚的过程。 正强化和负强化在人类行为学习中都是经常被运用的方法。比如,给予微笑、赞 扬、奖品,允许参加个体所喜爱的活动等,都是在对希望个体学会的某种行为或个性品 质进行正强化,而收回批评、停止打骂、取消个体参加某种讨厌的活动的义务等,都是 在对上述行为或个性品质进行负强化。 负强化和惩罚是两个截然不同的概念。负强化会导致反应概率的增高,而惩罚则导 ·193
格 理学 致反应概率的降低。斯金纳在对惩罚进行实验研究的基础上指出,一般而言,尽管惩罚 在矫正不良行为方面可能也是一种有效的方法,但是它在塑造行为中的效果不如强化 好,而且可能会带有很多消极的影响,因此,应该有条件地使用。 (三)强化物的来源 斯金纳按强化物的来源,把它们分为一级强化物和二级强化物。一级强化物是指那 些不需学习也能起强化作用的刺激,如食物、水等满足基本生理需要的物品;二级强化 物是指那些开始时不具有强化作用,但后来由于经常与一级强化物或其他强化物联系在 起而具有了强化作用的刺激物,对于人类个体而言,诸如特权、财富、名声、地位、 分数、认可、表扬、关注等都可能是二级强化物。那些与许多一级强化物联系在一起的 二级强化物叫做概括化的强化物,金钱和母亲就是如此。二级强化物在特定的社会文化 中起作用,对人的行为有着极大的影响力。斯金纳曾指出,一个守财奴被金钱强化得如 此之深,以致他情愿饿死也不愿花去一分钱。可见,在人类的行为学习中,强化物不仅 作为特殊的反馈信息控制着个体对自己行为和个性品质的认识和评价,也是直接调动个 体的行为动机的重要激励因素」 事实上,能够作为强化物的刺激是多种多样的,同样的强化刺激对于不同的个体和 不同行为反应而言,其强化的效果也是不尽相同的。在行为塑造和行为矫正的过程中 选择适当的、有效的强化物是一门学问,也是一门艺术。比如,一位体育老师的女儿从 小跟随父亲每天早晨训练跑步,已经养成了习惯,一天不跑就会若有所失,并多次在各 种运动会上取得名次。她刚上初中时,由于不爱记单词,英语成绩不太好。她的父母和 她一起订下学习计划,每天晚上如果记不下当天的单词,第二天就不能和父亲一起去跑 步,而必须在家学英语。经过一个月的实践,她的英语成绩很快好了起来。很显然,不 能去跑步作为一种特殊的强化刺邀,对于其他许多孩子而言,可能不仅不是惩罚,反而 是一种有效的奖励。 (四)强化的安排 斯金纳将强化按间隔时间和频率特征分为两大类:一是连续强化,即每一次正确反 应后都给予一次强化;二是间歇强化。在实际的生活中,连续强化的情况是比较少的, 绝大多数时候我们遇到的都是间歇强化。正如斯金纳提到的那样,当我们去溜冰或滑雪 时,我们并不是总能找到好的冰地或雪地…当我们打电话给朋友时,朋友并不是总在 家…因此,在工业和教育方面,几乎总是以间歇强化为其特征的,斯金纳于是对间歇 强化作了更为详细的研究。 间歌强化又可以有两种安排方式:根据反应次数决定的比例强化和根据反应时间间 隔决定的时间间隔强化。 在比例强化中,可以按固定比例进行强化,比如,每10次正确反应后给一次强化 计件取酬就是固定比例的强化,要想取得更多的酬金,就必须努力多干活,而且个体能 够根据自己所完成的任务明确地知道自己可以得到多少酬金;规定孩子把钢琴曲每弹奏 5遍就可以去玩10分钟,也是固定比例的强化,如果孩子想去玩,就得尽快完成弹奏 ·194
第金 行为学习论 任务。 比例强化也可以按变化的比例进行强化,比如,每100次正确反应中随机安排10 次强化。在这种强化安排方式中,个体不是每10次正确反应都会有一次强化,而是平 均每10次反应能够得到1次强化。因此,正如赌博机或推销员一样,有时两次强化之 间的反应次数可能很少,能连续地赚钱或成交;而另一些时候两次强化之间的反应次数 可能很多,要连续地输钱或失败。不过,在这种强化方式下,个体反应频率越高,可能 得到的强化就会越多。赌徒和推销员都深谙此道,因此,他们表现出如上足了发条一般 的狂热和痴迷也就不足为奇。可见,这种强化方式能产生的反应速度非常高。 在按时间间隔进行强化时,可以按固定时间间隔进行强化,比如,每隔10分钟给 一次强化。计时取酬,如每月10号领取月薪;定期考试,如期中、期末考试;限时任 务,如规定孩子把钢琴曲每弹奏30分钟就可以去玩10分钟。这些都是固定时距的强 化。这种强化方式很快就导致个体出现“平时不烧香,临时抱佛脚”的反应风格:到 临近强化出现的时间时“发疯似的工作”,一旦强化获得,工作热情一落千丈,要等下 次强化快来之前才会重新打起精神。 按时间间隔强化也可以是按变化的时间间隔进行强化,比如,每60分钟内随机安 排6次强化。老板每隔或长或短的一段时间给工人发些奖金,教师时不时提醒一下不守 纪律的学生,规定孩子每弹奏30分钟钢琴曲中一共可以出去玩3次、每次5分钟等, 都是变化时距的强化。与固定时距的强化相比,变化时距的强化能使行为反应保持得更 久。比如,每周一评就是一种固定时距的强化模式,学生在一周开始时懒散松懈,自律 行为减少,而到周末时表现积极,自律行为明显增加,而如果采用随时点评的方式则会 保持较长时间的自律。 可见,上述这些不同的强化方式所导致的行为习得的速度、反应的强度和行为消退 的速度是不同的。一般而言,连续强化比间隔强化习得行为的速度要快;固定强化方式 中的动物每得到一次强化后反应的速度都会下降,此后逐渐加快反应速度,直到下一次 强化到来;相比固定的强化方式而言,变化的强化方式安排下行为消退得更慢。我们可 以根据控制学习过程的实际要求来选择强化类型和决定何时、怎样给予强化,即将上述 的强化方式组合起来使用。因此,建立某一操作反应的最佳的训练组合可能是:最初使 用连续强化,然后是固定时间间隔的强化,最后是变化比例强化。 (五)行为的消退、自然恢复、类化与分化 斯金纳发现,当小鼠通过食丸强化学会按横竿后,拆除小食盘,使小鼠按横竿后不 再有食丸出现,则小鼠按横竿的行为逐渐消退成学习之前的偶然行为。这种现象就是行 为的消退,即如果操作性条件反射被一种随后出现的强化物所强化,那么,将该强化物 撒除,此操作性反应就会随之消退,直到恢复到最初未被强化时的水平。 1.行为的消退 行为的消退和行为的建立是相反的过程。斯金纳十分重视消退的作用。按照他的观 点,行为建立和行为消退能够说明我们的许多人格现象的共同规律:受到强化的行为得 到建立和保持,没有得到强化的行为自行消失。那么对于改变行为的任务而言,其基本 195