第6卷第1期 智能系统学报 Vol.6 No.1 2011年2月 CAAI Transactions on Intelligent Systems Feb.2011 doi:10.3969/i.i8gn.1673-4785.2011.01.001 视错觉现象的分类和研究进展 刘宏12,李哲媛2,许超12 (1.北京大学信息科学技术学院,北京100871;2.北京大学机器感知与智能教育部重点实验室,北京100871) 摘要:视错觉指的是人或动物观察物体时,基于知觉经验或不当参照等形成的与客观事实不一致的特定感知.它 能从独特的角度显示出视觉系统的认知功能和机理,因此研究错觉原理,建立合适的数学模型和计算机模拟模型, 对心理学、生理学和计算机视觉等领域的发展有着重要的意义,在收集整理大量错觉图片的基础上,视错觉可按不 同的现象和成因分为轮廓错觉、运动错觉、细胞群错觉、扭曲错觉、尺寸错觉和不可能图形等6类,其中典型错觉图片 被选以介绍其成因和生理、心理、计算机领域的研究现状,阐述不同视错觉发生在视觉不同认知层次上,且拥有和正 常视觉相同的神经基础,最后概述了视错觉现象的应用意义和前景, 关键词:视错觉;心理学:生理学:计算机视觉:认知科学 中图分类号:TP391文献标识码:A文章编号:16734785(2011)01-0001-12 The categories and research advances of visual illusions LIU Hong'2,LI Zheyuan'2,XU Chao'2 (1.School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China;2.Machine Perception and Intelligence,Key Laboratory of Education Ministry,Peking University,Beijing 100871,China) Abstract:When humans or animals observe things,visual/optical illusions can occur since the perceptions are sometimes inconsistent with reality and are caused by the observers'experiences or improper references.Visual il- lusions can expose the cognitive functions and mechanisms of the human vision system from a unique perspective. Therefore,they help people to understand vision principles,to establish appropriate mathematical models and com- puter simulation models,and significantly promote the development of many research fields such as psychology, physiology,and computer vision.In this study,due to various phenomenon or causes,620 illusory pictures were analyzed and divided into 6 categories:contour illusions,motion illusions,cell-population illusions,distorted illu- sions,size illusions,and impossible objects/3-D illusions.Additionally,the causes and research status of typical illusions were presented.Furthermore,the conclusion was drawn that different illusions occur in different cognitive levels of the vision system and have the same neural basis as normal vision.Finally,the applications and research future were described. Keywords:visual illusions;psychology;physiology;computer vision;cognitive science 人类研究视错觉的历史可以追溯到公元前4世 型,核心思想是整体大于局部之和)理论逐渐传播, 纪亚里土多德(Aristotle)观察瀑布时记录的运动后 相关研究才逐渐发展.该领域初期多采用行为实验 效(after-effect),柏拉图(Plato)也曾指明人类永远 等传统心理学方法获得推论,随着生物实验技术水 不可能完全避开错觉去认识一切真相.后来几千年 平的提高和20世纪60年代,S.Coren和J.S.Girgus 里,视错觉一直处于曲解的位置上,直至19世纪末 在几何错觉研究中引人系统论方法,其重心逐渐转 德国E.Mach发现侧抑制现象时还未获得足够重 向神经生物学和计算机领域,设计实验发现相关神 视121.随着20世纪初德国格式塔(Cestalt,意为完 经基础来提出和论证心理学说,模拟符合人类视觉 机制的数理算法,以促进认知心理学、神经生理学和 收稿日期:2010-06-13. 计算机视觉领域的发展. 基金项目:国家自然科学基金资助项目(60675025,60875050):国家 目前视错觉的心理学解释有格式塔理论(Ge “863"计划资助项目(2006AA04Z247);广东省自然科学基 金资助项目(9151806001000025);深圳市科技计划及基础 staltism)、生态视觉理论(ecology theory)、建构主义 研究计划资助项目(JG200903160369A). (constructivism)、亮度对比假说、视野学说、常性误 通信作者:李哲援.E-mail:zheyuanlic@cis.pku.edu.cm
.2 智能系统学报 第6卷 用说、反常性误用说、先验论和经验主义等,但没有 biotechnology,information technology and cognitive 一种能适用所有视错觉.生理学解释有侧抑制神经 science,NBIC),其中C为认知科学;日本科技委 网络说、眼动理论、三色色觉学说、三环节论和色觉 员会于1996年提出为期20年预算200亿美元的 相对处理学说等,并有神经生理实验数据支持,但同 “脑科学时代计划”(the age of brain science),包括 样在完善中1331.视错觉现在主要有哪些种类,形 认识脑(思维研究)、保护脑(治疗)、创造脑(信息处 成原理和基础是什么,还可以应用到信息处理等专 理系统)阶段,将脑的认知功能和信息处理机制研 业的哪些方面,这就是本文要回答的问题。 究视为重中之重;欧盟第七研究发展框架(the sev- 研究现状和发展前景 enth research framework program)在2009年发展规 划中进一步规划了大脑相关研究项目 视觉是综合信息处理和主观认知的多层次过 我国自2001年正式加入“人类脑计划”后,更 程,视错觉同样如此.综合各学科可看出哲学探讨视 加重视脑和认知领域的研究.继2005年科技部批准 错觉只注重简单的动作表面和整体意义,而未认识 建立中科院和北师大相关国家重点实验室后,2006 到复杂的信息处理过程;传统心理学试图将高级认 年《国家中长期科学和技术发展规划纲要(2006一 知活动分解成简单心理成分,侧重用整体结构实现 2020)》出台,将脑和认知科学作为八大科学前沿问 心智过程的内部还原(如自底向上、自上而下加 题之一5];2008年,国家自然科学基金委员会发布 工),却未追究产生具体认知的神经活动基础,不能 “视听觉信息的认知计算”研究计划,希望从人类视 证明外在视觉刺激如何转化为内在心理表征:神经 知觉机理出发,构建新的计算模型和方法,在基础理 生理学从神经元、神经组织、神经网络和整体脑区等 论研究和与视觉认知相关的脑机接口等关键技术上 水平上来确认错觉物理实现,却无法知道主观认知 取得重要进展 如何作用.计算机学科若想实现最贴近自然视觉的 2 视错觉分类 算法,就必须了解综合以上学科研究的认知科学 视错觉研究属于认知科学,仅在欧洲和北美就 视错觉目前有背景错觉、侧抑制、缪勒莱耶错 有60多所大学(如Harvard、MT、Dartmouth、Prince 觉、深度错觉、视觉后像、填充错觉、透视错觉、伪装 tom等)建立了专门的研究队伍3].目前研究多偏重 错觉、知觉模糊、透明错觉、轮廓错觉、似动错觉等多 “提出假说,结合计算机技术和心理学理论,进行行 种类型「1,61).视感知的复杂性使认知在不同层次 为认知和神经生理实验,建立神经和数学模型”的 上形成不同种类的视错觉,如轮廓错觉中的Necker 方式,实验技术有患者临床研究、EEG、ERP和MRI 立方体和细胞群错觉中的颜色后效,前者基于不同 等,研究成果多发表在Nature、Science、JNS、PNAS、 组神经元群体竞争结果,后者基于单个视神经节细 Current Biology、Neuron、ACM等顶级期刊、会议和相 胞(anglion cel)自身特性:而同种类的视错觉可能 关网站上.美国Neural Correlate Society从2O05年开 表现为不同现象,如Hermann栅格和颜色后效都可 始举办的“Best Visual Illusion of the Year Contest”, 用细胞群错觉的神经节细胞特性解释,但分属视网 已有美、德、英等十几个国家的视觉科学家和艺术家 膜上的侧抑制和脑纹外区加工后V4-complex区发 参加,并定期在Scientific American上发表研究进 生的错觉8].故已有的错觉分类经常出现归纳现象 展.当前视错觉研究人员代表有德国Frei山burg大学 覆盖面小、同种错觉重复分类、不同错觉错归为同类 的M.Bach、美国Baylor医学院的D.M.Eagleman、日 结果等不足,表1归纳了国内外几种较全面的错觉 本Ritsumeikan大学的A.Kitaoka、意大利Sassari大 分类,并进行了简要评论126,16 学的B.Pinna等.我国错觉研究从20世纪50年代 表2在收集整理620多张典型错觉图片基础 开始,各大高校和研究所已将认知科学研究列为重 上,以避免种类交叉为出发点,按不同现象和成因分 要课题,如北大、清华、中科院和北师大等.一些原从 为六大类错觉:尺寸错觉指人根据深度线索和环境 事心理学、语言哲学研究的学者,及时地捕捉到先进 信息等视觉规则对相同面积、长度、体积的物体得出 科研信息开始研究错觉,科研成果多属于图形分析、 不同认知的现象;细胞群错觉指人因视觉神经上功 脑机能研究、视觉注意机制、数理模拟和算法建立方 能相似的神经元群或神经组织作用对刺激的亮度 面,除发表在国外期刊外,国内典型错觉的简单介绍 颜色、方向模式产生误解的现象;轮廓错觉专指人或 和造型设计类文章多发表于《心理学报》、《心理科 动物对图像中边缘梯度信息和环境认知出现错误的 学进展》、《生理科学进展》及高校学报等综合性自 现象,包括主观轮廓、知觉反转等:不可能错觉是指 然科学期刊, 局部平面结构理解合理却不能客观存在的图像;扭 21世纪各国对认知研究更加重视.美国国家基 曲错觉是指人把规则的点、线、面等结构元素感知为 金会、商务部提出聚合技术概念(nanotechnology, 歪曲结构的现象;运动错觉是指人结合环境线索对
第1期 刘宏,等:视错觉现象的分类和研究进展 ·3… 运动刺激判断出错误方向、目标等或从单一静态刺 激感知出运动效果的现象, 表1几种现有视错觉分类 Table 1 Several current categories of visual illusions 国家 姓名 分类 优点 缺点 亮度对比错觉、运动错觉、几何 范围广,种类多,约86种现 部分原理或现象相近的分类 德国 M.Bach 及角度错觉、尺寸恒常性及不可 能图形、格式塔效应、色彩错觉 象/图片 可以合并 侧抑制、后效、主观轮廓、多重刺生理学成因+研究历史,脉络涵盖范围少,约20种现象/图 Eagleman 激(如知觉反转) 清楚 片 后效、背景错觉、颜色错觉、亮度 美国 图片新颖详细(2005-2010), BVIC 错觉、不可能图形、隐藏图形、运 各类图片量小,类间有重复, 以各类图片的表象特征分类, 动错觉、旋转错觉、形状错觉、梯 可以按现象成因合并 约330种现象/图片 度错觉等 几何错觉、亮度/明度错觉、颜色以错觉的现象和成因分类,覆 日本 Kitaoka 错觉、视觉竞争、运动错觉、其他盖全面、各类错觉有详细研究 亮度错觉、颜色错觉、视觉竞 争、其他错觉间多重复 错觉 和标注,约75种现象/图片 几何图形错觉、对比错觉、形景 覆盖全面,条理较清楚,约 前5项内容相对单薄,把太多 罗正理 错觉、似动错觉、运动错觉、其他 没有共同点的种类都归于其 错觉 1300种现象/图片 他错觉 中国 长短、大小、平行、弯曲、视觉两 从知觉功能分类角度新颖,约 种类过少,集中于轮廓错觉和 孔彬 义性、知觉整体性、简单性、完美 性、理解性 11种现象/图片 扭曲错觉 表2视错觉重新分类 Table 2 The new category of illusions 分类 子类 例子 尺寸错觉 深度错觉 Ponz0错觉及诸多变体 Muller-Lyer错觉、月亮错觉、正弦错觉、Zollner错觉、Horizontal-vertical错觉、Sander错觉、 Shepard桌面错觉、Ehrenstein错觉(1941年)、Ebbinghaus错觉等 视觉后效 颜色后效(正、负后像、McCollough错觉等)、运动后效(瀑布错觉、螺旋后效、圆盘后效等) 细胞群错觉 侧抑制 Wertheimer-Koffka环、Craik-O'Bien-Comsweet现象、Scintilltating栅格错觉、棋盘错觉、Hermann栅 格、调色盘错觉、Mach Band、White's effect、Chevreul错觉、Vasarely错觉等明度对比变体 填充视觉 Bach motion错觉、Watercolor错觉、Wave--linecolor错觉 知觉模糊 墙角错觉、Necker cube等 伪装错觉 达尔马提亚狗、耶稣像等 轮廓错觉 背景错觉 前景背景错觉(图形背景错觉、二义性图像)及诸多变体 主观轮廓 Kanizsa三角形、Ehrenstein圆环及诸多变体 不可能图形 不可能三叉戟、不可能楼梯、不可能三角形、不可能房间等 扭曲错觉 Hering错觉、Fraser错觉、Zollner错觉、Popple错觉、Cafe Wall错觉、Checkered错觉、Poggen- dof错觉、七巧板错觉等 似动 循环蛇、辐条错觉、Ouchi错觉、Ternus Display、Fraser-Wilcox错觉、Sigma错觉等 运动错觉 Pinna-Brelstaff错觉、Flash-Lag错觉、Reverse phi错觉、Kaleidoscope错觉等
智能系统学报 第6卷 与其他分类方法相比,表2的分类方法按汇总 错觉现象,探寻心理生理学成因,综合现象和成因分 类,将现象相近的错觉分成子类,这样就避免了错觉 种类重复.如运动后效通常由于现象和运动有关而 被划分在运动错觉里,但其神经基础是视网膜上神 经元群体响应时间差异,而非似动现象的心理认知, 故被划分到细胞群错觉;又如轮廓错觉中有主观轮 廓、伪装错觉、知觉模糊等子类,主观轮廓指从邻近 区域间明度、色彩突然变化的同质刺激中感觉到并 (a)Rubin壶a (b)Necker立方体2] 不存在的轮廓、线、面的现象,伪装错觉指从一幅 图1前景/背景反转 Fig.1 Figure-background illusion 包含大量无关联成分的图像中感知出有意义图形的 2)图像不变,观察者因观察角度或距离改变而 错觉,两者诱导线索不同,但都从点、线段、图形等元 产生不同认知,常见有回转错觉(如图2所示)、3-D 素信息判断出区域边缘,从而扩展整体图形意义,本 反转错觉(reverspective). 质都基于视觉的边缘提取和自我修复能力,这和V2 主要决定真实和虚幻轮廓知觉的生理学研究成果是 相一致的[0] 根据目前研究成果来看,视觉是将神经节细胞 接受的初级信号按同类组合的模式逐级整合,到达 基础节点(essential node,对目标刺激属性有特定反 映的神经元)所在的脑区后,才产生完整的知觉反 应,逐级整合过程中每一级神经元都向高一级和低 (a)从一个角度看到 (b)图像旋转180°后看到 级的神经元发出前馈和后馈0].结合D.Mar的 带华冠的人物像 的带锥形帽的人物像 计算理论,视错觉可以被看成信息处理的生理机制 图2回转错觉俐 和脑多层次认知的心理机制结合的结果,其神经基 Fig.2 Circular illusions[ 础和产生正常视觉的神经基础一样,只是主观线索、 3)展现2种图形变化过程的“渐变错觉”.但无 经验等导致心理认知发生变化,以及具体神经活动 论如何观察者在某一时刻只能认知其中1种图形的 幅度、时间、类型上的差异.接下来就从以下几种视 存在(如图3所示) 错觉中选取最有代表性的图例验证这一结论, 3 典型视轮廓错觉原理及其在计算机 视觉领域的研究进展 3.1轮廓错觉(contour illusions) 轮廓错觉由来已久,1915年丹麦心理学家E. Rubin在18世纪法国印刷品基础上创造了经典的 Rbin壶21](如图1(a).图形的客观结构没变,变 的只是人类对图形特征的认知,这种认知反转显示 图3飞鸟和游鱼的渐变刊 Fig.3 The change between birds and fish 脑皮层对输入信息有一个积极加工过程,这也是目 轮廓错觉的近期研究多集中于该错觉相关的激 前神经学家研究意识(consciousness)的一个有用工 活脑区和信息处理方式上.1996年D.A.Leopold等记 具.轮廓错觉一般分为3种. 录猴的V1、V2、V4和MT区对多稳态刺激的反映,发 1)视觉反转(多重刺激/歧义图形,ambiguous 现只有小部分神经元响应当前主宰刺激,其余神经元 f五ures):图形不变,观察者可从中看出2种或2种 都响应非主宰或被抑制的刺激a].次年D.L.Shein- 以上图像,这几种认知也可循环转换.常见类型有前 berg等宣布在视觉信息加工的高级阶段,颢上沟(su- 景/背景反转(figure-background illusion,如图1所 perior temporal sulcus)中对主宰刺激响应的神经元比 示)等
第1期 刘宏,等:视错觉现象的分类和研究进展 ·5 例会增长,直到题叶皮层中绝大部分(temporal cor- 知理论和机器视觉结合起来.同年A.J.Noest等对 tex)神经元都被主宰刺激相关的方式激活为止24].这 认知反转进行伽马分布拟合的双参数分析(形状左 说明有不同神经元群体控制对刺激的感知状况.而J. 和入尺度),发现反转率随不同刺激而变化,其中最 V.Dodd等发现猴MT区神经元在多稳态刺激中响应 重要的参数是大致垂直于反转率均值μ=斥·入的 的概率大于它们在运动方向判断中的相关性2],这 个参数入/k=入2/μ,从而方便对不同刺激和任务中 可能说明小群体神经元对前者的决定活动更集中. 的意识进行量化研究0.2007年他们提出一个最小 2003年A.J.Parker等用FMRI技术,除了支持Dodd 神经模型: 的结论外,还发现被试有个决策处理时期,即对歧义 TH,H=X:-(1 +A:)H:+BA:+ys(H), 图形的每种形态认知都对应一组神经元活动,几组神 i,Je{1,2},i≠j, 经元活动的竞争结果决定最终的认知形态2],在心 T A;=-A:+aS(Hi). 理物理学阈值附近的一点变化都会导致认知反转, 式中:i、j标记2组神经元群体,认知结果为H(模拟 2O05年J.Kornmeier等在人脑枕部找到一个与反转相 神经元膜电位,其反双曲转换为S(H:)模拟神经元 关的早期ERP信号,并解决了反转时间的估计问 激活率),时间尺度TH,视觉刺激X,Y决定交叉抑制 题26],4年后他们又从意识控制(volitional control)和 程度,A:为短暂历史信号和B确定与认知j的联合程 离散刺激(discontinuous stimulus presentation)方向入 度,a调制A的幅度.A.J.Noest等认为反转结果主 手,发现两者都可以独立控制认知反转时间,并且不 要取决于神经元分流适应和神经学阈值的互动结 同时间范围中反转来源于不同的神经处理机制(top- 果,刺激的ON/OFF时间控制复杂知觉决策序列的 dowm或bottom-up). 产生3).继H.Atmanspacher等用Necker--Zeno模型 综上可知,认知反转是由2组或2组以上神经 定量研究多稳态刺激认知中反应时间和反转率 元群体竞争的结果,不同的刺激信号从初级神经元 后[2】,J.W.Brascamp等对持续和间歇展示的歧义 和视皮层放大并上传,结合被试的先验经验和意识 刺激对比研究发现:间歇展示的刺激产生的知觉周 控制等,在猴的MT区(人类相似脑区为V5)上进行 期性反转率取决于间歇时期空白时间的长短,并用 反转,反转过程可用反转率和时间等描述.这类似于 不同时间尺度加权来改进最小神经模型: 2007年Liu在信息处理中采用的多组智能体线索竞 Tm0,H=X:-(1+∑A)H:+ 争机制,即用颜色、亮度、方向等表征目标的不同特 max{0,B∑A:-B∑A}+yS(H) 征线索,并按跟踪目标变化进行竞争,注意力始终注 意当前最显著的一组智能体线索] 式中:B决定信号A参与程度,该模型很好解释了反 转中神经网络竞争和相关活动3], 岐义视觉刺激强 神经元平均场干沙 检测转换 度1感对比差4 1+4Cos{Tv+vs月 值得一提的是,2002年T.J.Andrews等研究人 因子x 类面孔鉴别的特定脑区fusiform face area时发现,当 相位调制x 注意力 被试给予一定边界线索时能从robin vace/face刺激 偏差v。 中识别出面孔,且具有和见到真实面孔相同的响应 时延T 区域2].综上所述,可推断人类对知觉反转在神经 反馈增益g(v,)、饱和 元水平上有一个表征(representation)刺激的竞争阶 感状态 时问y和恢复时问t 噪声 段,这个阶段动态递归,且利用与真实刺激时相同的 神经信息通路。 图4歧义认知流程图一 递归注意力干涉模型) 3.2主观轮廓(llusory/subjective contours) Fig.4 Simplified block diagram of perception-atten- 1904年Schumann首次描述该错觉,最著名的 tion recursive interference model( 例证为1941年Ehrenstein的Ehrenstein圆环和1955 从整体水平上来看,近年学者比较热衷从数学 年意大利人Kanizsa提出的Kanizsa三角,见图5所 和认知模型的角度来分析认知反转所涉及的深层活 示.主观轮廓共同点为:静止就可看到、单眼视觉时 动,为计算机模拟认知输出奠定基础.2006年,N. 即能出现、有错觉亮度差异、有深度视觉(轮廓两边 Furstenau利用电磁场干涉和非线性的动态模型成 一面在另一个面上面).任旭明在1996年总结主观 功模拟知觉反转,如图4,把基于神经元平均场 轮廓有心理和生理两方面解释:心理解释认为主观 (neuronal mean fields)的认知过程量化成具有于涉 轮廓发生在中枢神经系统,包括格式塔学说、认知学 和反馈环节的动态数学递归控制过程9,将诸多认 说、深度线索学说等:生理解释认为发生在外周神经