第一章绪论人类通过视觉感知外界信息.俗话说“百闻不如一见”,就是说视觉感知环境信息的效率很高.人类感知外界信息,80%以上是通过视觉得到的.让计算机或机器人具有视觉,是人类多年以来的梦想.虽然,目前我们还不能让计算机也具有像生物那样高效、灵活的视觉,但这种希望正在逐步实现。人类是通过眼睛与大脑来获取、处理与理解视觉信息的.周围环境中的物体在可见光的照射下,在人眼的视网膜上形成图像,由感光细胞转换成神经脉冲信号,经神经纤维传入大脑皮层进行处理与理解.视觉,不仅指对光信号的感受,它包括了对视觉信息的获取、传输、处理、存储与理解的全过程.信号处理理论与计算机出现以后,人们试图用摄像机获取环境图像并将其转换成数字信号,用计算机实现对视觉信息处理的全过程,这样,就形成了一门新兴的学科一计算机视觉,计算机视觉的研究目标是使计算机具有通过二维图像认知三维环境信息的能力.这种能力将不仅使机器能感知三维环境中物体的几何信息,包括它的形状、位置、姿态、运动等,而且能对它们进行描述、存储、识别与理解.计算机视觉发展得益于神经生理学、心理学与认知科学对动物视觉系统的研究,但计算机视觉已发展起一套独立的计算理论与算法,它并不刻意去“仿真”生物视觉系统,其原因有三:(1)几十年来,虽然神经生理学、心理学与认知科学对生物视觉系统从解剖学、电生理过程与信息处理等不同角度进行了大量卓越的研究,但对视觉认知过程的认识还远远不够,尤其是对大脑皮层中高层次视觉信息处理的认识还是十分肤浅的。(2)研究表明,大脑神经细胞构成了一个极其复杂的,巨大的互连网络,这种神经网络在体系结构上与当前计算机体系结构有很大的差别,虽然,近年来人工神经网络的研究得到很大的重视(即用计算机或专用芯片去局部仿真神经网络),但这种仿真也只能是近似的、局部的,要实现大量人工神经元的互连网络在技术上目前还是很困难的,另外,不少计算机视觉工作者认为,只要从信息转换的角度真正理解了视觉信息处理过程并发展出一套信息处理的计算理论,用哪种体系结构去实现它是无关紧要的.本书要讲述的内容就是多年来计算机视觉工作者对实现各种视觉功能发展出的一整套计算理论与算法.近年来对神经网络的研究表明,其中许多算法既可以用通用的串行的计算机体系结构实现,也可以用神经网络实现(3)在许多工业应用场合,视觉系统要观察的环境常常比较简单.60年代第一次做的计算机视觉系统的实验[Roberts1965],环境被限制在所谓“积木世界”,即周围的物体都是由多面体组成的,需要识别的物体可以用简单的点、直线、平面的组合表示.计算机视觉的研究工作就是从对这些简单的物体识别与定位开始的.另一方面,用计算机视觉的方法还可以处理与识别更广泛的图像,例如遥感图像、医学图像等,这些图像的处理和识别与一般摄像机的图像有较大的不同,处理与识别的方法也不同
2第一章绪论为了从整体上理解计算机视觉系统的体系结构,我们先从信息处理的角度分析人的视觉系统结构.1.1生物视觉通路简介1.1.1生物视觉通路图1.1为视通路示意图,物体在可见光的照射下经眼的光学系统在眼底视网膜上形成物像,视网膜上的感光细胞又将视网膜上接收的光能转换成神经冲动,经过视交叉部分地交换神经纤维后、形成视束,传到中枢神经系统部分,包括丘脑的外膝体(lateralgenic-ulatenucleus,简称LGN),上丘(superiorcolliculus)和视皮层(visualcortex),上丘只与眼动等视觉反射有关,外膝体和视皮层直接与视知觉有关,外膝体视交叉视束视放线眼视神经视皮层上丘图1.1视通路示意图关于眼、外膝体与视皮层的解学结构,光化学与电生理作用以及它们在视觉信息处理中的基本作用的详细描述可参阅视觉生理学的有关书籍,如阮迪云、寿天德编著的神经生理学[Ruan1992].由视通路可以看到,眼、外膝体与视皮层构成了对视觉信息处理的三个基本层次.进一步的分析表明,外膝体与视皮层,尤其是视皮层还有更为复杂的分块分层结构,分块表明了视觉信息处理的并行性质,不同区域的神经细胞具有不同的功能;分层表明了视觉信息处理的串行性质.因此,生物视觉系统是一个串行与并行处理相结合的复杂系统1.1.2感受野的分层等级假设视通路上各层次的神经细胞,由简单到复杂,它们所处理的信息,分别对应于视网膜上的一个局部区域,层次越深入,该区域就越大,这就是著名的感受野(receptivefield)与感受野等级假设,感受野是支持视觉信息分层申行处理的最重要的生理学证据.以信息处理的第一级为例,视网膜上的神经节细胞(gauglioncell,以下简称GC)将感光细胞上接收到的光信号转换成电信号再由它的轴突传出,但每一个GC细胞只能接收视网膜上一个局部区域的信号,该区域就是GC的感受野,研究表明,GC感受野及其对光信号的转换作用可划分为以下几种:(1)对空间亮度变化敏感的感受野,形状可用两个同心圆表示.如图1.2所示,这种
1.1生物视觉通路简介3同心圆形状的感受野按其对光信号的转换作用又可以分为中心兴奋区、周边抑制区组成的on-中心型以及中心抑制区,周边兴奋区组成的off-中心型.图中还画出了这两种感受野对光信号的响应曲线(图中只画出了沿同心圆直径方向上一个截面上的响应曲线),该曲线近似于两个方差不同的高斯函数的差,具有这种感受野的GC细胞对于在同心圆区域上受到均匀光照的光刺激的反应,为响应曲线的积分,一般讲,GC的输出为响应曲线与光信号乘积的积分,图1.3表示当视网膜上光信号为一边亮一边暗的具有一定对比度的信号时,感受野位于不同空间位置的GC的输出,只有当亮暗边缘线过同心圆中心时,GC的输出与感受野受到均匀光照时一样,设为E,而当边缘线位于同心圆其他位置时,输出分别高于或低于该平均输出E.如将输出看作实际输出减去平均输出E,则当亮暗边缘线过感受野同心圆中心时,输出为零.可见,由GC的输出与感受野的位置可以检测亮暗边缘线,这是本书第三章将要介绍的边缘抽取的生物学基础。OnOff图1.2on-中心型与off-中心型感受野/>EE<E图1.3不同位置感受野的GC细胞对具有黑白对比度的光信号的响应(2)除具有上述响应特征及感受野的GC细胞外(这种GC细胞也称为t型细胞),还有一种型细胞,它的响应不对亮度的空间变化敏感,而是对时间变化敏感,即当感受野
第一章绪论4圆形区域内的亮度随时间变化时,GC输出会增大或减少,y细胞也可划分为on型或off型.这种对局部亮度随时间变化敏感的性质是物体运动分析的基础以上介绍的是视网膜GC细胞的感受野,这是视觉信息处理第一层次的感受野.对于更高层次,包括外膝体细胞与初级视皮层(即视皮层的前几层),也发现了类似的性质,即每一个单个细胞只接受视网膜上的局部信息,但层次越高感受野越大,即信息处理是从局部到更大的区域的,例如外膝体上的一个细胞,可以接受来自空间感受野相邻的多个GC细胞的信息,由于每个GC细胞有一个感受野,多个GC细胞的感受野就组成了二个更大的区域,面且该区域也具有同心圆的形状.这种感受野从局部到整体的层次结构就是著名的感受野层次等级假设[Hubel1979].这种假设一直到初级视皮层还可得到神经生理学与认知心理学的实验证据(对实验证据的解释仍有争论),但这种假设到底能走多远,即进人更高层次以后,甚至到最后层次,是否有一个最复杂的神经细胞,它的感受野已大到图像上的某一个大区域,由该细胞来负责全部该区域信息的综合,最后达到识别该区域上物体的目的,这一点(它被称为祖母细胞假设)尚有很大的争论1.1.3视觉信息处理的多通道、多任务并行处理性质感受野的等级假设与局部性质主要支持视觉信息处理的自下而上的分层次申行处理性质.但视觉系统的任务不是单一的.它要识别物体的形状与额色,要得到三维物体的深度信息,要检测物体的方位与运动参数,另外,物体的空间与时间频率性质也有很大差异,例如较细的表面纹理表现了物体表面较高的空间频率特征;较快的运动,表现为图像较高的时间频率特征.神经生理学的研究表明,视通路的各个层次上存在着基本互相独立的并行通道,分别完成不同的视觉任务,下面我们简要介绍几个不同的并行通道(1)r·y通道在介绍视网膜神经节细胞(GC细胞)的感受野性质时曾提到GC的感受野有工,y之分,进一步分析表明,更深层次的细胞的感受野也有,之分,即某-层次的神经细胞(例如外膝体的神经细胞)只接受来自r(或y)型的GC细胞的信号,使它也具有(或y)型的感受野.由于·y型感受野的不同,r通道传递高空间分辨率的,时间上变化慢速的信息与颜色信息,而型通道传递低空间分辨率的,高时间变化频率的信息(2)空间与时间频率通道虽然,y型细胞分别对具有空间频率或时间频率的信息敏感,心理物理实验证明,外膝体上的某一个神经细胞并不对所有频率的信息敏感,而是对某一频段的信息呈现较强的反应,在视觉皮层也发现了类似的证据,即皮层的某一部分只对某一定频率的信号敏感.这些实验证据表明,在视通路中存在处理不同频道的信号的独立通道,(3)颜色信息通道首先在视网膜上就存在不同的光感受细胞,即锥状细胞与杆状细胞,其中杆状细胞对颜色不敏感,而锥状细胞又分为对不同光谱(红、绿、蓝)敏感的三种细胞,对外膝体与视觉皮层17区的分析也表明,它们都有专门的区域从事颜色信息的处理与识别(4)左右眼信息通道与立体视觉由图1.1的视觉信息通道简图中可见,眼睛,外膝体与视皮层都有左右二侧.分析表
51.2Marr的计算视觉理论框架0明,左右两侧的神经细胞分别处理由左右两眼的半侧来的信息,也就是说,每一个眼睛的左右侧视野的信息是交叉地分别投射到左右侧外膝体与视皮层的.视皮层处理来自两眼1的信息得到双眼视差信息(详见第五章)是立体视觉的基础,也就是说,只有比较来自双眼的信息,才能使我们有深度感,最近的研究表明,直到视皮层的17,18,19区,还存在独立处理不同视差的并行通道(5)空间方位信息通道早期对视觉通路信息处理的研究认为,视皮层细胞对空间几何元素(如直线)的方位敏感,阮迪云[Ruan1992]等对外膝体细胞的研究表明,这种方位敏感性也存在于外膝体细胞,即具有相似最优方位敏感的细胞在外膝体层次已经聚集在一起.可见在视皮层处理之前,外膝体已经对方位信息进行了组织,在视觉通路中存在着处理方位信息的通道(6)视皮层对形状、颜色、运动与深度信息的并行处理对视皮层17至更高层次的研究表明,对物体的形状、颜色、运动、深度等不同视觉信息处理已明显分离开,对视皮层不同区域分别处理什么信息已有大量的研究,最近发展的功能核磁共振(FMRI)与高分辨率脑地形图为分析视皮层各部分的功能提供了技术手段.以上介绍表明,视觉信息处理是一个审行与并行相结合的复杂信息处理过程,目前搞清的仅仅是极小的一部分.而且,从信息处理的角度看,对大多数处理单元我们仅仅知道非常浅的知识,即只知道这个单元对某种信息“敏感”,而信息是如何表征的,如何变换的,则仍不清楚,尤其是较高层信息的处理.关于串行与并行处理进人高级皮层后,信息是如何综合的,更是很有争论的问题.还有一些认知心理实验,观察到与上述有些论述完全不相容的现象,例如陈霖发现[Chen1982,1989],人对大范围拓扑特征感知早于对局部几何特性的感知,并认为这种现象是对当前的视觉计算理论不相容的.总之,对生物视觉系统的认识还很初步,计算机视觉工作者从这些初步的研究结果出发,试图独立建立视觉信息处理各个阶段或各种功能的数学模型,本书中介绍的内容就是20多年来的有关研究成果,其中有些信息处理方法可能与生物视觉系统类似,也有一些可能完全不同。1.2Marr的计算视觉理论框架80年代初,Marr[Marr1982]首次从信息处理的角度综合了图像处理、心理物理学、神经生理学及临床精神病学的研究成果,提出了第一个较为完善的视觉系统框架,这一框架虽然在细节甚至在主导思想方面尚存在大量不完备的方面,许多方面还有许多争议,但至今仍是广大计算机视觉工作者接受的基本框架.计算机视觉这门学科的形成,应该说与-这一理论框架有密切的关系.下面我们从几个方面来描述这一理论框架,Aa1.2.1视觉系统研究的三个层次Marr从信息处理系统的角度出发,认为对此系统的研究应分为三个层次,即计算理论层次、表达(representation)与算法层次、硬件实现层次计算理论层次要回答系统各个部分的计算目的与计算策略,亦即各部分的输人输出