第一章绪论6a是什么,之间的关系是什么变换或具有什么约束.Marr对视觉系统的总的输人输出关系5规定了一个总的目标,即输人是二维图像,输出是由二维图像“重建”(reconstruction)出来的三维物体的位置与形状.Marr认为,视觉系统的任务是对环境中三维物体进行识别、-定位与运动分析,但这仅仅是一种对视觉行为(behavior)的目的性定义,而不是从计算理论层次上的目的性定义,三维物体千差万别,应存在一种计算层次上的一般性目的描述,量达到了这一“目的”,则不管是什么具体的物体,视觉任务均可完成.Marr认为,这一“目的”,就是要通过视觉系统,重建三维物体的形状、位置,而且,如在每一时刻,都能做到这一点,则运动分析也可以做到.对视觉系统的各个层次与模块,Marr也初步给出了计算理论层次上的目标(详见下一节)对于表达与算法层次,视觉系统的研究应给出各部分(或称各模块)的输人、输出和内部的信息表达,以及实现计算理论所规定的目标的算法,算法与表达有关,不同的表达方式,完成同一计算的算法会不同,但Marr认为,算法与表达是比计算理论低一层次的问题,不同的表达与算法,在计算理论层次上可以是相同的,最后一个硬件层次,是要回答“如何用硬件实现以上算法”区分以上三个不同层次,对于深刻理解计算机视觉与生物视觉系统以及它们的关系都是有益的,例如我们在本章开始时就指出,人的视觉系统与目前的计算机视觉系统在“硬件实现”层次上是完全不同的,前者是极为复杂的神经网络,而后者是目前使用的计算机,但它们可能在计算理论层次上完成相同的功能本书的全部内容都是在前两个层次上,即计算理论,表达与算法层次,应该指出,目前计算机视觉的研究工作也主要在这两个层次上,对于硬件实现,目前只有比较成熟的部分,如低层次处理中的去噪声,边缘抽取;对简单二维物体识别及简单场景下的视觉方法,已有专用芯片或其他并行处理体系结构方面的研究与试验产品;从系统上构造一般的视觉系统,虽有一些尝试,但一般并不成功。1.2.2视觉信息处理的三个阶段Marr从视觉计算理论出发,将系统分为自下而上的三个阶段,即视觉信息从最初的原始数据(二维图像数据)到最终对三维环境的表达经历了三个阶段的处理.第一阶段构成所谓“要素图”或“基元图"(primarysketch),基元图由二维图像中的边缘点、直线段、曲线、顶点、纹理等基本几何元素或特征组成;第二阶段,Marr称为对环境的2.5维描述,2.5维描述是一种形象的说法,意即部分的、不完整的三维信息描述,用“计算”的语言来T讲,就是重建三维物体在观察者为中心的坐标系下的三维形状与位置.当人眼或摄像机观察周围环境物体时,观察者对三维物体最初是以自身的坐标系来描述的,另外,我们只能观察到物体的一部分(另一部分是物体的背面或被其他物体遮挡的部分).这样,重建的结=果是以观察者坐标系下描述的部分三维物体形状,称为2.5维描述.这一阶段中存在许多空并行的相对独立的模块,如立体视觉、运动分析、由灰度恢复表面形状等不同处理单元,本书的许多章节都涉及到这一阶段.2.5维描述是不够的,事实上,从各种不同角度去观察物体,观察到的形状都是不完整的,不能设想,人脑中存有同一物体从所有可能的观察角度看到的物体形象,以用来与所谓的物体的2.5维描述进行匹配与比较,因此,2.5维描?
1.3本书各章内容简介7述必须进一步处理以得到物体的完整三维描述,而且必须是物体本身某一固定坐标系下的描述,这一阶段称为第三阶段,即三维阶段以上前两个阶段,有些文献称为视觉的低层次处理,或早期视觉,也有人将第一阶段称为早期视觉,第二阶段称为中期视觉.1.3本书各章内容简介本书主要内容为三维计算机视觉,两维图像的特征检测为三维视觉的第一步,在许多图像处理的专著中已有全面的介绍,本书不作详细论述.但三维视觉的许多方法都是由二维图像的点、线等边缘特征出发的,因此在本书第二章介绍了边缘检测方法,其中有些方法可在图像处理的专著[Gonzalez1987,Rosenfeld1982,Wang1995]中找到,但有些方法,尤其是边缘检测的快速算法与最优边缘检测方法,只是在近年的文献中才能看到.计算机视觉所涉及的数学知识较多,如随机过程、最优化方法、射影几何等,由于国内工科大学一般不讲射影几何,第三章介绍了射影几何的一些常用结论,一般不给证明,有关射影几何的进一步知识,读者可参阅[Semple1949],这一章还介绍了以后各章中常用的各种几何元素的数学表达方法,本书介绍的大多数内容都是由图像定量恢复三维物体形状的方法,要做到这一点,首先需要对摄像机定标,以得到摄像机的内外参数,或者说,对摄像机建模并求取模型参数.本书第四章讲述各种摄像机模型与适用于不同任务的摄像机定标方法.第五章介绍立体视觉方法,即用双摄像机得到的图像(称为立体图对)恢复三维物体深度信息的方法,其中射影几何意义下的重建是近几年来提出来的方法,读者如缺乏射影几何的知识,可以不读这一节.第六至第十章为运动分析,即由序列图像估计三维物体运动参数与形状的方法.除了第六章运动与不确定性描述为运动分析问题的数学基础外,第七至第十章介绍了三种运动分析的方法.运动分析方法可分为两类,即由图像灰度变化求取运动参数的光流法,与由特征几何元素对应求取运动参数的方法,第七章介绍光流法,第八章介绍由序列图像特征儿何元素及运动模型跟踪特征儿何元素的方法,特征跟踪可给出特征儿何元素的对应,是由特征儿何元素求取运动参数的方法的基础,第九章与第十章分别介绍由两维或三维特征几何元素的对应求取物体运动参数与形状的方法.第十一章介绍直接由图像灰度或颜色恢复物体三维形状的方法,图像灰度或颜色与物体表面反射光的强度和光谱有关,由几何光学理论可得到物体表面反射光强度及光谱与物体形状的关系,但反射光强度还与光源方向、强度、光源光谱及物体材料性质有关,为了由图像灰度或颜色恢复物体三维形状需要多幅图像信息或利用物体表面形状的连续性假设,该章介绍了由多个点光源分别照射同一物体得到多幅图像以恢复物体形状的光度立体视觉方法,及由单幅图像与物体表面形状的连续性假设恢复三维物体形状的方法.在恢复(或称重建)物体形状后,为了识别物体,需要预先建立物体的模型,第十二章介绍一些常用的建模方法与识别方法.应该指出,建模与识别属视觉高层处理,对生物视觉系统的信息高层处理,目前还远远缺乏深人的理解,计算机视觉中提出的建模方法与识别方法也都是针对比较简单的物体的.本书第十三章介绍的距离图像获取与处理是计算机视觉的特有方法,以前各章介绍的方法与生物视觉系统都是由两维图像出发的,由两维图像出发恢复三
8第一章绪论维物体形状,计算复杂性很高,当今技术的发展使我们有可能开发直接得到物体三维深度信息的传感器,该章介绍了多种用于计算机视觉的深度传感器(rangefinder)或称距离传感器,由于用这种传感器可以直接得到物体表面密集点的三维信息,从而大大简化了视觉系统的低层处理,因此,虽然这种传感器的成本较高,使用场合也有一定限制,但基于这种传感器的视觉系统已有较广的工业应用.本书最后一章讨论了计算机视觉的系统体系结构与发展前景,针对计算机视觉系统在理论上与实际应用中存在的问题,给出了改善计算机视觉系统在体系结构上应考虑的10个方向目前,研究者们提出了大量的视觉计算方法,许多方法似乎在计算理论层次上很相似,但在计算机实现时在计算复杂性或抗噪声能力上却相差甚远.计算机视觉界普遍认为,视觉计算方法在提出时,必须有严格的实验验证,并与其他方法比较.本书附录给出了一些实验数据的软盘及说明,有条件的读者可由这些数据检验本书给出的算法,或验证自己提出的算法,1.4计算机视觉的现状与阅读本书需注意的问题80年代至今,研究者们按照Marr所提出的基本理论框架,对以上所述的各个研究层次与视觉系统的各个阶段中的各种功能模块,进行了大量的研究.现在,国际上以计算机视觉为主题,或主要以计算机视觉为主题的国际会议有国际计算机视觉会议(ICCV),国际模式识别会议(ICPR),国际计算机视觉与模式识别会议(CVPR),欧洲计算机视觉会议(ECCV)与亚洲计算机视觉会议(ACCV).以计算机视觉为主要内容之一的国际刊物也有很多,如 International Journal of ComputerVision,IEEETrans.onPAMI,IEEETrans.on Robotics and Automation,IEEE Trans. on Image Processing,CVGIP(Com-puter Vision, Graphics and Image Processing), Visual Image Computing,IJPRAI(In-ternational Journal of Pattern Recognition and Artificial Intelligence),Pattern Recogni-tin等,一些相关的会议与刊物就更多了,每年的研究论文不下数千篇,发表的不下数百篇.大体上讲,对计算机视觉系统的各个部分,研究者们都在计算理论、表达与算法及硬件实现等各层次上提出了大量的方法,但总的来讲,这些方法都存在这样或那样的问题,或缺乏通用性,或抗噪声能力低,或存在多解性,其原因可归纳如下:计算机视觉的问题是一个逆问题(inverseproblem),输人的图像为二维图像的灰度,它是三维物体几何特征、光照、物体材料表面性质、物体的颜色、摄像机参数等许多因素的函数,由灰度反推以上各种参数是逆问题.这些问题往往是非线性的,问题的解不具有唯一性,而且对噪声或离散化引起的误差极其敏感.另一个原因是Marr的视觉系统框架是一个自下而上的、模块化的、单向的、数据驱动型的结构.神经生理学的深入研究表明,这种结构与人的视觉系统还有很大差距.虽然对这种差别目前还缺乏深人的理解,但显然人的视觉系统上下各层次之间、各功能模块之间存在着更为复杂的互相作用.更重要的是,由眼动等现象可知,生物视觉系统的认知过程是一种复杂的与外界交互作用的主动性过程,Gibson[Gibson1979]曾指出,感知是一种行动(action)而不仅仅是一种被动式的反应(response).近年来提出的有目的的,主动式视觉或者基于模型的视觉都在这一方面突
参考孝文献9破了Marr视觉理论框架.本书中的某些部分涉及到这方面的研究成果,在本书的最后一章也将对视觉系统的各种系统框架作一些讨论基于以上对视觉系统研究现状的分析,读者在阅读本书中尤其要注意以下几点:(1)本书各章大多数是孤立地介绍视觉功能模块中某一部分的计算理论、表达与算法,一般不涉及到它与其他模块的相互影响,(2)虽然本书大多数内容都是最近的研究成果,但一般都是分析了某一功能模块的输入输出,介绍了一种或几种表达,分析了各种参数的约束条件,从而给出了最近研究中认为比较好的一种或几种算法,但是,这绝不意味着这些方法就是最优的方法了,也不意味着问题已完全解决了.相反,目前的方法一般都没有完美地解决视觉信息处理中的问题,它们都或多或少地有些问题,需要进一步的研究,因此,读者只能将这些方法看作是解决某一问题的思路或目前已有的较好的方法.有关计算机视觉的其他参考书有[Ballard1982,Horn1986,Boyle1988,Kanade1987,Shirai1987,Haralick 1992,Faugeras1993,Wu1993].思考题1.当你在马路上行走时,你的视觉系统应获取环境的什么信息?你认为应如何获取这些信息,即从视网膜上的图像如何得到最终需要的信息?2.当你看到一张熟人的照片时,你认为你是根据什么特征识别的?你认为熟人的形象是以什么方式存储在你的大脑中的?3.刚体的旋转可用旋转矩阵表示,也可以用旋转轴与旋转角表示,请列举一些描述其他某物理或几何性质的不同表达方法,并说明为什么要采取不同的表达方法,4.当物体间互相遮挡时,你是如何由部分物体信息识别物体的?你认为你的识别策略与自下而上的信息处理方式有无矛盾?5.你认为图像中是否包含了理解环境所需要的全部信息?参考文献[Ballard1982]D.H.Ballard and C.M.Brown,ComputerVision,Prentice-Hall,Englewood,Cliffs,NJ 1982.[Boyle1988] R.D.Boyle and R.C.Thomas,Computer Vision,AFirst Course,Blackwell ScientificOxford,1988.[Chen1982] L.Chen,Topological Structure inVisual Perception,Science,218,pp.699—700,1982.[Chen 1989J L.Chen,Topological Perception:AChallenge toComputational Approaches toVision,Connectionism inPerspective,R.Pfeifer, Z.Schreter, E.Fogelman-Soulie and L. Steels,Eds.,Elsevier Science Publishers,B.V.,pp.317—329,1989.[Faugeras 1993]O.D.Faugeras,ThreeDimensional ComputerVision;A GeometricViewpoint,MITPress,Boston,1993.[Gibson1979] J.J.Gibson,TheEcological Approach to Visual Perception,Houghton Mifflin,Boston,1979.[Gonzalez 1987JR.C.Gonzalez and P.Wintz,Digital ImageProcessing,2ndEd.,Addison-Wesley,Reading,MA1987.[Haralick 1992J R.M.Haralick and L.G.Shapiro,Computer and Robot Vision,Vols.1 and 2,Addison-Wesley,1992.[Horn1986]B.K.P.Horn,RobotVision,MITPress,Cambridge,MA,1986.[Hubel 1979] D.H. Hubel &nd T. N.Wiesel, Brain Mechanisms of Vision, The Brain: A Scientific American Book
10第一章绪论NewYork: W.H.Freeman.[Kanade1987] T.Kanade,ThreeDimensionalVision,Kluwer,Boston,1987.[Marr1982]D.Marr,Vision,W.H.FreemanandCompany,SanFrancisco.中译本:视觉计算理论,姚国正、刘磊、汪云九译,科学出版社,1988.[Roberts1965] L.G.Roberts,Machine Perception of Three-Dimensional Solids,Optical and Electro-Optical Informa-tion Processing,J.P.Tippet and al,Eds,pp.159-197,Cambridge,MA,MITPress.[Rosenfeld 1982] A.Rosenfeld and A.Kak,Digital Picture Processing,2nd Ed.,Vols.1 and 2.Computer SeienceandApplied Mathematics,AcademicPress,Orlando,FL,1982.[Ruan1992]阮迪云,寿天德,神经生理学,中国科技大学出版社,1992.[Semple1949] J.P.Semple and L.Roth,Introduction to Algebraic Geometry,Clarendon Press,Oxford,1949.[Shirai 1987] Y.Shirai,Three Dimensional Computer Vision, Symbolic Computation, Springer-Verlag,Berlin,.1987.[Wang1995]王润生,图像理解,国防科技大学出版社,1995.[Wu1993]吴立德,计算机视觉,复且大学出版社,1993