CHINESE JOURNAL OF COMPUTERS 神经形态视觉传感器的研究进展及应用综述 李家宁田永鸿2 北京大学计算机科学技术系北京100871) 2鹏城实验室深圳518055 摘要神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势,近年来在自动驾驶、 无人机视觉导航、工业检测及视觉监控等领域(尤其在涉及高速运动和极端光照等条件下)产生了巨大的应用前景.神经 形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统,终极目标是模拟生物视觉感知结构与机理,以硅视网 膜达到、扩展或超越人类智能.作为神经形态工程的重要分支,神经形态视觉是计算神经科学与计算机视觉领域的交叉学 科与研究热点.本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉仼务 应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视 觉和人工智能领域的潜在影响 关键词类脑智能:人工智能:硅视网膜;仿生视觉:神经形态工程 中图法分类号TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning TIAN Yong-Hong Department of Computer Science and Technology, Peking University, Beijing 100871) ( Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range(HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (loT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called"spikes"to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some 本课题得到国家自然科学基金项目(No.61825101No.Ul611461)、“中国人工智能20发展战略研究”重大咨询研究项目(三期)中课题3“跨媒体智 能及其类脑计算融合”资助.李家宁,男,1990年生,博士研究生,主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程.Emal jianing@pku.edu.cn.田永鸿(逦信作着),男,1975年生,博士,教授,中国计算机学会CCF高级会员,主要研究领域为视频大数据分析处理、机 器学习与类脑计算.E-mail:yutian@pku.edu.cn
计 算 机 学 报 CHINESE JOURNAL OF COMPUTERS ——————————————— 本课题得到国家自然科学基金项目(No. 61825101, No. U1611461)、“中国人工智能2.0发展战略研究”重大咨询研究项目(三期)中课题3“跨媒体智 能及其类脑计算融合”资助.李家宁,男,1990年生,博士研究生, 主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程.E-mail: lijianing@pku.edu.cn. 田永鸿(通信作者),男,1975年生,博士,教授,中国计算机学会(CCF)高级会员, 主要研究领域为视频大数据分析处理、机 器学习与类脑计算.E-mail: yhtian@pku.edu.cn. 神经形态视觉传感器的研究进展及应用综述 李家宁 1) 田永鸿 1),2) 1) (北京大学计算机科学技术系 北京 100871) 2) (鹏城实验室 深圳 518055) 摘 要 神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势,近年来在自动驾驶、 无人机视觉导航、工业检测及视觉监控等领域(尤其在涉及高速运动和极端光照等条件下)产生了巨大的应用前景.神经 形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统,终极目标是模拟生物视觉感知结构与机理,以硅视网 膜达到、扩展或超越人类智能.作为神经形态工程的重要分支,神经形态视觉是计算神经科学与计算机视觉领域的交叉学 科与研究热点.本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉任务 应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视 觉和人工智能领域的潜在影响. 关键词 类脑智能;人工智能;硅视网膜;仿生视觉;神经形态工程 中图法分类号 TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning1) TIAN Yong-Hong1), 2) 1) (Department of Computer Science and Technology, Peking University, Beijing 100871) 2) (Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range (HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (IoT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called “spikes” to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some significant challenges
计算机学报 2020年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e, dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors(e.g, DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, w summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNS), and deep neural networks(DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing;(iii) Learning a better spatial-temporal representation from asynchronous spikes;(iv) Exploring high-speed computing paradigm via neuromorphic chips(e.g, TrueNorth Loihi, and SpiNNaker);(v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors More precisely, we look forward to new materials to enhance the sensing abilities in computational speed memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications Key words brain-inspired intelligence; artificial intelligence, silicon retina; bio-inspired vision; neuromorphic ng 人类视觉系统具有低冗余、低功耗、高动态及 1引言 鲁棒性强等优势,可以高效地自适应处理动态与静 态信息,且具有极强地小样本泛化能力和全面的复 视觉是智慧生物和智能体的基本功能,负责理杂场景感知能力.探索人类视觉系统的奥秘,并 解与感知外部世界.人类感知系统有超过80%信息借鉴人类视觉系统的神经网络结构和视觉信息采 量来自视觉系统,远远超过听觉系统、触觉系统以样加工处理机理明,建立起一套新的视觉信息感知 及其他感知系统之和叫.如何设计强大的视觉感知与处理理论、技术标准、芯片和应用工程系统,从 系统,以应用于计算机视觉技术和人工智能技术,而更好模拟、扩展或超越人类视觉感知系统的能 直是科学界和工业界的研究热点 力.这是神经科学与信息科学的交叉学科,称之为 视频即静止图像序列,是随着电影电视技术发神经形态视觉!011 展起来的一个人造概念,利用了人类视觉系统的视 神经形态视觉是一个包含硬件开发,软件支 觉暂留现象,将两帧图像刷新的时间间隔小于50撑,生物神经模型,三者不可缺一的视觉感知系统 毫秒,会产生连续的视觉感受.近年来,传统视频其终极目标之一是模拟生物视觉感知结构与机理 在视觉观赏角度取得了重大进展向,但存在数据采以硅视网膜( Silicon retina)来以期达到真正的 样冗余大、感光动态范围小和时域采集低分辨率,机器视觉 在高速运动场景易产生运动模糊等缺点S.此外, 神经形态视觉传感器的研制是建立在神经科 计算机视觉一直朝着“视频摄像头±计算杋+算法=学、生理学等领域对生物视网膜结构与功能机理的 机器视觉”的主流方向,却很少人质疑用图像序研究基础上.1943年 McCulloch和Pit提出一种 列(视频)表达视觉信息的合理性,更少人质疑是具有计算能力的神经元模型.1952年 Hodgkin和 否凭借该计算机视觉算法就能实现真正机器视觉. Huxley对神经元建立动力学微分方程描述神经
2 计 算 机 学 报 2020 年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e., dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors (e.g., DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods, such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, we summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNs), and deep neural networks (DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing; (iii) Learning a better spatial-temporal representation from asynchronous spikes; (iv) Exploring high-speed computing paradigm via neuromorphic chips (e.g., TrueNorth, Loihi, and SpiNNaker); (v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors. More precisely, we look forward to new materials to enhance the sensing abilities in computational speed, memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications. Key words brain-inspired intelligence; artificial intelligence; silicon retina; bio-inspired vision; neuromorphic engineering 1 引言 视觉是智慧生物和智能体的基本功能,负责理 解与感知外部世界.人类感知系统有超过 80%信息 量来自视觉系统,远远超过听觉系统、触觉系统以 及其他感知系统之和[1].如何设计强大的视觉感知 系统,以应用于计算机视觉技术和人工智能技术, 一直是科学界和工业界的研究热点[2]. 视频即静止图像序列,是随着电影电视技术发 展起来的一个人造概念,利用了人类视觉系统的视 觉暂留现象[3],将两帧图像刷新的时间间隔小于 50 毫秒,会产生连续的视觉感受.近年来,传统视频 在视觉观赏角度取得了重大进展[4],但存在数据采 样冗余大、感光动态范围小和时域采集低分辨率, 在高速运动场景易产生运动模糊等缺点[5].此外, 计算机视觉一直朝着“视频摄像头+计算机+算法= 机器视觉”的主流方向[6-7],却很少人质疑用图像序 列(视频)表达视觉信息的合理性,更少人质疑是 否凭借该计算机视觉算法就能实现真正机器视觉. 人类视觉系统具有低冗余、低功耗、高动态及 鲁棒性强等优势,可以高效地自适应处理动态与静 态信息,且具有极强地小样本泛化能力和全面的复 杂场景感知能力[8].探索人类视觉系统的奥秘,并 借鉴人类视觉系统的神经网络结构和视觉信息采 样加工处理机理[9],建立起一套新的视觉信息感知 与处理理论、技术标准、芯片和应用工程系统,从 而更好模拟、扩展或超越人类视觉感知系统的能 力.这是神经科学与信息科学的交叉学科,称之为 神经形态视觉[10-12]. 神经形态视觉是一个包含硬件开发,软件支 撑,生物神经模型,三者不可缺一的视觉感知系统, 其终极目标之一是模拟生物视觉感知结构与机理, 以硅视网膜(Silicon Retina)[13]来以期达到真正的 机器视觉. 神经形态视觉传感器的研制是建立在神经科 学、生理学等领域对生物视网膜结构与功能机理的 研究基础上.1943 年 McCulloch 和 Pitts[14]提出一种 具有计算能力的神经元模型.1952 年 Hodgkin 和 Huxley[15]对神经元建立动力学微分方程描述神经
李家宁等:神经形态视觉传感器的研究进展及应用综述 Mcculloch和Pits Mead提出神经形态 Mahowald队 Delbruck团队| Delbruck团队 Delbruck团队 提出神经元模型 ( Neuromorphic)概念提出AER方式研制首款DvS提出DAS发彩色DMVs346 1952 2016 1990 Hodgkin Mahowald和Mead研 Culureiello等人 Posh等人陈守顺教授团队黄铁军教授团队 建立动力 制第一款硅视网膜设计章鱼网膜 研制ATS 研制Ceex 开发vda 描述神 图1神经形态视觉传感器的发展历程,蓝色框为里程碑事件 元动作电位的产生与传递过程,该动作电位称为脉器( Dynamic and Active Pixel Vision Sensor 冲( Spike).1986年加州理工学院的博士研究生 DAVIS),即一种双模的技术路线,增加额外独立的 Mahowald所想:“大脑是想象力的发源地,这让我传统图像采样电路弥补DⅤS纹理成像的缺陷,随 很兴奋,我希望可以创造一个想象事物的芯片”,后在2017年又将其扩展为彩色 DAVIS34621.2016 那时与导师 Carver Mead教授开始萌发从生物神经年陈守顺教授团队采用了增加事件的位宽,让事 科学和工程学角度研究立体视觉的问题.1990年件携带像素光强信息输出以恢复场景纹理.2018年 Mead首次在《 Proceedings of ieee》上提出神经形黄铁军教授团队叫采用了章鱼视网膜8的光强积 态( Neuromorphic)的概念,利用大规模集成电分发放采样原理,将脉冲平面传输替换AER方式 路来模拟生物神经系统.199Ⅰ年 Mahowald和以节约传输带宽,验证了积分型采样原理可高速重 Mead在《 Scientific American》的封面刊登了一只构场景纹理细节,即仿视网膜中央凹采样模型 运动的猫,标志了第一款硅视网膜的诞生,其模拟( Fovea- like Sampling Model,FSM),也称 Vidar, 了视网膜上视锥细胞、水平细胞以及双极细胞的生如图1所示.神经形态视觉传感器92模拟生物视 物功能,正式点燃了神经形态视觉传感器这一新兴觉感知系统,其具有高的时域分辨率、数据冗余少 领域.1993年 Mahowald团队为了解决集成电路低功耗和高动态范围的优势,在自动驾驶p2、无 的稠密三维连线的问题,提出了一种新型的集成电人机视觉导航128、工业检测及视频监控等机 路通信协议,即地址事件协议( Address- Event器视觉领域,尤其在涉及高速运动和极端光照场景 Representation,AER),实现了事件的异步读下有着巨大的市场潜力.此外,神经形态视觉釆样、 出.2003年 Culurciello等人1设计了一种AER方处理及应用是神经形态工程的重要分支,为计算 式的积分发放的脉冲模型,将像素光强编码为频率神经科学的脑启发视觉模型提供了验证,也是探 或脉冲间隔,称为章鱼视网膜( Octopus索人类智能的有效途径之一.目前神经形态视觉传 Retina).2005年 Delbruck团队9研制出动态视觉感器的研究与应用尚处于初期阶段,达到或超越人 传感器( Dynamic Vision Sensor,DVS),以时空异类视觉系统在复杂交互环境下的感知能力还需要 步稀疏的事件( Event)表示像素光强变化,其商业大量的探索研究. 化具有里程牌的意义.然而,DVS无法捕捉自然场 本文从神经形态视觉的发展历程、生物视觉神 景的精细纹理图像.2008年Posh等人提出了一经采样模型到神经形态视觉传感器的采样机理及 种基于异步视觉的图像传感器( Asynchronous类型、神经视觉信号处理与特征表达及视觉应用的 Time-based Image Sensor,ATS),引入了基于事件触视角进行系统性回顾与综述,并展望了该领域未来 发的光强测量电路来重构变化处的像素灰度.2013研究的重大挑战与可能发展方向,同时探讨了其对 年 Delbruck团队2开发了动态有源像素视觉传感未来机器视觉和人工智能领域的潜在影响
李家宁等:神经形态视觉传感器的研究进展及应用综述 3 图 1 神经形态视觉传感器的发展历程,蓝色框为里程碑事件 元动作电位的产生与传递过程,该动作电位称为脉 冲(Spike).1986 年加州理工学院的博士研究生 Mahowald 所想:“大脑是想象力的发源地,这让我 很兴奋,我希望可以创造一个想象事物的芯片”, 那时与导师 Carver Mead 教授开始萌发从生物神经 科学和工程学角度研究立体视觉的问题.1990 年 Mead 首次在《Proceedings of IEEE》上提出神经形 态(Neuromorphic)的概念[16],利用大规模集成电 路来模拟生物神经系统.1991 年 Mahowald 和 Mead[13]在《Scientific American》的封面刊登了一只 运动的猫,标志了第一款硅视网膜的诞生,其模拟 了视网膜上视锥细胞、水平细胞以及双极细胞的生 物功能,正式点燃了神经形态视觉传感器这一新兴 领域.1993 年 Mahowald[17]团队为了解决集成电路 的稠密三维连线的问题,提出了一种新型的集成电 路通信协议,即地址事件协议(Address-Event Representation, AER ), 实 现 了 事 件 的 异 步 读 出.2003 年 Culurciello 等人[18]设计了一种 AER 方 式的积分发放的脉冲模型,将像素光强编码为频率 或 脉 冲 间 隔 , 称 为 章 鱼 视 网 膜 ( Octopus Retina).2005 年 Delbruck 团队[19]研制出动态视觉 传感器(Dynamic Vision Sensor, DVS),以时空异 步稀疏的事件(Event)表示像素光强变化,其商业 化具有里程牌的意义.然而,DVS 无法捕捉自然场 景的精细纹理图像.2008 年 Posh 等人[20]提出了一 种基于异步视觉的图像传感器(Asynchronous Time-based Image Sensor, ATIS),引入了基于事件触 发的光强测量电路来重构变化处的像素灰度.2013 年 Delbruck 团队[21]开发了动态有源像素视觉传感 器 ( Dynamic and Active Pixel Vision Sensor, DAVIS),即一种双模的技术路线,增加额外独立的 传统图像采样电路弥补 DVS 纹理成像的缺陷,随 后在 2017 年又将其扩展为彩色 DAVIS346[22].2016 年陈守顺教授团队[23]采用了增加事件的位宽,让事 件携带像素光强信息输出以恢复场景纹理.2018 年 黄铁军教授团队[24]采用了章鱼视网膜[18]的光强积 分发放采样原理,将脉冲平面传输替换 AER 方式 以节约传输带宽,验证了积分型采样原理可高速重 构场景纹理细节,即仿视网膜中央凹采样模型 (Fovea-like Sampling Model, FSM),也称 Vidar, 如图 1 所示.神经形态视觉传感器[19-23]模拟生物视 觉感知系统,其具有高的时域分辨率、数据冗余少、 低功耗和高动态范围的优势,在自动驾驶[25-26]、无 人机视觉导航[27-28]、工业检测[29]及视频监控[30]等机 器视觉领域,尤其在涉及高速运动和极端光照场景 下有着巨大的市场潜力.此外,神经形态视觉采样、 处理及应用是神经形态工程的重要分支[31] ,为计算 神经科学的脑启发视觉模型提供了验证[32],也是探 索人类智能的有效途径之一.目前神经形态视觉传 感器的研究与应用尚处于初期阶段,达到或超越人 类视觉系统在复杂交互环境下的感知能力还需要 大量的探索研究. 本文从神经形态视觉的发展历程、生物视觉神 经采样模型到神经形态视觉传感器的采样机理及 类型、神经视觉信号处理与特征表达及视觉应用的 视角进行系统性回顾与综述,并展望了该领域未来 研究的重大挑战与可能发展方向,同时探讨了其对 未来机器视觉和人工智能领域的潜在影响.
计算机学报 2020年 2神经形态视觉模型与采样机理 神经形态视觉的技术路线总体上分为三个层 次:结构层次模仿视网膜,器件功能层次逼近视网 膜,智能层次超越视网膜.如果说传统相机是对人 类视觉系统的模拟,那么这种仿生物视网膜只是器 件功能层次的初级模拟.实际上,传统相机无论是 水平红胞。双极细跑 在结构层次、功能层次,甚至智能层次都远不及人 类视网膜在各种复杂环境的感知能力 近年来,各国“脑计划”的相继布局与展开, 神经节细胞 图3灵长类生物视网膜横截面示意图叫 将从结构层次解析类脑视觉列为重要内容之一支 持,主要通过神经科学家采用精细解析与先进探测 技术,获取视网膜基本单元的结构、功能及其网络包括光感受器细胞、双极细胞、水平细胞、神经节 连接,为器件功能层次逼近生物视觉感知系统提供 细胞等主要构成,如图3所示.光感受器细胞分 理论支撑.神经形态视觉传感器正是从器件功能层 为视杆细胞和视锥细胞两类,负责将进入眼球的光 次仿真入手,即采用光电纳米器件模拟生物视觉采 信号转化为电信号,并传导至双极细胞和水平细 样模型与信息处理功能,在有限的物理空间和功耗胞.视锥细胞对颜色敏感,主要负责颜色的识别, 条件下构造出具有或超越生物视觉能力的感知系 通常在场景光照较强条件下工作;视杆细胞对光线 敏感,能够感受弱光,主要提供夜晚场景下工作, 统.简而言之,神经形态视觉传感器不用等完全理 解视网膜的解析结构与机理再进行模拟,而是借鉴 但其没有颜色辨别能力.双极细胞接受光感受器的 结构层次研究机理并绕过这个更为困难的问题,通信号输入,其根据感受野的区域不同分为ON型和 过器件功能层次逼近等仿真工程技术手段达到、扩 OFF型两类细胞,分别感知光强增加和光强减 弱.水平细胞与光感受器、双极细胞横向互连,对 展或超越人类视觉感知系统的能力 目前,神经形态视觉传感器已经取得了阶段性 光感受器输出的信号进行亮度调节,同时也负责增 成果,有模拟视网膜外周感知运动功能的差分型视强视觉对象边缘凸显轮廓.神经节细胞负责接受双 觉采样模型,如DVS剛、ATIS2、 DAVIS212) 极细胞的视觉信号输入,并以时空脉冲信号 Ceex23:也有模拟视网膜中央凹感知精细纹理功 ( Spatial- emporal Spike)的形式做出响应,再经 能的积分型视觉采样模型,如章鱼视网膜1S 视觉纤维传递至视觉皮层.此外,视网膜细胞 Ⅴidar24 有多条并行通路传递和处理视觉信号,有极大的带 宽传输与速度优势,其中 Magnocellular和 Parvocellular通路是最主要的两条信号通路,分 外膝体 别对场景的时域变化敏感和空间结构敏感. 灵长类生物视网膜具有以下优势 (1)光感受器的局部自适应增益控制:以记 录光强变化替代绝对光强来消除冗余,对光强感知 腹侧通路 有高动态范围( High Dynamic Range,HDR) 图2视觉通路模型 2)视杆细胞的空间带通滤波器:滤除低频 信息的视觉信息冗余和高频信息的噪声 (3)ON和OFF类型:神经节细胞及视网膜 2.1生物视网膜视觉模型 输出均为ON和OFF脉冲信号编码,降低了单通道 脊椎动物的视网膜是在6亿年前由光感受神经细胞的脉冲发放频率 演变而成,位于后半眼球的多层复杂神经网状结 (4)感光功能区:视网膜中央凹具有高的空 构,如图2所示.灵长类生物视网膜大致可以分为间分辨率,可捕捉精细纹理;其外周的区域具有高 三层结构:光感受器层、内丛状层和外丛状层,其的时间分辨率,捕获快速运动信息
4 计 算 机 学 报 2020 年 2 神经形态视觉模型与采样机理 神经形态视觉的技术路线总体上分为三个层 次:结构层次模仿视网膜,器件功能层次逼近视网 膜,智能层次超越视网膜.如果说传统相机是对人 类视觉系统的模拟,那么这种仿生物视网膜只是器 件功能层次的初级模拟.实际上,传统相机无论是 在结构层次、功能层次,甚至智能层次都远不及人 类视网膜在各种复杂环境的感知能力. 近年来,各国“脑计划”[33]相继布局与展开, 将从结构层次解析类脑视觉列为重要内容之一支 持,主要通过神经科学家采用精细解析与先进探测 技术,获取视网膜基本单元的结构、功能及其网络 连接,为器件功能层次逼近生物视觉感知系统提供 理论支撑.神经形态视觉传感器正是从器件功能层 次仿真入手,即采用光电纳米器件模拟生物视觉采 样模型与信息处理功能,在有限的物理空间和功耗 条件下构造出具有或超越生物视觉能力的感知系 统.简而言之,神经形态视觉传感器不用等完全理 解视网膜的解析结构与机理再进行模拟,而是借鉴 结构层次研究机理并绕过这个更为困难的问题,通 过器件功能层次逼近等仿真工程技术手段达到、扩 展或超越人类视觉感知系统的能力. 目前,神经形态视觉传感器已经取得了阶段性 成果,有模拟视网膜外周感知运动功能的差分型视 觉采样模型,如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23];也有模拟视网膜中央凹感知精细纹理功 能的积分型视觉采样模型,如章鱼视网膜[18]、 Vidar[24]. 图 2 视觉通路模型 2.1 生物视网膜视觉模型 脊椎动物的视网膜是在 6 亿年前由光感受神经细胞 演变而成,位于后半眼球的多层复杂神经网状结 构,如图 2 所示.灵长类生物视网膜大致可以分为 三层结构:光感受器层、内丛状层和外丛状层,其 图 3 灵长类生物视网膜横截面示意图[34] 包括光感受器细胞、双极细胞、水平细胞、神经节 细胞等主要构成[34],如图 3 所示.光感受器细胞分 为视杆细胞和视锥细胞两类,负责将进入眼球的光 信号转化为电信号,并传导至双极细胞和水平细 胞.视锥细胞对颜色敏感,主要负责颜色的识别, 通常在场景光照较强条件下工作;视杆细胞对光线 敏感,能够感受弱光,主要提供夜晚场景下工作, 但其没有颜色辨别能力.双极细胞接受光感受器的 信号输入,其根据感受野的区域不同分为 ON 型和 OFF 型两类细胞,分别感知光强增加和光强减 弱.水平细胞与光感受器、双极细胞横向互连,对 光感受器输出的信号进行亮度调节,同时也负责增 强视觉对象边缘凸显轮廓.神经节细胞负责接受双 极细胞的视觉信号输入,并以时空脉冲信号 (Spatial-Temporal Spike)的形式做出响应,再经 视觉纤维传递至视觉皮层[11]. 此外,视网膜细胞 有多条并行通路传递和处理视觉信号,有极大的带 宽 传 输 与 速 度 优 势 , 其 中 Magnocellular 和 Parvocellular 通路是最主要的两条信号通路[35],分 别对场景的时域变化敏感和空间结构敏感. 灵长类生物视网膜具有以下优势[11]: (1)光感受器的局部自适应增益控制:以记 录光强变化替代绝对光强来消除冗余,对光强感知 有高动态范围(High Dynamic Range, HDR); (2)视杆细胞的空间带通滤波器:滤除低频 信息的视觉信息冗余和高频信息的噪声; (3)ON 和 OFF 类型:神经节细胞及视网膜 输出均为 ON 和 OFF 脉冲信号编码,降低了单通道 的脉冲发放频率; (4)感光功能区:视网膜中央凹具有高的空 间分辨率,可捕捉精细纹理;其外周的区域具有高 的时间分辨率,捕获快速运动信息.
李家宁等:神经形态视觉传感器的研究进展及应用综述 此外,依据 Nyquist采样定理传统相机需要传间先后顺序异步传出,而不是类似传统相机那样以 输超过20Gb/s的数据才能匹配人类视觉的动态范固定频率的图像传出,解码电路依据地址及时间解 围与空间分辨率,而生物视觉以二进制脉冲信息表析事件属性.AER方式用于神经形态视觉传感器的 示与编码,视觉神经仅需传输20Mb/s数据至视觉主要特点在于: 皮层,数据量少将近1000倍.因此,视网膜通过 (1)硅视网膜像素输出事件模拟视网膜的神 神经节细胞将光强信息转换为时空脉冲阵列信号,经元发放脉冲信号的功能; 是一种高效的视觉信息表示与编码的方法狗,为 2)硅视网膜像素之间光强感知、脉冲产生 神经形态视觉传感器提供了理论支撑与功能层次及传输均异步; 的启发 (3)硅视网膜输出异步事件稀疏时,事件表 生物视觉系统的信息获取、加工和处理主要发示及传输更高效 生在视网膜、外膝体与视皮层等处門,如图2所 差分型视觉采样是神经形态视觉传感器感知 示,视网膜是接收视觉信息的第一站;外膝体是将模型的主流,如DVs、AIIS2、DAVs21-2 视网膜视觉信号传输到初级视皮层的信息中转站;CeeX2,其对灵长类视网膜外周中光感受器、双 视皮层是视觉中央处理器,在学习记忆、思维语言极细胞、神经节细胞三层结构的抽象,从器件功能 以及知觉意识等高级视觉功能方面发挥至关重要层次上逼近或超越视网膜外周的高时间分辨率感 的重要.视皮层信息处理的整个过程由两条并行知的能力,如图5(a).为了提高光强感知动态范 通路完成:Vl、V2和4等组成腹侧通路主要处理围,DⅤS系列视觉传感器多采用对数差分模型,即 物体形状、颜色等信息识别,也称what通路;光电流与电压采用对数映射关系,如图5(b).随着 V1、V2和MT等组成的背侧通路主要处理空间位光强的相对变化引起电压变化超过设定阈值θ,像 置、运动等信息,也称 where通路.因此,借鉴素产生一个脉冲信号,如图5(c)所示,其原理如 神经计算模型探索人类视觉系统信息处理与分析下: 机制,为计算机视觉与人工智能技术提供借鉴思路 AL=InL(u, tInL(u, t-4t=p0 (1) 与指导方向,进一步启发类脑视觉理论模型与计算 差分型视觉传感器采用AER方式,每个脉冲 方法,从而更好的挖掘视觉特征信息,以逼近生物信号采用事件形式表示,包括像素位置u=(x,y)、 视觉的高效自适应地处理动静信息、极强的小样本发放时间t和事件极性p,即一个四元组表示 泛化能力与全面视觉分析能力 (x,y,L,p).前三项唯一确定时空域的位置,最后 22差分型视觉采样及AER传输协议 项极性p={-1,l}分别表示光强的减弱OFF和光强 神经元之间的复杂连接,脉冲信号在神经元之增强ON.差分型神经形态视觉传感器与传统相机 间的传递是异步的,那么神经形态工程系统如何模相比,其优势在于: 拟这一特性呢?正是 Mahowald团队提出新型的 (1)输出异步稀疏脉冲也不存在“帧”的概 通信协议AER方式,如图4所示,用于脉冲信号念,不再受限于快门时间和帧率,感知光强的变化, 多路异步传输,也解决了大规模集成电路的三维稠可消除静态不变的视觉冗余 密连线难题,即“连线问题”( Wiring problem) (2)采样具有高时间分辨率,适用于高速运 动视觉任务分析 像素脉冲事件 脉冲事件 (3)光电流与电压的对数映射关系,增强了 高低光照的感知能力进而提升动态范围。 (1,2) 2.3积分型视觉采样 (2,2)(1.1)(21)(1,2 (2,1) 积分型视觉采样在功能上对灵长类视网膜中 央凹区域的光感受器、双极细胞、神经节细胞三层 结构的抽象,如章鱼视网膜、vdar24.积分型 图4AER方式示意图 视觉传感器模拟了神经元积分发放模型,将像素光 强编码为频率或脉冲间隔182·34,具有对视觉场 AER方式将传感器上每个像素视为独立,脉冲景的精细纹理高速重构的能力网,如图6所示.光 信号以事件( Event)的形式传输,并按事件产生时感受器将光信号转化为电信号,积分器在光照条件
李家宁等:神经形态视觉传感器的研究进展及应用综述 5 此外,依据 Nyquist 采样定理传统相机需要传 输超过 20Gb/s 的数据才能匹配人类视觉的动态范 围与空间分辨率,而生物视觉以二进制脉冲信息表 示与编码,视觉神经仅需传输 20Mb/s 数据至视觉 皮层,数据量少将近 1000 倍.因此,视网膜通过 神经节细胞将光强信息转换为时空脉冲阵列信号, 是一种高效的视觉信息表示与编码的方法[11, 36],为 神经形态视觉传感器提供了理论支撑与功能层次 的启发. 生物视觉系统的信息获取、加工和处理主要发 生在视网膜、外膝体与视皮层等处[9],如图 2 所 示.视网膜是接收视觉信息的第一站;外膝体是将 视网膜视觉信号传输到初级视皮层的信息中转站; 视皮层是视觉中央处理器,在学习记忆、思维语言 以及知觉意识等高级视觉功能方面发挥至关重要 的重要[37].视皮层信息处理的整个过程由两条并行 通路完成:V1、V2 和 V4 等组成腹侧通路主要处理 物体形状、颜色等信息识别[38],也称 what 通路; V1、V2 和 MT 等组成的背侧通路主要处理空间位 置、运动等信息[39],也称 where 通路.因此,借鉴 神经计算模型探索人类视觉系统信息处理与分析 机制,为计算机视觉与人工智能技术提供借鉴思路 与指导方向,进一步启发类脑视觉理论模型与计算 方法,从而更好的挖掘视觉特征信息,以逼近生物 视觉的高效自适应地处理动静信息、极强的小样本 泛化能力与全面视觉分析能力. 2.2 差分型视觉采样及AER传输协议 神经元之间的复杂连接,脉冲信号在神经元之 间的传递是异步的,那么神经形态工程系统如何模 拟这一特性呢?正是 Mahowald 团队[17]提出新型的 通信协议 AER 方式,如图 4 所示,用于脉冲信号 多路异步传输,也解决了大规模集成电路的三维稠 密连线难题,即“连线问题”(Wiring Problem). 图 4 AER 方式示意图 AER 方式将传感器上每个像素视为独立,脉冲 信号以事件(Event)的形式传输,并按事件产生时 间先后顺序异步传出,而不是类似传统相机那样以 固定频率的图像传出,解码电路依据地址及时间解 析事件属性.AER 方式用于神经形态视觉传感器的 主要特点[40]在于: (1)硅视网膜像素输出事件模拟视网膜的神 经元发放脉冲信号的功能; (2)硅视网膜像素之间光强感知、脉冲产生 及传输均异步; (3)硅视网膜输出异步事件稀疏时,事件表 示及传输更高效. 差分型视觉采样是神经形态视觉传感器感知 模型的主流,如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23],其对灵长类视网膜外周中光感受器、双 极细胞、神经节细胞三层结构的抽象,从器件功能 层次上逼近或超越视网膜外周的高时间分辨率感 知的能力,如图 5(a).为了提高光强感知动态范 围,DVS 系列视觉传感器多采用对数差分模型,即 光电流与电压采用对数映射关系,如图 5(b).随着 光强的相对变化引起电压变化超过设定阈值 ,像 素产生一个脉冲信号,如图 5(c)所示,其原理如 下: 𝛥𝐿≐ln𝐿(𝑢,𝑡)−ln𝐿(𝑢,𝑡−𝛥𝑡)=𝑝𝜃 (1) 差分型视觉传感器采用 AER 方式,每个脉冲 信号采用事件形式表示,包括像素位置 u x y ( , ) 、 发放时间 t 和事件极性 p ,即一个四元组表示 ( , , , ) x y t p .前三项唯一确定时空域的位置,最后一 项极性 p { 1,1} 分别表示光强的减弱 OFF 和光强 增强 ON.差分型神经形态视觉传感器与传统相机 相比,其优势在于: (1)输出异步稀疏脉冲也不存在“帧”的概 念,不再受限于快门时间和帧率,感知光强的变化, 可消除静态不变的视觉冗余; (2)采样具有高时间分辨率,适用于高速运 动视觉任务分析; (3)光电流与电压的对数映射关系,增强了 高低光照的感知能力进而提升动态范围。 2.3 积分型视觉采样 积分型视觉采样在功能上对灵长类视网膜中 央凹区域的光感受器、双极细胞、神经节细胞三层 结构的抽象,如章鱼视网膜[18]、Vidar[24].积分型 视觉传感器模拟了神经元积分发放模型,将像素光 强编码为频率或脉冲间隔[18, 24, 38-45],具有对视觉场 景的精细纹理高速重构的能力[44],如图 6 所示.光 感受器将光信号转化为电信号,积分器在光照条件