计算机学报 2020年 v C2 n van 计:复位 (b)光强差分采样 光感受器日:双极细胞 F神经节细胞 ⊙ (a)灵长类视网膜外层三层结构及DVS电路 (c)DS脉冲信号累计平面 图5差分型视觉采样 readout Spikes vp (b)光强积分采样 光感受器 经节细胞 +) (a)灵长类视网膜中央凹三层结构及Ⅴidar电路 (c) Vidar脉冲信号纹理成像 图6积分型视觉采样 ()条件下进行累计到达累计强度A(),当该强度 值超过脉冲发放阅值q时,则像素点输出一个脉冲3神经形态视觉传感器类型 信号,同时积分器复位清空电荷,其原理如下: 神经形态视觉传感器借鉴生物视觉系统的神 A(0=1()dr (2) 经网络结构和视觉信息采样加工处理机理,以器件 积分型视觉传感器的像素间彼此独立,章鱼视功能层次模拟、扩展或超越生物视觉感知系统.近 网膜采用AER方式将脉冲信号进行输出,尤其年来,一大批代表性的神经形态视觉传感器涌现, 在光强充足时积分型视觉传感器脉冲发放稠密,事是人类在探索仿生视觉技术的雏形,有模拟视网膜 件表示容易出现同一位置及相邻位置多次请求脉外周感知运动功能的差分型视觉采样模型,如 冲输出,会出现数据传输的巨大压力,不得不设计DⅤs、ATS2、DAVS212)、cleX23;也有模 总线仲裁机制,为脉冲输出确定优先级,甚至会因拟视网膜中央凹感知精细纹理功能的积分型视觉 带宽限制丢失脉冲信号. Vidar探索高速轮询的采样模型,如vdar24. 方式以脉冲矩阵的形式传输每个采样时刻的脉冲31DVs 发放,此方式不需要输出脉冲的坐标与时间戳,只 需将像素是否发放标记为“1”和“0”.将脉冲平 DVS对灵长类视网膜外周中的光感受器、双 面轮询的方式代替AER方式可以节约传输带宽 极细胞、神经节细胞三层结构的功能抽象,由光电 转换电路、动态检测电路和比较器输出电路组成
6 计 算 机 学 报 2020 年 (a)灵长类视网膜外层三层结构及 DVS 电路 (b)光强差分采样 (c)DVS 脉冲信号累计平面 图 5 差分型视觉采样[11] (a)灵长类视网膜中央凹三层结构及 Vidar 电路 (b)光强积分采样 (c)Vidar 脉冲信号纹理成像 图 6 积分型视觉采样 It() 条件下进行累计到达累计强度 At(),当该强度 值超过脉冲发放阈值 时,则像素点输出一个脉冲 信号,同时积分器复位清空电荷[45],其原理如下: 0 ( ) ( ) t A t I t dt (2) 积分型视觉传感器的像素间彼此独立,章鱼视 网膜[18]采用 AER 方式将脉冲信号进行输出,尤其 在光强充足时积分型视觉传感器脉冲发放稠密,事 件表示容易出现同一位置及相邻位置多次请求脉 冲输出,会出现数据传输的巨大压力,不得不设计 总线仲裁机制,为脉冲输出确定优先级,甚至会因 带宽限制丢失脉冲信号. Vidar[24]探索高速轮询的 方式以脉冲矩阵的形式传输每个采样时刻的脉冲 发放,此方式不需要输出脉冲的坐标与时间戳,只 需将像素是否发放标记为“1”和“0”.将脉冲平 面轮询的方式代替 AER 方式可以节约传输带宽. 3 神经形态视觉传感器类型 神经形态视觉传感器借鉴生物视觉系统的神 经网络结构和视觉信息采样加工处理机理,以器件 功能层次模拟、扩展或超越生物视觉感知系统.近 年来,一大批代表性的神经形态视觉传感器涌现, 是人类在探索仿生视觉技术的雏形,有模拟视网膜 外周感知运动功能的差分型视觉采样模型,如 DVS[19]、ATIS[20]、DAVIS[21-22]、CeleX[23];也有模 拟视网膜中央凹感知精细纹理功能的积分型视觉 采样模型,如 Vidar[24]. 3.1 DVS DVS[19]对灵长类视网膜外周中的光感受器、双 极细胞、神经节细胞三层结构的功能抽象,由光电 转换电路、动态检测电路和比较器输出电路组成
李家宁等:神经形态视觉传感器的研究进展及应用综述 如图5所示.光电转换电路采用对数光强感知模型,的劣势,即ON或OFF事件不携带绝对光强信号, 提高了光强感知范围,也更加接近生物视网膜的高且光强变化较弱时无脉冲信号发放,从而无法重构 动态适应的能力.动态检测电路采用差分型采样模精细化纹理图像.为了解决DVS面向视觉纹理可 型,即对光强变化做出响应,无光强变化则不响视化,便衍生出ATIS2、 DAVIS212)和 CeleX231 应.比较器依据光强的增加或减弱输出ON或OFF等神经形态视觉传感器 事件 3.2 ATIS ATS在DVS的基础上巧妙地引入了基于时 动模糊 间间隔的光强测量电路来实现图像重构,其思路是 每次DVS电路产生事件时,触发光强测量电路进 传统相机 行工作;光强测量设定了两个不同的参考电压,通 过对光强进行积分,并记录达到两个电压发放的事 件;由于不同光强的条件下,电压变化相同量所需 的时间不同,通过建立光强与时间的映射可以推断 时空脉冲信号 出光强大小,从而输出光强变化像素处的光强信 息,也称为脉冲宽度调制( Pulse width modulation, DVS PWM).此外,为了解决静态区域没有DVS脉 冲信号发放依然无法获得静态区域的视觉纹理信 息,AS引入了一套全局发放机制,即所有像素可 图 被强制发放一次脉冲,这样在ATIS初始工作时可 7DS时空脉冲信号示意图 获得一整幅图像作为背景,然后运动区域不断产生 织专统相机以固定帧率的采样方式,在高速场景陈冲进而不断的触发光强测量电路获得运动区域 生运动模糊而DVS采用AER异步传输方式的灰度来更新背景 的差分型视觉采样模型,以异步时空脉冲信号表示 Posch团队和 Prophesee公司研制的商用 场景光强变化,对场景的变化十分敏感且高时间分 AIS,其空间分辨率为304×240,时域采样频率 辨率,尤其适用于高速运动的视觉任务分析,如图 为10Hz,动态范围为143dB,在涉及高速视觉任 所示,DVS相比传统相机具有以下优势:高时间务存在着广泛应用.另外, Prophessee公司也受到 分辨率(10Hz)、高动态范围(120dB)、低功耗、 了 Intel公司1500万美金的项目资助,将ATIS应 用于自动驾驶汽车的视觉处理系统.随后 数据冗余少和时延低 Bensman5团队进一步验证了在RGB三个通道的 Delbruck团队和 Ini vation公司开发的第一款商 用的DVS1289,其空间分辨率为128×128,时域分别用ATS采样脉冲信号再融合彩色的技术方案 ATS在面向高速运动时,依然存在事件与灰度 采样频率为10°Hz,动态范围为120dB,在高速运 重构更新不匹配的情况,其原因有以下两点:脉冲 动对象识别、检测与跟踪广泛应用.此外,DⅤS及 其衍生的AS2、DAVS212.和 celeX2)等神经形 发放后触发光强测量电路,其测量结果是脉冲发放 态视觉传感器的研究及产品也备受关注,并逐渐被后一段时间的平均光强,造成运动不匹配;场景稍 微变化未引起脉冲发放,从而像素未及时更新,随 应用于自动驾驶、无人机视觉导航和工业检测等涉 及高速运动视觉任务.例如, Samsung公司开发了看时间推移会造成纹理差异明显 的空间分辨率为640×480的DVSG2,且像素尺33DVAS 寸为94m×9m.BM公司采用了DⅤS128作为 DAVS2l2)是一种最直观且有效的融合技术思 类脑芯片 TrueNorth'的视觉感知系统来进行快速路,将DⅤsS和传统相机二者结合,在DⅤS基础上 手势识别 额外引入有源像素传感器( Active Pixel Senso DS利用差分视觉采样模型可以滤过静止不APS),用于视觉场景纹理成像 变或变化较弱的视觉信息以降低数据冗余,同时具 Delbruck团队和 Ini vation公司在空间分辨率为 有感知高速运动.然而,这种优势带来了视觉重构240×180的DAⅥS240的基础上进一步推出了彩
李家宁等:神经形态视觉传感器的研究进展及应用综述 7 如图 5 所示.光电转换电路采用对数光强感知模型, 提高了光强感知范围,也更加接近生物视网膜的高 动态适应的能力.动态检测电路采用差分型采样模 型,即对光强变化做出响应,无光强变化则不响 应.比较器依据光强的增加或减弱输出 ON 或 OFF 事件. 图 7 DVS 时空脉冲信号示意图 传统相机以固定帧率的采样方式,在高速场景 易产生运动模糊.而 DVS 采用 AER 异步传输方式 的差分型视觉采样模型,以异步时空脉冲信号表示 场景光强变化,对场景的变化十分敏感且高时间分 辨率,尤其适用于高速运动的视觉任务分析,如图 7 所示.DVS 相比传统相机具有以下优势:高时间 分辨率(106Hz)、高动态范围(120dB)、低功耗、 数据冗余少和时延低. Delbruck团队和IniVation公司开发的第一款商 用的 DVS128[19],其空间分辨率为 128 128,时域 采样频率为 106Hz,动态范围为 120dB,在高速运 动对象识别、检测与跟踪广泛应用.此外,DVS 及 其衍生的 ATIS[20]、DAVIS[21-22]和 CeleX[23]等神经形 态视觉传感器的研究及产品也备受关注,并逐渐被 应用于自动驾驶、无人机视觉导航和工业检测等涉 及高速运动视觉任务.例如,Samsung 公司开发了 的空间分辨率为 640 480 的 DVS-G2[46],且像素尺 寸为 9 m 9 m.IBM 公司采用了 DVS128 作为 类脑芯片 TrueNorth[47]的视觉感知系统来进行快速 手势识别[48]. DVS 利用差分视觉采样模型可以滤过静止不 变或变化较弱的视觉信息以降低数据冗余,同时具 有感知高速运动.然而,这种优势带来了视觉重构 的劣势,即 ON 或 OFF 事件不携带绝对光强信号, 且光强变化较弱时无脉冲信号发放,从而无法重构 精细化纹理图像.为了解决 DVS 面向视觉纹理可 视化,便衍生出 ATIS[20]、DAVIS[21-22]和 CeleX[23] 等神经形态视觉传感器. 3.2 ATIS ATIS[20]在 DVS 的基础上巧妙地引入了基于时 间间隔的光强测量电路来实现图像重构,其思路是 每次 DVS 电路产生事件时,触发光强测量电路进 行工作;光强测量设定了两个不同的参考电压,通 过对光强进行积分,并记录达到两个电压发放的事 件;由于不同光强的条件下,电压变化相同量所需 的时间不同,通过建立光强与时间的映射可以推断 出光强大小,从而输出光强变化像素处的光强信 息,也称为脉冲宽度调制(Pulse Width Modulation, PWM)[49].此外,为了解决静态区域没有 DVS 脉 冲信号发放依然无法获得静态区域的视觉纹理信 息,ATIS 引入了一套全局发放机制,即所有像素可 被强制发放一次脉冲,这样在 ATIS 初始工作时可 获得一整幅图像作为背景,然后运动区域不断产生 脉冲进而不断的触发光强测量电路获得运动区域 的灰度来更新背景. Posch 团队和 Prophesee 公司研制的商用 ATIS[49],其空间分辨率为 304 240,时域采样频率 为 106Hz,动态范围为 143dB,在涉及高速视觉任 务存在着广泛应用.另外,Prophessee 公司也受到 了 Intel 公司 1500 万美金的项目资助,将 ATIS 应 用于自动驾驶汽车的视觉处理系统.随后, Benosman [50]团队进一步验证了在 RGB 三个通道的 分别用ATIS采样脉冲信号再融合彩色的技术方案. ATIS 在面向高速运动时,依然存在事件与灰度 重构更新不匹配的情况,其原因有以下两点:脉冲 发放后触发光强测量电路,其测量结果是脉冲发放 后一段时间的平均光强,造成运动不匹配;场景稍 微变化未引起脉冲发放,从而像素未及时更新,随 着时间推移会造成纹理差异明显. 3.3 DVAIS DAVIS[21-22]是一种最直观且有效的融合技术思 路,将 DVS 和传统相机二者结合,在 DVS 基础上 额外引入有源像素传感器(Active Pixel Sensor, APS),用于视觉场景纹理成像. Delbruck团队和IniVation公司在空间分辨率为 240 180 的 DAVIS240[21]的基础上进一步推出了彩
8 计算机学报 2020年 表1神经形态视觉传感器性能参数对比 传感器类型 DVS128l9] ATIS[ 20 DAVIS346 2 DvS-G2143 Celex-v1231 vidar [24 商用时间 2008 2017 2018 2018 空间分辨率 304×240 346×260 1280×800400×250 最大采样率(Hz)1×10° 1×10 12×107 3×10° 1.6×10 4×104 动态范围(dB) 143 120 功耗(mW 50-175 10-170 390-470 芯片大小Ymm 6.3×6 99×8.2 8×6 8×5.8 14.3×11.6 0×6 像元尺寸(m2)40×40 18.5×18.5 9.8×98 填充因子 20% 100% 13.75% 延迟(Hs) 65-410 电源电压( 3.3 1.8&3.3 1.8&3.3 1.2&28 1.2&3.31.5&3.3 纹理图像 彩色 色DAⅥIS34621,其空间分辨率达到346×260,时 陈守顺教授团队和 CelePixel公司最新发布的 域采样频率为10Hz,动态范围为120dB,并将DVS第五代 Celex-vi2,其空间分辨率达为1280×800 所产生的事件坐标的空间位置(x,y)携带RGB彩色基本达到了传统相机的水平,同时时域最大输出采 信息,但是APS电路采样速度远不如DⅤS电路,样频率为160MHz,动态范围为120dB,该产品的 APS模式的帧率为50FPS,动态范围为567B,两高空间分辨率、高时域分辨率及高动态范围的“三 套采样电路产生的图像无法做到精准同步,尤其在高”优势引起了当前神经形态工程领域的关注.此 高速运动场景,且APS图像在高速运动场景存在运外, Celepixel公司也受到了Badu公司4000万的 动模糊. 项目资助,采用 CeleX-V用于汽车自动驾驶辅助系 当前,DAⅥS是神经形态视觉传感器商用产统,利用其优势对驾驶异常行为进行实时监测 品、工业应用及学术研究的主流,源于DVS系列 CeleX的脉冲事件采用9bt信息输出,在场景 性传感器(DS18、DAⅥS240、DAⅥS346和彩剧烈运动或高速运动场景时,面临数据量大而无法 色DAVS346)的学术研究推广,相关视觉任务数及时传输,甚至丢弃部分脉冲数据以至采样信号无 据集的公开、代码及软件的开源等营造的良好生态法保真,同时对轻微光照也无法做出响应及时更新 环境.因此,在本文介绍脉冲信号处理与特征表达、等缺点.但是, CeleX的“三高”性能及其光流信 视觉应用等均以差分型视觉采样模型的DⅴS系列息的输出等优势,在自动驾驶、无人机视觉导航、 传感器为主 工业检测和视频监控等涉及高速运动视觉任务有 3.4 CeleX 着巨大的应用潜力 ceex2在考虑到ATS的光强测量电路存在3.5vdar 滞后,在DⅤS电路输出脉冲事件的地址(x,y)和发 vdar24对灵长类视网膜中央凹的光感受器、双 放时间t时同时,也及时的将该像素的光强信息Ⅰ极细胞、神经节细胞三层结构的功能抽象,采用了 输出,即 CeleX输出事件可用四元组(x,y,l,)表积分型视觉采样模型,将像素光强编码为频率或脉 示. CeleX的设计思路主要包括三个部分5:(1)冲间隔182.34,具有对视觉场景的精细纹理高速 引入缓冲和读出开关电路直接将对数光感受器的重构的能力叫. Vidar由光电转换电路、积分器电 电路转换为光强信息输出;(2)采用全局控制信号路和比较器输出电路组成,如图6(a)所示.光感 输出一整帧图像,便于初始工作时可获得整幅图像受器将光信号转换为电信号,积分器将电信号进行 作为背景和及时全局更新;(3)专门设计列模拟读积分累计,比较器将该累计值与脉冲发放阈值比较 出电路输出缓冲器的光强值. CeleX巧妙地将脉冲判断输出脉冲信号,同时积分器被复位,也称为脉 事件的位宽设计为9比特,既保证了脉冲本身的语冲频率调制( Pulse Frequency Modulation,PFM) 义信息,又携带了一定量的光强信息 18. Vidar像素间的脉冲信号输出彼此独立,单个
8 计 算 机 学 报 2020 年 表 1 神经形态视觉传感器性能参数对比 传感器类型 DVS128[19] ATIS[20] DAVIS346[22] DVS-G2[43] CeleX-V [23] Vidar[24] 商用时间 2008 2011 2017 2017 2018 2018 空间分辨率 128 128 304 240 346 260 640 480 1280 800 400 250 最大采样率(Hz) 1 106 1 10 6 1.2 10 7 3 10 9 1.6 108 4 10 4 动态范围(dB) 120 143 120 90 120 70 功耗(mW) 23 50-175 10-170 27-50 390-470 370 芯片大小(mm2 ) 6.3 6 9.9 8.2 8 6 8 5.8 14.3 11.6 10 6 像元尺寸( m 2 ) 40 40 30 30 18.5 18.5 9 9 9.8 9.8 20 20 填充因子 8.1% 20% 22% 100% 9% 13.75% 延迟( s) 12 3 20 65-410 1 25 电源电压(V) 3.3 1.8&3.3 1.8&3.3 1.2&2.8 1.2&3.3 1.5&3.3 纹理图像 否 灰度 彩色 否 灰度 灰度 色 DAVIS346[22],其空间分辨率达到 346 260,时 域采样频率为 106Hz,动态范围为 120dB,并将 DVS 所产生的事件坐标的空间位置 ( , ) x y 携带 RGB 彩色 信息,但是 APS 电路采样速度远不如 DVS 电路, APS 模式的帧率为 50FPS,动态范围为 56.7dB,两 套采样电路产生的图像无法做到精准同步,尤其在 高速运动场景,且 APS 图像在高速运动场景存在运 动模糊. 当前,DAVIS 是神经形态视觉传感器商用产 品、工业应用及学术研究的主流,源于 DVS 系列 性传感器(DVS128、DAVIS240、DAVIS346 和彩 色 DAVIS346)的学术研究推广,相关视觉任务数 据集的公开、代码及软件的开源等营造的良好生态 环境.因此,在本文介绍脉冲信号处理与特征表达、 视觉应用等均以差分型视觉采样模型的 DVS 系列 传感器为主. 3.4 CeleX CeleX[23]在考虑到 ATIS 的光强测量电路存在 滞后,在 DVS 电路输出脉冲事件的地址 ( , ) x y 和发 放时间 t 时同时,也及时的将该像素的光强信息 I 输出,即 CeleX 输出事件可用四元组 ( , , , ) x y t I 表 示.CeleX 的设计思路主要包括三个部分[51]:(1) 引入缓冲和读出开关电路直接将对数光感受器的 电路转换为光强信息输出;(2)采用全局控制信号 输出一整帧图像,便于初始工作时可获得整幅图像 作为背景和及时全局更新;(3)专门设计列模拟读 出电路输出缓冲器的光强值.CeleX 巧妙地将脉冲 事件的位宽设计为 9 比特,既保证了脉冲本身的语 义信息,又携带了一定量的光强信息. 陈守顺教授团队和 CelePixel 公司最新发布的 第五代 CeleX-V [52],其空间分辨率达为 1280 800 基本达到了传统相机的水平,同时时域最大输出采 样频率为 160MHz,动态范围为 120dB, 该产品的 高空间分辨率、高时域分辨率及高动态范围的“三 高”优势引起了当前神经形态工程领域的关注.此 外,CelePixel 公司也受到了 Baidu 公司 4000 万的 项目资助,采用 CeleX-V 用于汽车自动驾驶辅助系 统,利用其优势对驾驶异常行为进行实时监测. CeleX 的脉冲事件采用 9bit 信息输出,在场景 剧烈运动或高速运动场景时,面临数据量大而无法 及时传输,甚至丢弃部分脉冲数据以至采样信号无 法保真,同时对轻微光照也无法做出响应及时更新 等缺点.但是,CeleX 的“三高”性能及其光流信 息的输出等优势,在自动驾驶、无人机视觉导航、 工业检测和视频监控等涉及高速运动视觉任务有 着巨大的应用潜力. 3.5 Vidar Vidar[24]对灵长类视网膜中央凹的光感受器、双 极细胞、神经节细胞三层结构的功能抽象,采用了 积分型视觉采样模型,将像素光强编码为频率或脉 冲间隔[18, 24, 38-45],具有对视觉场景的精细纹理高速 重构的能力[44].Vidar 由光电转换电路、积分器电 路和比较器输出电路组成,如图 6(a)所示.光感 受器将光信号转换为电信号,积分器将电信号进行 积分累计,比较器将该累计值与脉冲发放阈值比较 判断输出脉冲信号,同时积分器被复位,也称为脉 冲频率调制(Pulse Frequency Modulation, PFM) [18]. Vidar 像素间的脉冲信号输出彼此独立,单个
李家宁等:神经形态视觉传感器的研究进展及应用综述 像素的脉冲信号按照时间先后顺序排成“脉冲序 神经形态视觉传感器具有两大优势:(1)高速 列”,所有像素按照空间位置相互关系构成“脉冲视觉采样的能力,在高速运动视觉仼务有着巨大的 阵列”,脉冲阵列的每个时刻的截面称为“脉冲平应用潜力:(2)低功耗,也是Mead所提出的神经 面”,脉冲信号以“1”表示,没有脉冲信号以“0”形态工程的本质优势和未来可能的终极形态.然 表示,如图8所示 而,如何对神经形态视觉传感器输出的时空脉冲信 脉冲平面 号进行处理、特征表达及高速视觉任务分析是当前 神经形态视觉的研究热点;同时如何采样类脑芯片 对脉冲信号进行高速处理,应用于涉及高速视觉任 务是神经形态工程产业界的关注重点,如IBM公司 的 Truenorth'+芯片、 Intel公司的Loh5芯片和曼 脉冲阵列 切斯特大学的 SpiNNakers芯片等 当前,神经形态视觉传感器的空间分辨率从 Ini vation公司开发的第一款商用DVS12819的 脉冲序列 y 128×128发展到三星公司DVS-G2的640×480 Celepixel公司 Celex-v2的1280×800,但相比传 图8vdar时空脉冲信号示意图 统高清与超高清相机在空间分辨率与成像质量上 有较大的差距,源于:(1)高空间分辨率与高时域 黄铁军教授团队研制的第一款vdar,其空分辨率将给数据传输与存储带来了巨大挑战:(2) 间分辨率为400×250,时域采样频率为4×10Hz,动态视觉传感器设计的初衷是感知高速运动而非 每秒输出476.3M的数据量,并可依据脉冲发放的面向高质量视觉观看.总之,神经形态视觉传感器 时空特性来对静态场景或高速运动场景进行精细目前尚处于探索的初期阶段,达到人类视觉系统在 化纹理重构,如采用滑动窗口累计法或脉冲间隔映复杂交互环境下的感知能力还需要大量探索研究 射的方法向.此外,Ⅴdar可自由设定时长的脉冲 信号进行影像重构,在成像的动态的动态范围上具4异步时空脉冲信号处理 有灵活性.该积分型视觉采样芯片能对高速运动进 行精细化纹理重构,可用于高速运动场景的物体检 神经形态视觉传感器模拟了生物视网膜的脉 测、跟踪和识别,在自动驾驶、无人机视觉导航、冲发放机理,如采用差分型视觉采样模型的DVS 机器视觉等涉及高速视觉任务领域的应用潜力巨系列传感器,受到视觉场景光强变化刺激发放脉冲 信号并记录为地址事件,脉冲信号在空域和时域呈 Vidar采用积分型视觉采样模型,将光强信号现三维空间的稀疏离散点阵,如图7所示 进行频率或脉冲间隔编码,本质是将光强信息的变 传统视频信号以“图像帧”范式进行视觉信息 换为频率编码,相比面向运动感知的DⅤS系列传表征与信号处理,也是现有机器视觉的主流方 感器,更加友好地面向视觉精细重构的优势.然而,向.然而,“异步时空脉冲信号”不同于“图像帧” Vidar无论在静态场景还是运动区域都会产生脉冲,现有的图像信号处理机制并不能直接迁移应用.如 采样上存在巨大的数据冗余,以及如何控制脉冲发何建立一套新的信号处理理论与技术体系巧,是神 放阈值以便自适应感知不同光照场景和控制数据经形态视觉信号处理领域的研究难点与热点 量是积分视觉采样需要亟待解决的问题 41异步时空脉冲信号分析 3.6仿视网膜视觉传感器性能对比 近年来,异步时空脉冲信号分析阿主要集中在 近期,大量的神经形态视觉传感器涌现并商业滤波、降噪及频域变化分析等方向 化应用,有模拟视网膜外周感知运动功能的差分型 脉冲信号的滤波分析是从信号处理角度的预处 视觉采样模型,如DVS1281明、ATIS0、理技术,也是神经形态视觉传感器视觉分析任务的 DAVIS346212、DvsG2、 Celex-v23;也有模基础. Benosman'团队提出了一种异步时空 拟视网膜中央凹功能的积分型视觉采样模型,如脉冲信号的通用滤波方法,即时域或空域构成的层 idar24,具体的各性能参数的对比如表1所示 级滤波,可扩展到复杂的非线性滤波器,如边缘检
李家宁等:神经形态视觉传感器的研究进展及应用综述 9 像素的脉冲信号按照时间先后顺序排成“脉冲序 列”,所有像素按照空间位置相互关系构成“脉冲 阵列”,脉冲阵列的每个时刻的截面称为“脉冲平 面”,脉冲信号以“1”表示,没有脉冲信号以“0” 表示,如图 8 所示. 图 8 Vidar 时空脉冲信号示意图 黄铁军教授团队研制的第一款 Vidar[24],其空 间分辨率为 400 250,时域采样频率为 4 104Hz, 每秒输出 476.3M 的数据量,并可依据脉冲发放的 时空特性来对静态场景或高速运动场景进行精细 化纹理重构,如采用滑动窗口累计法或脉冲间隔映 射的方法[44].此外,Vidar 可自由设定时长的脉冲 信号进行影像重构,在成像的动态的动态范围上具 有灵活性.该积分型视觉采样芯片能对高速运动进 行精细化纹理重构,可用于高速运动场景的物体检 测、跟踪和识别,在自动驾驶、无人机视觉导航、 机器视觉等涉及高速视觉任务领域的应用潜力巨 大. Vidar 采用积分型视觉采样模型,将光强信号 进行频率或脉冲间隔编码,本质是将光强信息的变 换为频率编码,相比面向运动感知的 DVS 系列传 感器,更加友好地面向视觉精细重构的优势.然而, Vidar 无论在静态场景还是运动区域都会产生脉冲, 采样上存在巨大的数据冗余,以及如何控制脉冲发 放阈值以便自适应感知不同光照场景和控制数据 量是积分视觉采样需要亟待解决的问题. 3.6 仿视网膜视觉传感器性能对比 近期,大量的神经形态视觉传感器涌现并商业 化应用,有模拟视网膜外周感知运动功能的差分型 视 觉 采 样 模 型 , 如 DVS128[19] 、 ATIS[20] 、 DAVIS346[21-22]、DVS-G2[46]、CeleX-V [23];也有模 拟视网膜中央凹功能的积分型视觉采样模型,如 Vidar[24],具体的各性能参数的对比如表 1 所示. 神经形态视觉传感器具有两大优势:(1)高速 视觉采样的能力,在高速运动视觉任务有着巨大的 应用潜力;(2)低功耗,也是 Mead 所提出的神经 形态工程[16]的本质优势和未来可能的终极形态.然 而,如何对神经形态视觉传感器输出的时空脉冲信 号进行处理、特征表达及高速视觉任务分析是当前 神经形态视觉的研究热点;同时如何采样类脑芯片 对脉冲信号进行高速处理,应用于涉及高速视觉任 务是神经形态工程产业界的关注重点,如 IBM 公司 的 TrueNorth[47]芯片、Intel 公司的 Loihi[53]芯片和曼 切斯特大学的 SpiNNaker[54]芯片等. 当前,神经形态视觉传感器的空间分辨率从 IniVation 公司开发的第一款商用 DVS128[19]的 128 128 发展到三星公司 DVS-G2[46]的 640 480, CelePixel 公司 CeleX-V [52]的 1280 800,但相比传 统高清与超高清相机在空间分辨率与成像质量上 有较大的差距,源于:(1)高空间分辨率与高时域 分辨率将给数据传输与存储带来了巨大挑战;(2) 动态视觉传感器设计的初衷是感知高速运动而非 面向高质量视觉观看.总之,神经形态视觉传感器 目前尚处于探索的初期阶段,达到人类视觉系统在 复杂交互环境下的感知能力还需要大量探索研究. 4 异步时空脉冲信号处理 神经形态视觉传感器模拟了生物视网膜的脉 冲发放机理,如采用差分型视觉采样模型的 DVS 系列传感器,受到视觉场景光强变化刺激发放脉冲 信号并记录为地址事件,脉冲信号在空域和时域呈 现三维空间的稀疏离散点阵,如图 7 所示. 传统视频信号以“图像帧”范式进行视觉信息 表征与信号处理,也是现有机器视觉的主流方 向.然而,“异步时空脉冲信号”不同于“图像帧”, 现有的图像信号处理机制并不能直接迁移应用.如 何建立一套新的信号处理理论与技术体系[55],是神 经形态视觉信号处理领域的研究难点与热点. 4.1 异步时空脉冲信号分析 近年来,异步时空脉冲信号分析[56]主要集中在 滤波、降噪及频域变化分析等方向. 脉冲信号的滤波分析是从信号处理角度的预处 理技术,也是神经形态视觉传感器视觉分析任务的 应用基础.Benosman[57]团队提出了一种异步时空 脉冲信号的通用滤波方法,即时域或空域构成的层 级滤波,可扩展到复杂的非线性滤波器,如边缘检
计算机学报 2020年 测. Linares- Barranco等人将异步时空脉冲信号计, Gallego等人从视觉特征角度系统性将DvS 在FPGA上进行滤波降噪和水平特征提取,可显输出的时空脉冲信号进行度量,并在运动补偿、深 著提升目标识别与跟踪性能.施路平教授团队例度估计、光流估计等视觉任务中应用.这些方法是 针对脉冲信号的发放率进行时空差值滤波,再采用将时空脉冲信号进行时间累积的频率特征,并未充 非齐次泊松生成过程实现异步时空脉冲信号的上分利用脉冲信号的时域特性.Park等人从信号域 采样 的角度综述核方法度量,即将离散的时域脉冲信号 神经形态视觉传感器输出的异步时空脉冲信变换为连续函数,在希尔伯特空间以内积计算脉冲 号存在背景噪声和漏电流噪声等干扰12,序列之间的距离. Chichinisky团队采用卷积神经 Khodamoradi等人阿采用时空相关滤波器来降低网络结构将离散脉冲信号映射到特征空间再度量 DS的背景噪声并在传感器上硬件实现. Orchard脉冲信号之间距离,并应用到视网膜假体数据测试 团队6利用 True North芯片上实现脉冲神经网络验证.此类方法在神经生理或模拟生成的脉冲数 ( Spiking Neural Network,SNN)对AIS输出的时据上实验,并未考虑真实异步时空脉冲信号的标记 空脉冲信号进行降噪,且降噪信号提升了目标对象属性 检测与识别的性能,Wang等人2将运动对象以外 田永鸿教授团队网提出了一种脉冲标记属性 的事件视为噪声,通过光流来判断运动一致性对独立的脉冲序列度量方法,即DⅤS输出的ON和 DVS输出的时空脉冲信号进行降噪 OFF的标记属性的脉冲信号分别度量,采用高斯核 变换域分析是信号处理的基本方法,把时空函数将离散的脉冲序列变换为平滑连续函数,利用 域变化到频率域,进而研究信号的频谱结构与变化希尔伯特空间的内积度量脉冲序列的距离.该方法 规律. Bensman(团队针对异步时空脉冲信号提将脉冲序列作为操作单元,并未考虑脉冲信号的空 出了一种基于事件的快速傅里叶变换,对脉冲信号间结构关系.随后,该团队进一步将异步时空脉 的频率域有损变换和计算时间做了权衡分析 冲信号建模为标记的时空点过程,用条件概率密度 异步时空脉冲信号分析与处理存在以下几个函数刻画脉冲信号的空间位置和标记属性,该方法 探索的方向 应用于异步脉冲信号有损编码中的运动搜索和失 (1)异步时空脉冲信号在数据分布上可描述真度量 为时空点过程6,可引入点过程信号处理、学习与 异步时空脉冲信号是非结构化数据,不同于可 推理理论的6; 归一化的结构化的“图像帧”,且在主观视觉上差 (2)异步时空脉冲信号在时空结构上与点云异无法直接度量.如何将异步脉冲信号度量面向视 相似,可利用深度学习在点云网络的结构与方法觉任务和归一化的评价也是亟需解决的难点问题 68-701 3异步时空脉冲信号编码 (3)脉冲信号视为图模型的节点,可采用图 模型信号处理与学习理论2 随着DVS系列传感器的空间分辨率不断提高, (4)异步时空脉冲信号的高时间分辨率的时序如三星公司DVSG21的空间分辨率为640×480, 优势,挖掘时序记忆模型5·3和借鉴类脑视觉信号 CeleX-v12的空间分辨率为1280×800,在剧烈运动 处理机理4 的场景产生的异步时空脉冲信号面临着传输和存 储的巨大挑战,如何对异步时空脉冲信号进行编码 42异步时空脉冲信号度量 压缩,是一个全新的时空数据压缩问②行编码 异步时空脉冲信号度量是衡量脉冲流之间的 田永鸿教授团队首次提出了一种面向时空 相似性,即在度量空间里计算脉冲流之间的距离异步脉冲信号的编码压缩框架,其以脉冲长方体为 门,是异步时空脉冲信号处理的关键技术之一,在编码单元,设计了地址优先和时间优先的预测编码 计算神经科学、脉冲编码压缩、机器视觉仼务等领策略,可实现对脉冲信号的有效压缩.随后,该团 域有着广泛且重要的应用 队网进一步探索了更加灵活的时空域八叉树自适 异步脉冲信号在时空域上呈现为稀疏离散点应划分、编码单元内的预测及编码单元间的预测等 阵,缺乏在欧式空间的代数运算度量.立体视觉硏编码策略,进一步提升了时空脉冲信号的压缩效 究阿将输出脉冲信号在二维空间投影和提取时空率.此外,该团队对脉冲空域位置和时域发放时 关系的时间面进行度量,应用于三维视觉中深度估间的失真进行了度量分析,并探讨了面向视觉任务
10 计 算 机 学 报 2020 年 测.Linares-Barranco 等人[58]将异步时空脉冲信号 在 FPGA 上进行滤波降噪和水平特征提取,可显 著提升目标识别与跟踪性能.施路平教授团队[59] 针对脉冲信号的发放率进行时空差值滤波,再采用 非齐次泊松生成过程实现异步时空脉冲信号的上 采样. 神经形态视觉传感器输出的异步时空脉冲信 号 存 在背 景 噪声 和漏电 流 噪声 等 干扰 [19-23] , Khodamoradi 等人[60]采用时空相关滤波器来降低 DVS 的背景噪声并在传感器上硬件实现.Orchard 团队[61]利用 TrueNorth 芯片上实现脉冲神经网络 (Spiking Neural Network, SNN)对 ATIS 输出的时 空脉冲信号进行降噪,且降噪信号提升了目标对象 检测与识别的性能.Wang 等人[62]将运动对象以外 的事件视为噪声,通过光流来判断运动一致性对 DVS 输出的时空脉冲信号进行降噪. 变换域分析是信号处理的基本方法[63],把时空 域变化到频率域,进而研究信号的频谱结构与变化 规律. Benosman[64]团队针对异步时空脉冲信号提 出了一种基于事件的快速傅里叶变换,对脉冲信号 的频率域有损变换和计算时间做了权衡分析. 异步时空脉冲信号分析与处理存在以下几个 探索的方向: (1)异步时空脉冲信号在数据分布上可描述 为时空点过程[65],可引入点过程信号处理、学习与 推理理论[66-67]; (2)异步时空脉冲信号在时空结构上与点云 相似,可利用深度学习在点云网络的结构与方法 [68-70]; (3)脉冲信号视为图模型的节点,可采用图 模型信号处理与学习理论[71-72]; (4)异步时空脉冲信号的高时间分辨率的时序 优势,挖掘时序记忆模型[55,73]和借鉴类脑视觉信号 处理机理[74]. 4.2 异步时空脉冲信号度量 异步时空脉冲信号度量是衡量脉冲流之间的 相似性,即在度量空间里计算脉冲流之间的距离 [75],是异步时空脉冲信号处理的关键技术之一,在 计算神经科学、脉冲编码压缩、机器视觉任务等领 域有着广泛且重要的应用. 异步脉冲信号在时空域上呈现为稀疏离散点 阵,缺乏在欧式空间的代数运算度量.立体视觉研 究[76]将输出脉冲信号在二维空间投影和提取时空 关系的时间面进行度量,应用于三维视觉中深度估 计.Gallego 等人[77]从视觉特征角度系统性将 DVS 输出的时空脉冲信号进行度量,并在运动补偿、深 度估计、光流估计等视觉任务中应用.这些方法是 将时空脉冲信号进行时间累积的频率特征,并未充 分利用脉冲信号的时域特性.Park 等人[75]从信号域 的角度综述核方法度量,即将离散的时域脉冲信号 变换为连续函数,在希尔伯特空间以内积计算脉冲 序列之间的距离.Chichinisky 团队[78]采用卷积神经 网络结构将离散脉冲信号映射到特征空间再度量 脉冲信号之间距离,并应用到视网膜假体数据测试 验证. 此类方法在神经生理或模拟生成的脉冲数 据上实验,并未考虑真实异步时空脉冲信号的标记 属性. 田永鸿教授团队[79]提出了一种脉冲标记属性 独立的脉冲序列度量方法,即 DVS 输出的 ON 和 OFF 的标记属性的脉冲信号分别度量,采用高斯核 函数将离散的脉冲序列变换为平滑连续函数,利用 希尔伯特空间的内积度量脉冲序列的距离.该方法 将脉冲序列作为操作单元,并未考虑脉冲信号的空 间结构关系.随后,该团队[80]进一步将异步时空脉 冲信号建模为标记的时空点过程,用条件概率密度 函数刻画脉冲信号的空间位置和标记属性,该方法 应用于异步脉冲信号有损编码中的运动搜索和失 真度量. 异步时空脉冲信号是非结构化数据,不同于可 归一化的结构化的“图像帧”,且在主观视觉上差 异无法直接度量.如何将异步脉冲信号度量面向视 觉任务和归一化的评价也是亟需解决的难点问题. 4.3 异步时空脉冲信号编码 随着 DVS 系列传感器的空间分辨率不断提高, 如三星公司 DVS-G2[46]的空间分辨率为 640 480, CeleX-V [52]的空间分辨率为 1280 800,在剧烈运动 的场景产生的异步时空脉冲信号面临着传输和存 储的巨大挑战,如何对异步时空脉冲信号进行编码 压缩,是一个全新的时空数据压缩问题[81-82]. 田永鸿教授团队[83]首次提出了一种面向时空 异步脉冲信号的编码压缩框架,其以脉冲长方体为 编码单元,设计了地址优先和时间优先的预测编码 策略,可实现对脉冲信号的有效压缩.随后,该团 队[79]进一步探索了更加灵活的时空域八叉树自适 应划分、编码单元内的预测及编码单元间的预测等 编码策略,进一步提升了时空脉冲信号的压缩效 率.此外,该团队[80]对脉冲空域位置和时域发放时 间的失真进行了度量分析,并探讨了面向视觉任务