第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.202002010 面向自动驾驶目标检测的深度多模态融合技术 张新钰2,邹镇洪2,李志伟2,刘华平3,李骏2 (1.清华大学汽车安全与节能国家重点实验室,北京100084,2.清华大学车辆与运载学院,北京100084,3.清 华大学计算机科学与技术系,北京100084) 摘要:研究者关注利用多个传感器来提升自动驾驶中目标检测模型的准确率,因此对目标检测中的数据融合 方法进行研究具有重要的学术和应用价值。为此,本文总结了近年来自动驾驶中深度目标检测模型中的数据 融合方法。首先介绍了自动驾驶中深度目标检测技术和数据融合技术的发展,以及已有的研究综述:接着从多 模态目标检测、数据融合的层次、数据融合的计算方法3个方面展开闸述,全面展现了该领域的前沿进展;此 外,本文提出了数据融合的合理性分析,从方法、鲁棒性、冗余性3个角度对数据融合方法进行了讨论;最后讨 论了融合方法的一些公开问题,并从挑战、策略和前景等方面作了总结。 关键词:数据融合;目标检测;自动驾驶:深度学习;多模态;感知;计算机视觉:传感器:综述 中图分类号:TP274;TP212 文献标志码:A文章编号:1673-4785(2020)04-0758-14 中文引用格式:张新钰,邹镇洪,李志伟,等.面向自动驾驶目标检测的深度多模态融合技术.智能系统学报,2020,15(4): 758-771. 英文引用格式:ZHANG Xinyu,.ZOU Zhenhong,.LIZhiwei,,et al Deep multi--modal fusion in object detection for autonomous driv- ing[Jl.CAAI transactions on intelligent systems,2020,15(4):758-771. Deep multi-modal fusion in object detection for autonomous driving ZHANG Xinyu,ZOU Zhenhong2,LI Zhiwei,LIU Huaping,LI Jun'2 (1.State Key Laboratory of Automotive Safety and Energy,Tsinghua University,Beijing 100084,China;2.School of Vehicle and Mobility,Tsinghua University,Beijing 100084,China;3.Department of Computer Science and Technology,Tsinghua University, Beijing 100084,China) Abstract:In autonomous driving,there has been an increasing interest in utilizing multiple sensors to improve the ac- curacy of object detection models.Accordingly,the research on data fusion has important academic and application value.This paper summarizes the data fusion methods in deep object detection models of autonomous driving in recent years.The paper first introduces the development of deep object detection and data fusion in autonomous driving,as well as existing researches and reviews,then expounds from three aspects of multi-modal object detection,fusion levels and calculation methods,comprehensively showing the cutting-edge progress in this field.In addition,this paper pro- poses a rationality analysis of data fusion from another three perspectives:methods,robustness and redundancy.Finally, open issues are discussed,and the challenges,strategy and prospects are summarized. Keywords:data fusion;object detection;autonomous driving;deep learning;multimodal;perception;computer vision; sensor;survey 作为自动驾驶技术的重要组成部分,基于深 注。尽管随着深度学习和计算机视觉领域的发 度学习的目标检测技术持续受到研究人员的关 展,目标检测技术已经取得了显著的进步,特别 是将DARPAU、PASCAL VOC2007等基于图像 收稿日期:2020-02-14. 基金项目:国家重点研发计划项目(2018YFE0204300):北京市 的目标检测任务的基准提升到了较高的水平。 科技计划项目(Z191100007419008);国强研究院项 目(2019GQG1010). 然而,自动驾驶要求模型在复杂多变的场景下 通信作者:刘华平.E-mail:hpliu(@tsinghua.edu.cn 保持较高的准确率,基于单一传感器的算法即
DOI: 10.11992/tis.202002010 面向自动驾驶目标检测的深度多模态融合技术 张新钰1,2,邹镇洪1,2,李志伟1,2,刘华平3 ,李骏1,2 (1. 清华大学 汽车安全与节能国家重点实验室,北京 100084; 2. 清华大学 车辆与运载学院,北京 100084; 3. 清 华大学 计算机科学与技术系,北京 100084) 摘 要:研究者关注利用多个传感器来提升自动驾驶中目标检测模型的准确率,因此对目标检测中的数据融合 方法进行研究具有重要的学术和应用价值。为此,本文总结了近年来自动驾驶中深度目标检测模型中的数据 融合方法。首先介绍了自动驾驶中深度目标检测技术和数据融合技术的发展,以及已有的研究综述;接着从多 模态目标检测、数据融合的层次、数据融合的计算方法 3 个方面展开阐述,全面展现了该领域的前沿进展;此 外,本文提出了数据融合的合理性分析,从方法、鲁棒性、冗余性 3 个角度对数据融合方法进行了讨论;最后讨 论了融合方法的一些公开问题,并从挑战、策略和前景等方面作了总结。 关键词:数据融合;目标检测;自动驾驶;深度学习;多模态;感知;计算机视觉;传感器;综述 中图分类号:TP274; TP212 文献标志码:A 文章编号:1673−4785(2020)04−0758−14 中文引用格式:张新钰, 邹镇洪, 李志伟, 等. 面向自动驾驶目标检测的深度多模态融合技术 [J]. 智能系统学报, 2020, 15(4): 758–771. 英文引用格式:ZHANG Xinyu, ZOU Zhenhong, LI Zhiwei, et al. Deep multi-modal fusion in object detection for autonomous driving[J]. CAAI transactions on intelligent systems, 2020, 15(4): 758–771. Deep multi-modal fusion in object detection for autonomous driving ZHANG Xinyu1,2 ,ZOU Zhenhong1,2 ,LI Zhiwei1,2 ,LIU Huaping3 ,LI Jun1,2 (1. State Key Laboratory of Automotive Safety and Energy, Tsinghua University, Beijing 100084, China; 2. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China; 3. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Abstract: In autonomous driving, there has been an increasing interest in utilizing multiple sensors to improve the accuracy of object detection models. Accordingly, the research on data fusion has important academic and application value. This paper summarizes the data fusion methods in deep object detection models of autonomous driving in recent years. The paper first introduces the development of deep object detection and data fusion in autonomous driving, as well as existing researches and reviews, then expounds from three aspects of multi-modal object detection, fusion levels and calculation methods, comprehensively showing the cutting-edge progress in this field. In addition, this paper proposes a rationality analysis of data fusion from another three perspectives: methods, robustness and redundancy. Finally, open issues are discussed, and the challenges, strategy and prospects are summarized. Keywords: data fusion; object detection; autonomous driving; deep learning; multimodal; perception; computer vision; sensor; survey 作为自动驾驶技术的重要组成部分,基于深 度学习的目标检测技术持续受到研究人员的关 注。尽管随着深度学习和计算机视觉领域的发 展,目标检测技术已经取得了显著的进步,特别 是将 DARPA[1] 、PASCAL VOC2007[2] 等基于图像 的目标检测任务的基准提升到了较高的水平。 然而,自动驾驶要求模型在复杂多变的场景下 保持较高的准确率,基于单一传感器的算法即 收稿日期:2020−02−14. 基金项目:国家重点研发计划项目 (2018YFE0204300);北京市 科技计划项目 (Z191100007419008);国强研究院项 目 (2019GQG1010). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759· 使在车道线检测这样的基础任务上也很难保持 数据的目标检测方法被不断提出,但大部分模 鲁棒性。此外,不同于目标检测技术的其他应 型依然是基于图像。当前模型主要通过边界框 用场景,自动驾驶汽车上的多种传感器可以提 的重合度来评价效果2,通过设置一个阈值(in 供环境和车辆自身的多模态信息,并且它们在 tersection over union,IoU来决定是否正确预测。 一定程度上存在互补关系。因此,人们期待通 1oU的计算方法一直在变化),但并不影响本文 过融合多模态数据来充分挖掘信息,并最终提 对融合方法的讨论。 高目标检测和其他自动驾驶模型的性能。本文 尽管在特定的数据集上,现有的基于计算机 先回顾了近年来目标检测技术和数据融合技术 视觉和深度学习的目标检测方法取得了优异成 的发展,接着对面向自动驾驶的、基于多模态数 绩,然而面对特定场景,特别是自动驾驶这类对 据融合的目标检测技术进行了全面的概述,并 鲁棒性、检测速度和准确率要求都很高的场景, 比较和讨论了具体的融合理论和方法。与之前 现有模型的性能依然存在不足之处A。例如2014 的研究1不同的是,本文只针对自动驾驶场景 年针对基于车道线检测的综述)提到曝光对于 下的目标检测中的数据融合方法,从层次、计算 视觉任务的影响,即使现有的网络针对小目标 和合理性等多个角度对其进行了全面深人的比 曝光不足、分辨率低6的情形有所改善,然而 较和分析,且进一步地总结了现有模型设计的 极端过曝或欠曝的场景会导致图像数据对环境 策略,并给出了分析和建议。 信息的记录严重损失,对此现有的基于单一图 1背景 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 11目标检测 遇上光照变化幅度较大的区域,导致相机的记 作为计算机视觉领域的任务之一,目标检测 录失真,这将严重影响自动驾驶汽车的决策。 是许多其他视觉任务的基础,如实例分割阿与目 为此,研究者考虑在视频流中利用连续帧的信 标追踪”,旨在检测出不同类别物体的每个实 息进行目标检测,17,而另一主流研究方向则 例。考虑到数据的易得性和数据特征的丰富程 是利用多种传感器提供的多模态数据进行信息 度,其一般指以RGB图像为主要数据的目标检 融合,再进行目标检测1.2012年德国的研究 测,且通常在图像上使用边界框(bounding box) 者提出了KITTI数据集,其包含了多种车载传 来定位物体并给出物体类别属性的概率⑧。根 感器的数据和检测、分割等多个自动驾驶环境 据定义,通常要求目标检测算法先在图像上搜 感知任务的标注。此后,Waymo2o,、Uber2和 索出可能包含目标的区域,再在此区域上进行 Baidu]等公司先后推出针对自动驾驶的多模态 分类,这种模型是多阶段模型。随着深度学习 数据集,为研究自动驾驶中的数据融合方法提 的发展,单步检测模型(one-stage detection)被提 供了极大便利。 出,其可以在检测的同时进行分类,从而提高了 1.2多模态数据融合 检测速度。此外,针对不同模态的数据,检测的 考虑到上述在基于图像的目标检测模型中 方法也不同。由于自动驾驶汽车上应用了激光 的问题,研究者考虑利用多模态数据的信息的互 雷达、雷达、深度相机(RGB-Depth camera)等多 补来提升模型的鲁棒性。由于信息记录方式的 种传感器,因此自动驾驶中同样需要关注基于 不同,不同的传感器之间往往存在互补性。比 点云、深度图像或其他模态数据的方法,其中点 如RGB相机往往在光照条件不佳时难以记录有 云由激光雷达或雷达提供。对于图像上的目标 效信息,然而主动感知的传感器,如激光雷达、 检测,传统方法的准确率往往不如深度学习方 雷达和深度相机等,则不易受到外部环境条件的 法,而后者则往往需要大型数据集和长时间的 影响。对于激光雷达和雷达,它们记录的点云过 训练来学习特征。对于点云上的目标检测,优 于稀疏,获得的低分辨率数据难以用于高精度的 点是可以利用三维空间信息进行检测,缺点是 检测,而RGB图像则可以提供稠密的数据。因 空间维数的增加导致点云数据往往过于稀疏, 此,如何理解与利用多种模态数据之间的关联与 造成模型拟合的效果不佳。而深度图像,即深 互补之处,成了多模态数据融合在应用中的重要 度相机记录的带有距离信息的RGB图像o),结 问题。 合了图像和点云的特点,但因相机的性能不足 具体到自动驾驶场景,不同的车载传感器既 尚未成为主流。综合来看,尽管针对多种模态 可以提供对同一环境的感知信息,如对前方道路
使在车道线检测这样的基础任务上也很难保持 鲁棒性[3]。此外,不同于目标检测技术的其他应 用场景,自动驾驶汽车上的多种传感器可以提 供环境和车辆自身的多模态信息,并且它们在 一定程度上存在互补关系[4]。因此,人们期待通 过融合多模态数据来充分挖掘信息,并最终提 高目标检测和其他自动驾驶模型的性能。本文 先回顾了近年来目标检测技术和数据融合技术 的发展,接着对面向自动驾驶的、基于多模态数 据融合的目标检测技术进行了全面的概述,并 比较和讨论了具体的融合理论和方法。与之前 的研究[4-5] 不同的是,本文只针对自动驾驶场景 下的目标检测中的数据融合方法,从层次、计算 和合理性等多个角度对其进行了全面深入的比 较和分析,且进一步地总结了现有模型设计的 策略,并给出了分析和建议。 1 背景 1.1 目标检测 作为计算机视觉领域的任务之一,目标检测 是许多其他视觉任务的基础,如实例分割[6] 与目 标追踪[7] ,旨在检测出不同类别物体的每个实 例。考虑到数据的易得性和数据特征的丰富程 度,其一般指以 RGB 图像为主要数据的目标检 测,且通常在图像上使用边界框 (bounding box) 来定位物体并给出物体类别属性的概率[8]。根 据定义,通常要求目标检测算法先在图像上搜 索出可能包含目标的区域,再在此区域上进行 分类,这种模型是多阶段模型。随着深度学习 的发展,单步检测模型 (one-stage detection) 被提 出,其可以在检测的同时进行分类,从而提高了 检测速度。此外,针对不同模态的数据,检测的 方法也不同。由于自动驾驶汽车上应用了激光 雷达、雷达、深度相机 (RGB-Depth camera) 等多 种传感器,因此自动驾驶中同样需要关注基于 点云、深度图像或其他模态数据的方法,其中点 云由激光雷达或雷达提供。对于图像上的目标 检测,传统方法的准确率往往不如深度学习方 法 [8] ,而后者则往往需要大型数据集和长时间的 训练来学习特征。对于点云上的目标检测,优 点是可以利用三维空间信息进行检测,缺点是 空间维数的增加导致点云数据往往过于稀疏, 造成模型拟合的效果不佳[9]。而深度图像,即深 度相机记录的带有距离信息的 RGB 图像[10-11] ,结 合了图像和点云的特点,但因相机的性能不足 尚未成为主流。综合来看,尽管针对多种模态 数据的目标检测方法被不断提出,但大部分模 型依然是基于图像。当前模型主要通过边界框 的重合度来评价效果[12] ,通过设置一个阈值 (intersection over union,IoU) 来决定是否正确预测。 IoU 的计算方法一直在变化[13] ,但并不影响本文 对融合方法的讨论。 尽管在特定的数据集上,现有的基于计算机 视觉和深度学习的目标检测方法取得了优异成 绩,然而面对特定场景,特别是自动驾驶这类对 鲁棒性、检测速度和准确率要求都很高的场景, 现有模型的性能依然存在不足之处[4, 8]。例如 2014 年针对基于车道线检测的综述[3] 提到曝光对于 视觉任务的影响,即使现有的网络针对小目标[14] 、 曝光不足[15] 、分辨率低[16] 的情形有所改善,然而 极端过曝或欠曝的场景会导致图像数据对环境 信息的记录严重损失,对此现有的基于单一图 像网络依旧没有,也很难出现适用的解决方案。 当自动驾驶汽车在路面上行驶的时候,很容易 遇上光照变化幅度较大的区域,导致相机的记 录失真,这将严重影响自动驾驶汽车的决策。 为此,研究者考虑在视频流中利用连续帧的信 息进行目标检测[7, 17-18] ,而另一主流研究方向则 是利用多种传感器提供的多模态数据进行信息 融合,再进行目标检测[4-5]。2012 年德国的研究 者提出了 KITTI 数据集[19] ,其包含了多种车载传 感器的数据和检测、分割等多个自动驾驶环境 感知任务的标注。此后,Waymo[20] 、Uber[21] 和 Baidu[22] 等公司先后推出针对自动驾驶的多模态 数据集,为研究自动驾驶中的数据融合方法提 供了极大便利。 1.2 多模态数据融合 考虑到上述在基于图像的目标检测模型中 的问题,研究者考虑利用多模态数据的信息的互 补来提升模型的鲁棒性。由于信息记录方式的 不同,不同的传感器之间往往存在互补性[4]。比 如 RGB 相机往往在光照条件不佳时难以记录有 效信息,然而主动感知的传感器,如激光雷达、 雷达和深度相机等,则不易受到外部环境条件的 影响。对于激光雷达和雷达,它们记录的点云过 于稀疏,获得的低分辨率数据难以用于高精度的 检测,而 RGB 图像则可以提供稠密的数据。因 此,如何理解与利用多种模态数据之间的关联与 互补之处,成了多模态数据融合在应用中的重要 问题。 具体到自动驾驶场景,不同的车载传感器既 可以提供对同一环境的感知信息,如对前方道路 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·759·
·760· 智能系统学报 第15卷 的RGB图像、热成像、深度图像、激光雷达点云 表1近年目标检测综述论文对比表 和雷达点云等,也可以提供对汽车自身的感知信 Table 1 Comparison of object detection review papers 息,如车辆的行驶速度、路径等,为连续地感知环 文献 检测目标 划分方法 面向自动驾驶 境提供重要的估计参数。为此,自动驾驶中的数 [4] 2D&3D 基于融合层次 冷 据融合可以在多个任务中发挥作用,比如目标检 ) 2D&3D 基于融合层次 否 测2)、目标跟踪和即时定位与建图(simultaneous [8 2D 不涉及融合 否 localization and mapping,SLAM)P。特别地,不同 [例 3D 不涉及融合 是 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 本文 2D&3D 基于融合层次 是 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 2 融合方法 配对,又能被发掘出互补的信息2。对此最常见 2.1多模态目标检测 的融合模式是激光雷达与RGB相机的融合,激光 2.1.1基于RGB图像 雷达点云可以主动感知较大范围内的物体,因此 在应用深度学习技术前,曾出现了VJ Det、. 不受光照条件的影响,而RGB图像所提供的色 HOG Det等方法B1-3.2008年Felzenszwalb等B 彩、纹理等视觉信息则可以被用于更高精度的视 在所提出的DPM方法中首次涉及了边界框的概 觉任务s27。然而现有的融合方法同样具有问题 念,此后对边界框的回归成为目标检测模型的经 和挑战,如多个传感器之间的配准21、部分传感 典思想。2012年,AlexNet!3)的出现成为了深度 器失灵的情形26,以及对更多样的融合方法的 学习和计算机视觉发展的开端。从此,基于卷积 探究。 神经网络(convolutional neural network,CNN)的方 1.3已有研究 法逐渐成为计算机视觉任务的主流⑧。从2014年 尽管已经有许多基于融合方法的目标检测模 起,Girshick等B6-38]先后提出了R-CNN、Fast R- 型被提出,然而依然没有论文对目标检测模型中 CNN,基于R-CNN发展出来的神经网络成为两步 的融合机制进行完整且深人的研究。表1将本文 目标检测(two-stage detection)的主要基准模型。 与相关的文献综述进行了对比。Eduardo Arnold R-CNN先通过选择搜索(selective search)生成候 等总结了自动驾驶任务中的3D目标检测方法, 选边界框,再通过CNN提取特征,最后进行分 其涉及到部分融合模型,然而仅局限于3D检测 类。此外,为了提高计算性能,Ren等11于2015 的场景,且没有深入分析融合方法的合理性。 年提出了Faster R-CNN,所使用的Region Propos- Feng等总结了自动驾驶中适用于数据融合的数 al Network(RPN)成为经典的目标检测模型的设计 据集、感知任务、融合方法和现有问题等,特别是 思想。此后出现的特征金字塔网络(feature pyr- 对目标检测和语义分割中的融合方法进行了全面 amid networks,FPN))通过融合不同层次的语义 的归纳和分类,然而没有对数据融合的冗余性进 来充分挖掘图像信息,许多模型采用了这种结合 行分析,也没有对基于数据融合的目标检测模型 浅层和深层语义的设计。 中的其他部分进行比较归纳:罗俊海等对基于 与两步检测相对的是单步目标检测(one- 数据融合的目标检测方法进行了综述,且采用了 stage detection),其经典模型是YOLO(you only look 前面两个研究不一样的归纳方法,然而其研究并 once)o和SSD(single shot detector)"。由名字可 非针对特定场景,并且同样缺乏对数据融合的冗 见,单步检测不同于两步检测的提出候选边界框 余性分析或合理性分析。特别地,近年来,目标 再进行分类的模式,而是同时在图像的某一部分 检测中的融合方法缺乏统一、明确的定义,不同 上预测边界框和分类。Redmon等先后提出了 的论文中模糊地遵循了“前融合,中间融合,后融 3个版本的YOL0模型:YOLOO、YOL09000四 合”的分类方法,290,然而各自在具体的实现细 YOLOv31,其中YOLO9000和YOLOv3先后在 节上仍存在差异,且现有的按融合阶段划分的方 预测边界框时使用锚点(anchor)的思想来替代全 法,在集成模型中不能很好地反映出融合步骤对 连接层、采用了多尺度模型、对边界框进行逻辑 于模型的作用。为此,提出了新的根据融合结果 回归,最终实现在提高准确率的同时保持了较高 作用的划分方法,并给出了具体的定义,相关细 的检测速度,且YOLOv3对于小目标的检测性能 节将在下文中描述。 有显著提升。除了YOLO系列网络,2016年提出
的 RGB 图像、热成像、深度图像、激光雷达点云 和雷达点云等,也可以提供对汽车自身的感知信 息,如车辆的行驶速度、路径等,为连续地感知环 境提供重要的估计参数。为此,自动驾驶中的数 据融合可以在多个任务中发挥作用,比如目标检 测 [23] 、目标跟踪和即时定位与建图 (simultaneous localization and mapping, SLAM)[24]。特别地,不同 于其他应用场景,针对自动驾驶汽车的目标检测 可以利用多种车载传感器。由于这些传感器被安 装以记录前向场景的信息,因此它们包含了对同 一环境的多模态信息,这使得它们既能很容易地 配对,又能被发掘出互补的信息[23]。对此最常见 的融合模式是激光雷达与 RGB 相机的融合,激光 雷达点云可以主动感知较大范围内的物体,因此 不受光照条件的影响,而 RGB 图像所提供的色 彩、纹理等视觉信息则可以被用于更高精度的视 觉任务[25-27]。然而现有的融合方法同样具有问题 和挑战,如多个传感器之间的配准[28] 、部分传感 器失灵的情形[ 2 6 ] ,以及对更多样的融合方法的 探究[4]。 1.3 已有研究 尽管已经有许多基于融合方法的目标检测模 型被提出,然而依然没有论文对目标检测模型中 的融合机制进行完整且深入的研究。表 1 将本文 与相关的文献综述进行了对比。Eduardo Arnold 等 [9] 总结了自动驾驶任务中的 3D 目标检测方法, 其涉及到部分融合模型,然而仅局限于 3D 检测 的场景,且没有深入分析融合方法的合理性。 Feng 等 [4] 总结了自动驾驶中适用于数据融合的数 据集、感知任务、融合方法和现有问题等,特别是 对目标检测和语义分割中的融合方法进行了全面 的归纳和分类,然而没有对数据融合的冗余性进 行分析,也没有对基于数据融合的目标检测模型 中的其他部分进行比较归纳;罗俊海等[5] 对基于 数据融合的目标检测方法进行了综述,且采用了 前面两个研究不一样的归纳方法,然而其研究并 非针对特定场景,并且同样缺乏对数据融合的冗 余性分析或合理性分析。特别地,近年来,目标 检测中的融合方法缺乏统一、明确的定义,不同 的论文中模糊地遵循了“前融合,中间融合,后融 合”的分类方法[23, 29-30] ,然而各自在具体的实现细 节上仍存在差异,且现有的按融合阶段划分的方 法,在集成模型中不能很好地反映出融合步骤对 于模型的作用。为此,提出了新的根据融合结果 作用的划分方法,并给出了具体的定义,相关细 节将在下文中描述。 表 1 近年目标检测综述论文对比表 Table 1 Comparison of object detection review papers 文献 检测目标 划分方法 面向自动驾驶 [4] 2D&3D 基于融合层次 是 [5] 2D&3D 基于融合层次 否 [8] 2D 不涉及融合 否 [9] 3D 不涉及融合 是 本文 2D&3D 基于融合层次 是 2 融合方法 2.1 多模态目标检测 2.1.1 基于 RGB 图像 在应用深度学习技术前,曾出现了 VJ Det、 HOG Det 等方法[31-33]。2008 年 Felzenszwalb 等 [34] 在所提出的 DPM 方法中首次涉及了边界框的概 念,此后对边界框的回归成为目标检测模型的经 典思想。2012 年,AlexNet[35] 的出现成为了深度 学习和计算机视觉发展的开端。从此,基于卷积 神经网络 (convolutional neural network,CNN) 的方 法逐渐成为计算机视觉任务的主流[8]。从 2014 年 起,Girshick 等 [36-38] 先后提出了 R-CNN、Fast RCNN,基于 R-CNN 发展出来的神经网络成为两步 目标检测 (two-stage detection) 的主要基准模型。 R-CNN 先通过选择搜索 (selective search) 生成候 选边界框,再通过 CNN 提取特征,最后进行分 类。此外,为了提高计算性能,Ren 等 [15] 于 2015 年提出了 Faster R-CNN,所使用的 Region Proposal Network(RPN) 成为经典的目标检测模型的设计 思想。此后出现的特征金字塔网络 (feature pyramid networks, FPN)[39] 通过融合不同层次的语义 来充分挖掘图像信息,许多模型采用了这种结合 浅层和深层语义的设计。 与两步检测相对的是单步目标检测 (onestage detection),其经典模型是 YOLO(you only look once)[40] 和 SSD(single shot detector)[41]。由名字可 见,单步检测不同于两步检测的提出候选边界框 再进行分类的模式,而是同时在图像的某一部分 上预测边界框和分类。Redmon 等先后提出了 3 个版本的 YOLO 模型:YOLO[40] 、YOLO9000[42] 、 YOLOv3[14] ,其中 YOLO9000 和 YOLOv3 先后在 预测边界框时使用锚点 (anchor) 的思想来替代全 连接层、采用了多尺度模型、对边界框进行逻辑 回归,最终实现在提高准确率的同时保持了较高 的检测速度,且 YOLOv3 对于小目标的检测性能 有显著提升。除了 YOLO 系列网络,2016 年提出 ·760· 智 能 系 统 学 报 第 15 卷
第4期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761· 的SSD和2017年的Retina-Net也受到了广泛 信息等,根据多重语义信息可以更有效地在点 的研究和使用。此后,仍然不断有各种模型在基 云上进行视觉计算。 准数据集上取得突破,然而这些模型依然遵循了 2.1.3基于RGB-D图像和多光谱图像 单步或两步模型的经典设计。 深度相机,又称RGB-D相机,在RGB图像的 2.1.2基于激光雷达点云 对应像素上提供了深度信息,从而让所提供的 激光雷达由于其主动感知的特性,以及相对 RGB-D图像在一定程度上结合了RGB图像和激 雷达提供了更密集的点云,因此在自动驾驶的传 光雷达的优点。且由于RGB-D所提供的点云和 感器中受到较多的应用4461。图1中给出了 图像自然配准,因此在计算上较单独的激光雷达 KITTI数据集中RGB图像和激光雷达点云的示 点云和RGB图像更加方便。近年来研究者探索 例,其中点云反射强度图被投影到相机成像平 了RGB-D图像的信息挖掘方法,主要是将RGB- 面,且所显示的均为灰度图。激光雷达不仅可以 D图像中的两种信息分拆处理,包括对图像和点 提供较大的感知范围,扫描半径可达50~70m,甚 云投影得到的深度图像的联合处理,、对图像和 至更远,而且激光雷达可以提供环境的深度信息 点云的联合处理0。与深度图像类似的是多光谱 和反射率,且不受环境光照的影响。激光雷达数 图像。多光谱图像可以由多光谱相机或航空相机 据为三维点云格式,因此点云的坐标自然地提供 获得,也可以通过RGB相机和热成像相机(红外 了物体相对激光雷达的三维空间坐标,可以用于 光相机)配准后获得。多光谱图像,特别是基于 三维空间的目标检测;点云的反射强度值反映了 物体表面温度的热成像,可以避免环境可见光源 物体表面的材质,因此不同的物体可以根据反射 对成像的影响,从而可以在包括夜间的多种环境 强度被很容易地区分开。 下获得具有区分度的图像。Rutgers大学2]和 Bonn大学0的研究者分别在2016年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员]探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4基于其他数据来源 表2中列出了常见的自动驾驶场景中的传感 图1 KITTI数据集示例例 器(或数据来源)以及对应的数据模态、数据提供 Fig.1 KITTI dataset examples 的信息和使用的目标检测任务。 对于点云上的目标检测,现有多种方法,它们 表2多种模态数据的比较 和点云的数据表现方式有关。由于点云的空间特 Table 2 Comparison of multiple modal data 性,它既可以在三维空间中执行三维检测,也可 传感器 模态 包含信息 检测目标 以投影到二维平面,利用基于图像的二维目标检 RGB相机 图像 RGB信息 2D 测模型进行计算4。具体地,投影主要包括前视 全景相机 图像 全景RGB信息 2D 图投影和鸟瞰图投影(bird's eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 深度相机 图像 RGB信息、深度 2D&3D 像,另一方面可以投影到车载相机的像素平面 多光谱相机 图像 多光谱图像 2D 上,从而可以和相机图像融合来执行目标检测。 激光雷达 点云 深度、反射强度 2D&3D 然而在模型中点云的BEV视图受到了更多的应 雷达 点云 深度、径向速度 2D&3D 用,主要有3个原因:1)物体在投影到BEV视图 毫米波雷达 点云 深度、径向速度 2D 时会保留物理尺寸,而其他投影视图会产生透视 高精地图 地图 地图先验信息 2D&3D 效果;2)BEV视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 除了上述4种常见的数据,高精地图(HD 象通常位于地面上并且垂直位置的变化很小,因 map)、雷达(radar)和毫米波雷达(millimeter wave 此鸟瞰图有利于获取准确的3D边界框。此外, radar)同样被应用于自动驾驶的目标检测中。 激光雷达还可以在投影图像上提供丰富的语义信 HDNet提供了一种融合激光雷达点云与高精地 息,比如深度信息、反射率信息1和物体高度 图的方法,且点云可以用于高精地图的构建,从
的 SSD[41] 和 2017 年的 Retina-Net[43] 也受到了广泛 的研究和使用。此后,仍然不断有各种模型在基 准数据集上取得突破,然而这些模型依然遵循了 单步或两步模型的经典设计。 2.1.2 基于激光雷达点云 激光雷达由于其主动感知的特性,以及相对 雷达提供了更密集的点云,因此在自动驾驶的传 感器中受到较多的应用[ 4 4 - 4 6 ]。图 1 中给出了 KITTI 数据集中 RGB 图像和激光雷达点云的示 例,其中点云反射强度图被投影到相机成像平 面,且所显示的均为灰度图。激光雷达不仅可以 提供较大的感知范围,扫描半径可达 50~70 m,甚 至更远,而且激光雷达可以提供环境的深度信息 和反射率,且不受环境光照的影响。激光雷达数 据为三维点云格式,因此点云的坐标自然地提供 了物体相对激光雷达的三维空间坐标,可以用于 三维空间的目标检测;点云的反射强度值反映了 物体表面的材质,因此不同的物体可以根据反射 强度被很容易地区分开。 图 1 KITTI 数据集示例[19] Fig. 1 KITTI dataset examples 对于点云上的目标检测,现有多种方法,它们 和点云的数据表现方式有关。由于点云的空间特 性,它既可以在三维空间中执行三维检测[47] ,也可 以投影到二维平面,利用基于图像的二维目标检 测模型进行计算[48]。具体地,投影主要包括前视 图投影和鸟瞰图投影 (bird’s eye view,BEV),其 中前视图投影一方面可以得到较为稠密的投影图 像,另一方面可以投影到车载相机的像素平面 上,从而可以和相机图像融合来执行目标检测。 然而在模型中点云的 BEV 视图受到了更多的应 用,主要有 3 个原因:1)物体在投影到 BEV 视图 时会保留物理尺寸,而其他投影视图会产生透视 效果;2)BEV 视图中的物体很少出现遮挡问题, 且在空间上分布离散;3)在道路场景中,由于对 象通常位于地面上并且垂直位置的变化很小,因 此鸟瞰图有利于获取准确的 3D 边界框。此外, 激光雷达还可以在投影图像上提供丰富的语义信 息,比如深度信息[48] 、反射率信息[48] 和物体高度 信息[49] 等,根据多重语义信息可以更有效地在点 云上进行视觉计算。 2.1.3 基于 RGB-D 图像和多光谱图像 深度相机,又称 RGB-D 相机,在 RGB 图像的 对应像素上提供了深度信息,从而让所提供的 RGB-D 图像在一定程度上结合了 RGB 图像和激 光雷达的优点。且由于 RGB-D 所提供的点云和 图像自然配准,因此在计算上较单独的激光雷达 点云和 RGB 图像更加方便。近年来研究者探索 了 RGB-D 图像的信息挖掘方法,主要是将 RGBD 图像中的两种信息分拆处理,包括对图像和点 云投影得到的深度图像的联合处理[10] 、对图像和 点云的联合处理[50]。与深度图像类似的是多光谱 图像。多光谱图像可以由多光谱相机或航空相机 获得,也可以通过 RGB 相机和热成像相机 (红外 光相机) 配准后获得。多光谱图像,特别是基于 物体表面温度的热成像,可以避免环境可见光源 对成像的影响,从而可以在包括夜间的多种环境 下获得具有区分度的图像。Rutgers 大学[29] 和 Bonn 大学[30] 的研究者分别在 2016 年发表了基于 多光谱成像的目标检测技术,是最早的一批利用 多光谱图像进行目标检测的研究。此后,浙江大 学的研究人员[51] 探究了多光谱成像在全天候目 标检测下的应用前景,并获得了良好的实验效果。 2.1.4 基于其他数据来源 表 2 中列出了常见的自动驾驶场景中的传感 器 (或数据来源) 以及对应的数据模态、数据提供 的信息和使用的目标检测任务。 表 2 多种模态数据的比较 Table 2 Comparison of multiple modal data 传感器 模态 包含信息 检测目标 RGB相机 图像 RGB信息 2D 全景相机 图像 全景RGB信息 2D 深度相机 图像 RGB信息、深度 2D&3D 多光谱相机 图像 多光谱图像 2D 激光雷达 点云 深度、反射强度 2D&3D 雷达 点云 深度、径向速度 2D&3D 毫米波雷达 点云 深度、径向速度 2D 高精地图 地图 地图先验信息 2D&3D 除了上述 4 种常见的数据,高精地图 (HD map)、雷达 (radar) 和毫米波雷达 (millimeter wave radar) 同样被应用于自动驾驶的目标检测中。 HDNet[52] 提供了一种融合激光雷达点云与高精地 图的方法,且点云可以用于高精地图的构建,从 第 4 期 张新钰,等:面向自动驾驶目标检测的深度多模态融合技术 ·761·
·762· 智能系统学报 第15卷 而建立起点云和高精地图之间的联系。通过往高 基于雷达21和毫米波雷达的研究s),同样值得 精地图上添加交通语义信息,如信号灯、道路指 关注。 示标志、车辆信息等,可以充分利用道路上的先 2.1.5基于多模态数据的目标检测 验信息,从而提高点云上目标检测模型的性能。 近年来,自动驾驶领域对基于多模态数据融 雷达和毫米波雷达均可以提供点云,但所提供的 合的目标检测技术的研究兴起,一方面是出于上 信息只包含深度(三维空间)信息,且其点云较激 述对单一模态数据的缺陷的考虑,另一方面是出 光雷达点云更为稀疏,因此应用范围不及激光雷 于对车载传感器稳定性的考虑。表3总结了近年 达。然而雷达,特别是毫米波雷达具有更大的射 来自动驾驶场景下基于多模态数据融合的深度目 程,可以提供更大距离的障碍物信息,近年来有 标检测方法。 表3深度目标检测数据融合方法统计 Table 3 Statistics of deep target detection data fusion methods 文献 传感器 点云表示方式 数据融合 特征融合结果融合轴助估计 [53] 毫米波雷达、RGB相机 前视图 [56 激光雷达、RGB相机 前视图、鸟瞰图、体素化 [25] 雷达、长焦相机、短焦相机 前视图 [57] 激光雷达、RGB相机 3D点云、体素化 [261 激光雷达、RGB相机 鸟瞰图 [55] 激光雷达、RGB相机 前视图 [27] 激光雷达、RGB相机 体素化的前视图、鸟瞰图 [58] 激光雷达、RGB相机 鸟瞰图 [50] 深度相机 3D点云 [51] RGB相机、热成像相机 [59] 激光雷达、RGB相机 鸟瞰图 [60] 激光雷达、RGB相机 前视图 [52] 激光雷达、高精地图 高精地图、栅格化鸟瞰图 [61] 激光雷达、道路先验信息 鸟瞰图 [62] 激光雷达、RGB相机 6通道鸟瞰特征图 [28] 激光雷达、RGB相机 前视图 [63] 激光雷达、RGB相机 稀疏深度图、稠密深度图 [64 激光雷达、RGB相机 3D点云 [65] 激光雷达、RGB相机 按深度生成3个前视图 [66 激光雷达、RGB相机 鸟瞰图 [67] 深度相机 前视图 [23] 激光雷达、RGB相机 鸟瞰图、前视图 [68] 激光雷达、RGB相机 3D点云 [48] 激光雷达、RGB相机 稠密深度图、稠密强度图 [10] 深度相机、专家先验信息 前视图 [49] 激光雷达、RGB相机 前视图 [29] RGB相机、热成像相机 [30] RGB相机、热成像相机 [69] 激光雷达、RGB相机 稠密强度图 针对第一方面,近年来不断有针对多模态数 提出的基于HHA采样的激光雷达点云和相机图 据的目标检测方法被提出,如Cho等s提出的对 像的融合方法,两种数据组成了6通道的扩展图 雷达点云、激光雷达点云和相机图像的专家融合 像,用于行人检测:DOU等s提出了融合点云前 方法,用于车辆检测与跟踪;Schlosser等Ia列 向投影的深度图和相机图像的融合方法,是一项
而建立起点云和高精地图之间的联系。通过往高 精地图上添加交通语义信息,如信号灯、道路指 示标志、车辆信息等,可以充分利用道路上的先 验信息,从而提高点云上目标检测模型的性能。 雷达和毫米波雷达均可以提供点云,但所提供的 信息只包含深度 (三维空间) 信息,且其点云较激 光雷达点云更为稀疏,因此应用范围不及激光雷 达。然而雷达,特别是毫米波雷达具有更大的射 程,可以提供更大距离的障碍物信息,近年来有 基于雷达[25] 和毫米波雷达的研究[53] ,同样值得 关注。 2.1.5 基于多模态数据的目标检测 近年来,自动驾驶领域对基于多模态数据融 合的目标检测技术的研究兴起,一方面是出于上 述对单一模态数据的缺陷的考虑,另一方面是出 于对车载传感器稳定性的考虑。表 3 总结了近年 来自动驾驶场景下基于多模态数据融合的深度目 标检测方法。 表 3 深度目标检测数据融合方法统计 Table 3 Statistics of deep target detection data fusion methods 文献 传感器 点云表示方式 数据融合 特征融合 结果融合 辅助估计 [53] 毫米波雷达、RGB相机 前视图 √ √ √ [56] 激光雷达、RGB相机 前视图、鸟瞰图、体素化 √ √ √ √ [25] 雷达、长焦相机、短焦相机 前视图 √ √ [57] 激光雷达、RGB相机 3D点云、体素化 √ √ [26] 激光雷达、RGB相机 鸟瞰图 √ [55] 激光雷达、RGB相机 前视图 √ √ [27] 激光雷达、RGB相机 体素化的前视图、鸟瞰图 √ [58] 激光雷达、RGB相机 鸟瞰图 √ √ [50] 深度相机 3D点云 √ √ [51] RGB相机、热成像相机 / √ √ [59] 激光雷达、RGB相机 鸟瞰图 √ [60] 激光雷达、RGB相机 前视图 √ [52] 激光雷达、高精地图 高精地图、栅格化鸟瞰图 √ √ [61] 激光雷达、道路先验信息 鸟瞰图 √ [62] 激光雷达、RGB相机 6通道鸟瞰特征图 √ √ [28] 激光雷达、RGB相机 前视图 √ [63] 激光雷达、RGB相机 稀疏深度图、稠密深度图 √ √ [64] 激光雷达、RGB相机 3D点云 √ √ [65] 激光雷达、RGB相机 按深度生成3个前视图 √ √ [66] 激光雷达、RGB相机 鸟瞰图 √ √ [67] 深度相机 前视图 √ √ √ [23] 激光雷达、RGB相机 鸟瞰图、前视图 √ [68] 激光雷达、RGB相机 3D点云 √ √ [48] 激光雷达、RGB相机 稠密深度图、稠密强度图 √ [10] 深度相机、专家先验信息 前视图 √ [49] 激光雷达、RGB相机 前视图 √ √ [29] RGB相机、热成像相机 / √ √ √ [30] RGB相机、热成像相机 / √ √ [69] 激光雷达、RGB相机 稠密强度图 √ 针对第一方面,近年来不断有针对多模态数 据的目标检测方法被提出,如 Cho 等 [54] 提出的对 雷达点云、激光雷达点云和相机图像的专家融合 方法,用于车辆检测与跟踪; Schlosse r 等 [ 4 9 ] 提出的基于 HHA 采样的激光雷达点云和相机图 像的融合方法,两种数据组成了 6 通道的扩展图 像,用于行人检测;DOU 等 [55] 提出了融合点云前 向投影的深度图和相机图像的融合方法,是一项 ·762· 智 能 系 统 学 报 第 15 卷