第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202010003 多视角数据融合的特征平衡YOLO3行人检测研究 陈丽,马楠2,逢桂林3,高跃,李佳洪2,张国平,吴祉璇',姚永强 (1.北京联合大学北京市信息服务工程重点实验室,北京100101;2.北京联合大学机器人学院,北京100101; 3.北京交通大学计算机与信息技术学院,北京100044,4.清华大学软件学院,北京100085) 摘要:针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题,本文提出一种多视角数 据融合的特征平衡YOLOv3行人检测模型(MVBYOLO),包括2部分:自监督学习的多视角特征点融合模型 (Self-MVFM)和特征平衡YOLOv3网络(BYOLO)。Self-MVFM对输入的2个及以上的视角数据进行自监督学 习特征,通过特征点的匹配实现多视角信息融合,在融合时使用加权平滑算法解决产生的色差问题;BYOLO使 用相同分辨率融合高层语义特征和低层细节特征,得到平衡的语义增强多层级特征,提高复杂场景下车辆前方 行人检测的精确度。为了验证所提出方法的有效性,在VOC数据集上进行对比实验,最终AP值达到80.14%。 与原YOLOv3网络相比.本文提出的MVBYOLO模型精度提高了2.89%。 关键词:多视数据;自监督学习;特征点匹配:特征融合;YOLOv3网络;平衡特征;复杂场景;行人检测 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)01-0057-09 中文引用格式:陈丽,马楠,逢桂林,等.多视角数据融合的特征平衡Y0L0v3行人检测研究J八.智能系统学报,2021,16(1): 57-65. 英文引用格式:CHEN Li,MA Nan,.PANG Guilin,etal.Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[Jl.CAAI transactions on intelligent systems,2021,16(1):57-65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li',MA Nan2,PANG Guilin',GAO Yue',LI Jiahong'2, ZHANG Guoping',WU Zhixuan',YAO Yongqiang (1.Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China;2.College of Ro- botics,Beijing Union University,Beijing 100101,China;3.School of Computer and Information Technology,Beijing Jiaotong Uni- versity,Beijing 100044:4.School of Software,Tsinghua University,Beijing 100085) Abstract:Because of the occlusion and low accuracy of long-distance detection,pedestrian detection in complex scenes is difficult.Therefore,a pedestrian detection method based on multi-view data fusion and balanced YOLOv3(MVBY- OLO)is proposed,including the self-supervised network for multi-view fusion model(Self-MVFM)and balanced YOLOv3 network(BYOLO).Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion;BYOLO uses the same resolution to fuse high-and low-level semantic features to obtain balanced semantic information,thereby en- hancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method.The fi- nal AP value reaches 80.14%.The experimental results indicate that compared with the original YOLOv3 network,the accuracy of the MVBYOLO is increased by 2.89%. Keywords:multi-view data;self-supervised learning;feature point matching;feature fusion;YOLOv3 network;bal- anced feature;complex scene;pedestrian detection 安全性是无人驾驶技术研究成果落地应用的 收稿日期:2020-10-07. 基金项目:国家自然科学基金项目(61871038,61931012 重要需求。无人驾驶技术需要与周围环境形成良 9手季名哭共胶林司 好的交互山。无人驾驶需要具备认知能力,才能 领军计划(BPHR2020AZ02:北京联合大学研究生科 更好地学习。对周围环境的感知、主动学习是无 研创新资助项目(YZ2020K001). 通信作者:马楠.E-mail:xxtmanan@buu.edu.cn 人驾驶技术必须攻克的一个难点。其中,行人
DOI: 10.11992/tis.202010003 多视角数据融合的特征平衡 YOLOv3 行人检测研究 陈丽1 ,马楠1,2,逄桂林3 ,高跃4 ,李佳洪1,2,张国平1 ,吴祉璇1 ,姚永强1 (1. 北京联合大学 北京市信息服务工程重点实验室,北京 100101; 2. 北京联合大学 机器人学院,北京 100101; 3. 北京交通大学 计算机与信息技术学院,北京 100044; 4. 清华大学 软件学院,北京 100085) 摘 要:针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题,本文提出一种多视角数 据融合的特征平衡 YOLOv3 行人检测模型 (MVBYOLO),包括 2 部分:自监督学习的多视角特征点融合模型 (Self-MVFM) 和特征平衡 YOLOv3 网络 (BYOLO)。Self-MVFM 对输入的 2 个及以上的视角数据进行自监督学 习特征,通过特征点的匹配实现多视角信息融合,在融合时使用加权平滑算法解决产生的色差问题;BYOLO 使 用相同分辨率融合高层语义特征和低层细节特征,得到平衡的语义增强多层级特征,提高复杂场景下车辆前方 行人检测的精确度。为了验证所提出方法的有效性,在 VOC 数据集上进行对比实验,最终 AP 值达到 80.14%。 与原 YOLOv3 网络相比,本文提出的 MVBYOLO 模型精度提高了 2.89%。 关键词:多视数据;自监督学习;特征点匹配;特征融合;YOLOv3 网络;平衡特征;复杂场景;行人检测 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0057−09 中文引用格式:陈丽, 马楠, 逄桂林, 等. 多视角数据融合的特征平衡 YOLOv3 行人检测研究 [J]. 智能系统学报, 2021, 16(1): 57–65. 英文引用格式:CHEN Li, MA Nan, PANG Guilin, et al. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[J]. CAAI transactions on intelligent systems, 2021, 16(1): 57–65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li1 ,MA Nan1,2 ,PANG Guilin3 ,GAO Yue4 ,LI Jiahong1,2 , ZHANG Guoping1 ,WU Zhixuan1 ,YAO Yongqiang1 (1. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China; 2. College of Robotics, Beijing Union University, Beijing 100101, China; 3. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; 4. School of Software, Tsinghua University, Beijing 100085) Abstract: Because of the occlusion and low accuracy of long-distance detection, pedestrian detection in complex scenes is difficult. Therefore, a pedestrian detection method based on multi-view data fusion and balanced YOLOv3 (MVBYOLO) is proposed, including the self-supervised network for multi-view fusion model (Self-MVFM) and balanced YOLOv3 network (BYOLO). Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion; BYOLO uses the same resolution to fuse high- and low-level semantic features to obtain balanced semantic information, thereby enhancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method. The final AP value reaches 80.14%. The experimental results indicate that compared with the original YOLOv3 network, the accuracy of the MVBYOLO is increased by 2.89%. Keywords: multi-view data; self- supervised learning; feature point matching; feature fusion; YOLOv3 network; balanced feature; complex scene; pedestrian detection 安全性是无人驾驶技术研究成果落地应用的 重要需求。无人驾驶技术需要与周围环境形成良 好的交互[1]。无人驾驶需要具备认知能力,才能 更好地学习。对周围环境的感知、主动学习是无 人驾驶技术必须攻克的一个难点[2]。其中,行人 收稿日期:2020−10−07. 基金项目:国家自然科学基金项 目 (61871038, 61931012, 6183034);军委装备发展部共性预研计划项 目 (41412040302);北京联合大学“人才强校优选计划” 领军计划 (BPHR2020AZ02);北京联合大学研究生科 研创新资助项目 (YZ2020K001). 通信作者:马楠. E-mail:xxtmanan@buu.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
·58 智能系统学报 第16卷 检测就是无人驾驶进行环境认知的一个必备环 问题,一直受到研究者们的关注。Farenzena 节。行人检测工作主要是判别在输入的视频、图 等向提出了一种对称驱动的局部特征累积方法 像中是否含有行人并返回其位置。在无人驾驶场 该方法从结构元素成分分析模型)提取的行人轮 景下,一旦未能及时、准确地检测出行人,就会造 廓中找到垂直对称轴,然后根据像素的权重提取 成伤亡,后果不堪设想,所以无人驾驶条件下对 颜色和纹理特征。Wen等[提出从几张已知相 行人检测的准确性有极高的要求。因为行人存在 机位置的多视角彩色图片生成三角网格模型的网 不同的运动姿态、不同的穿衣风格,行人被别的 络结构,使用图卷积神经网络从多视角图片的交 障碍物遮挡以及行人之间互相遮挡),复杂交通 叉信息学习进一步提升形状质量。相比于直接建 场景下光线不统一等问题,行人检测一直是无人 立从图像到最终3D形状的映射,本文预测一系 驾驶领域重点研究的问题。 列形变,逐渐将由多视角图片生成的粗略形状精 复杂交通场景下的行人检测要求在发生部分 细化。Chen等9通过输入多张不同角度的图片, 遮挡时,仍能检测出行人,并且要求能快速有效 提取不同的点云特征,再进行融合,从而生成最 地检测出车辆前方远距离的小目标行人(小目标 终的点云。与基于代价体的同类网络相比,这种 指在整张图片中目标的像素点小于32×32,或者 基于点云的网络结构具有更高的准确性,更高的 目标尺寸低于原图像尺寸的10%。但是,在实 计算效率和更大的灵活性。Yi等0引入2种新 际实验中,依靠单一视角的数据,行人发生遮挡 颖的自适应视图融合(逐像素视图融合和体素视 时很难被检测到。 图融合),考虑在不同视角图像间多重匹配的不同 为了解决发生遮挡以及远距离行人检测困难 重要性,优化了代价体的计算方法并且引入了新 的问题,本文提出一种基于多视角数据融合的特 的深度图聚合结构,提高了3D点云重建的鲁棒 征平衡YOLOv3行人检测模型(multi-view data 性和完整性。旷世科技公司提出的双向网络, and balanced YOLOv3,MVBYOLO)。首先输入不 利用深度学习模型,对提取的空间信息特征和全 同视角的图像,使用自监督学习的多视角特征点 局语义特征进行融合,兼顾了语义分割任务的速 融合网络模型(self-supervised network for multi- 度与语义信息。Su等21提出多视角卷积网络 view fusion model,.Self-MVFM)对其进行特征点提 multi-view convolutio nal neu r a l 取与匹配,实现多视角图像融合。但是在实际问 networks,MVCNN),利用二维的CNN网络对多个 题中不同角度的摄像机采集的图像融后会产生色 视角的图像进行融合,实验结果显示比直接用 差。本文在多视角图像融合时引入改进的加权平 3D检测方法更好。Fcng等提出的组视图卷积 滑算法,有效解决不同视角图像融合时产生色差 网络框架,在MVCNN基础上增加分组模型,将 的问题。此外,为了提高复杂交通场景下车辆前 不同视角的信息根据相关性进行分组后,再进行 方远距离行人的检测精度,本文提出了一个特征 特征融合。Dong等在CVPR2019上提出一种 平衡的YOLOv3网络(balanced YOLOv3,BYOLO), 利用外观特征和几何约束相似性矩阵共同寻找各 在接收到经过Self-MVFM网络融合的多视角图 个视角中满足回路一致性的二维姿态匹配关系, 像后,用Darknet-53网络对图像进行特征提取,可 实现了较好的多视角下多人的三维姿态估计结 以获得分辨率不同的特征。分辨率高的低层特征 果。澳洲国立大学郑良老师实验室提出多视角检 包括行人的轮廓、衣着颜色、纹理等信息;分辨率 测模型联合考虑多个相机,利用特征图的投影 低的高层特征包括肢体、人脸等语义信息。对获 变换进行多相机信息融合,提高虚拟场景下行人 得的低层特征与高层特征进行采样,映射到中间 发生遮挡时的检测效率。 层级的分辨率进行特征融合、修正,再通过相反 1.2行人检测方法 的采样方式适配到原分辨率的特征图,与 行人检测是目标检测领域的一个重要分支, Darknet-53提取的原始特征进行融合,再利用融 其主要任务是找出输人的图像或视频帧中存在的 合后的特征预测行人。在公共数据集VOC上的 行人,并用矩形框输出行人位置和大小。然而行 实验结果表明,本文提出的MVBYOLO行人检测 人的着装风格、姿势、形状不同,并且面临被物体 模型可以有效提高复杂场景下的行人检测精度。 遮挡以及行人互相遮挡、拍摄光照不同、拍摄角 1基于多视角数据的行人检测研究 度不同等因素的影响,使得行人检测任务一直受 到视觉研究者们的关注。从研究历史来看,行人 1.1多视角数据融合算法 检测方法可以分为2个主要方向:基于传统算法 针对多角度、多尺度的特征如何进行融合的 的行人检测和基于深度学习的行人检测
检测就是无人驾驶进行环境认知的一个必备环 节。行人检测工作主要是判别在输入的视频、图 像中是否含有行人并返回其位置。在无人驾驶场 景下,一旦未能及时、准确地检测出行人,就会造 成伤亡,后果不堪设想,所以无人驾驶条件下对 行人检测的准确性有极高的要求。因为行人存在 不同的运动姿态、不同的穿衣风格,行人被别的 障碍物遮挡以及行人之间互相遮挡[3] ,复杂交通 场景下光线不统一等问题,行人检测一直是无人 驾驶领域重点研究的问题[4]。 32×32 复杂交通场景下的行人检测要求在发生部分 遮挡时,仍能检测出行人,并且要求能快速有效 地检测出车辆前方远距离的小目标行人 (小目标 指在整张图片中目标的像素点小于 ,或者 目标尺寸低于原图像尺寸的 10%[5] )。但是,在实 际实验中,依靠单一视角的数据,行人发生遮挡 时很难被检测到。 为了解决发生遮挡以及远距离行人检测困难 的问题,本文提出一种基于多视角数据融合的特 征平衡 YOLOv3 行人检测模型 (multi-view data and balanced YOLOv3, MVBYOLO)。首先输入不 同视角的图像,使用自监督学习的多视角特征点 融合网络模型 (self-supervised network for multiview fusion model, Self-MVFM) 对其进行特征点提 取与匹配,实现多视角图像融合。但是在实际问 题中不同角度的摄像机采集的图像融后会产生色 差。本文在多视角图像融合时引入改进的加权平 滑算法,有效解决不同视角图像融合时产生色差 的问题。此外,为了提高复杂交通场景下车辆前 方远距离行人的检测精度,本文提出了一个特征 平衡的 YOLOv3 网络 (balanced YOLOv3, BYOLO), 在接收到经过 Self-MVFM 网络融合的多视角图 像后,用 Darknet-53 网络对图像进行特征提取,可 以获得分辨率不同的特征。分辨率高的低层特征 包括行人的轮廓、衣着颜色、纹理等信息;分辨率 低的高层特征包括肢体、人脸等语义信息。对获 得的低层特征与高层特征进行采样,映射到中间 层级的分辨率进行特征融合、修正,再通过相反 的采样方式适配到原分辨率的特征图, 与 Darknet-53 提取的原始特征进行融合,再利用融 合后的特征预测行人。在公共数据集 VOC 上的 实验结果表明,本文提出的 MVBYOLO 行人检测 模型可以有效提高复杂场景下的行人检测精度。 1 基于多视角数据的行人检测研究 1.1 多视角数据融合算法 针对多角度、多尺度的特征如何进行融合的 问题,一直受到研究者们的关注。Farenzena 等 [6] 提出了一种对称驱动的局部特征累积方法, 该方法从结构元素成分分析模型[7] 提取的行人轮 廓中找到垂直对称轴,然后根据像素的权重提取 颜色和纹理特征。Wen 等 [8] 提出从几张已知相 机位置的多视角彩色图片生成三角网格模型的网 络结构,使用图卷积神经网络从多视角图片的交 叉信息学习进一步提升形状质量。相比于直接建 立从图像到最终 3D 形状的映射,本文预测一系 列形变,逐渐将由多视角图片生成的粗略形状精 细化。Chen 等 [9] 通过输入多张不同角度的图片, 提取不同的点云特征,再进行融合,从而生成最 终的点云。与基于代价体的同类网络相比,这种 基于点云的网络结构具有更高的准确性,更高的 计算效率和更大的灵活性。Yi 等 [10] 引入 2 种新 颖的自适应视图融合 (逐像素视图融合和体素视 图融合),考虑在不同视角图像间多重匹配的不同 重要性,优化了代价体的计算方法并且引入了新 的深度图聚合结构,提高了 3D 点云重建的鲁棒 性和完整性。旷世科技公司提出的双向网络[11] , 利用深度学习模型,对提取的空间信息特征和全 局语义特征进行融合,兼顾了语义分割任务的速 度与语义信息。Su 等 [ 1 2 ] 提出多视角卷积网络 ( multi-view convolutional neural networks,MVCNN),利用二维的 CNN 网络对多个 视角的图像进行融合,实验结果显示比直接用 3D 检测方法更好。Feng 等 [13] 提出的组视图卷积 网络框架,在 MVCNN 基础上增加分组模型,将 不同视角的信息根据相关性进行分组后,再进行 特征融合。Dong 等 [14] 在 CVPR2019 上提出一种 利用外观特征和几何约束相似性矩阵共同寻找各 个视角中满足回路一致性的二维姿态匹配关系, 实现了较好的多视角下多人的三维姿态估计结 果。澳洲国立大学郑良老师实验室提出多视角检 测模型[15] 联合考虑多个相机,利用特征图的投影 变换进行多相机信息融合,提高虚拟场景下行人 发生遮挡时的检测效率。 1.2 行人检测方法 行人检测是目标检测领域的一个重要分支, 其主要任务是找出输入的图像或视频帧中存在的 行人,并用矩形框输出行人位置和大小。然而行 人的着装风格、姿势、形状不同,并且面临被物体 遮挡以及行人互相遮挡、拍摄光照不同、拍摄角 度不同等因素的影响,使得行人检测任务一直受 到视觉研究者们的关注。从研究历史来看,行人 检测方法可以分为 2 个主要方向:基于传统算法 的行人检测和基于深度学习的行人检测。 ·58· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv23行人检测研究 ·59· 1.2.1基于传统算法的行人检测 预测图像中的目标。以YOL0为代表的单阶段 传统算法的典型代表是利用方向梯度直方图 检测方法将目标检测任务转换为回归问题,是 (histogram of oriented gradient,.HOG)进行行人特 一种快速的行人检测方法。除了YOLO系列算 征提取,并利用支持向量机(support vector ma- 法,单阶段检测的模型还包括单次检测模型2”。 chine,SVM)算法进行分类u6。HOG是一种重要 Zhang等2提出基于单次精化神经网络的目标检 有效的图像局部纹理特征描述子。在深度学习特 测方法,结合单阶段检测速度快及双阶段检测准 征提取方法未普及之前,被研究者们广泛使用。 确率高的优点。方法包括锚窗精化模块和目标检 Girshick!等提出形变部件模型(deformable parts 测模块,2个模块互相连接,兼顾了检测的准确率 model,DPM)算法,使用HOG提取特征,并独立 与速度。 地对行人的不同部位进行建模,从而在一定程度 上解决了行人遮挡难以检测的问题。DPM中包 2多视角数据融合的特征平衡 含2个部分:根部模型和部位模型。根部模型主 本文提出的多视角数据融合的特征平衡YOLOv3 要是定位对象的潜在区域,找出可能存在物体对 行人检测网络MVBYOLO)包括2部分:1)自监 象的区域,再与部位模型进行确认,最终采用 督学习的多视角特征点融合网铬模型(Self-MVFM): SVM和AdaBoost进行分类。另外,也有部分学 2)特征平衡YOLOv3网络(BYOLO)。首先对输 者从运动特征角度进行研究。假设捕捉行人运动 入的多视角图像做特征匹配,融合成一个完备的 的摄像机是固定不动的,则使用背景建模算法提 图像,之后再利用目标检测网络对融合后的图像 取出运动的前景目标,再对前景目标进行分类。 做训练,提高遮挡及远距离小尺寸行人检测的精 背景建模算法的思路是:通过学习前一帧获得背 度。网络总体框架如图1所示。 景模型,把当前帧与背景帧数据进行对比,得到 Self-MVFM BYOLO 运动的目标,代表性方法是高斯混合模型11、视 「特征点匹配 l Darknet-53 频前景提取算法算法1叨、样本一致性建模算法2] 「左视角 基于像素的参数自适应算法P。 融合川 1.2.2基于深度学习的行人检测 基于传统算法的行人检测在一定条件下可以 特征点匹配 达到较好的检测效率或准确性,但仍不能满足实 际的应用需求。2012年Krizhevsky等22将深度 学习技术应用到图像分类并取得良好效果,研究 者们发现通过神经网络提取的特征具有很强的表 图1 MVBYOLO行人检测网络 达能力和鲁棒性,使计算机视觉的发展迈上了一 Fig.1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 个新台阶。因此,对于行人检测任务,基于深度 学习的方法受到越来越多研究者的青睐。 2.1自监督学习的多视角特征点融合网络模型 基于深度学习的行人检测又可分为双阶段检 自监督学习的多视角数据融合模型工作流程 测与单阶段检测。双阶段检测方法首先生成一组 如下:图像获取、自监督特征点与描述子提取、特 稀疏的目标候选框,然后对候选框进行分类和回 征匹配,最后进行多视角图像融合。本文提出自 归。Girshick等提出区域卷积神经网络(regions 监督学习的多视角特征点融合网络模型,网络结 with CNN features,.R-CNN),首次将CNN 构如图2所示。 用于目标检测,极大提高了目标检测的性能。后 2.11数据集自标注与模型训练 来Girshick在R-CNN基础上进行改进,提出了快 多视角数据融合过程中的数据集特征点提取 速区域卷积神经网络模型2,将感兴趣区域提取 任务很难利用人工标注。对于传统的检测、分割 与特征分类合并在同一个网络结构,提高了模型 任务的标注,给定一个图像,通过标注矩形框或 训练的速度和检测的准确率。Ren等在Fast R- 者标注物体的轮廓,可以得到确定的语义真值。 CNN上增加区域卷积网络来生成候选区域,构成 但是对于特征点检测任务,人工很难判断哪一个 一种更快的区域卷积神经网络模型,端到端的训 像素点可以作为特征点,因此本文利用仅包含简 练方式大大提高了运算速度。 单几何形状的基本数据集和自行采集数据集进行 单阶段的方法通过直接对图像中的不同位 数据集的自标注四,具体流程为 置,尺度和长宽比进行规则和密集采样,以此来 1)利用简单几何形状数据集进行模型的预
1.2.1 基于传统算法的行人检测 传统算法的典型代表是利用方向梯度直方图 (histogram of oriented gradient, HOG)进行行人特 征提取,并利用支持向量机(support vector machine,SVM)算法进行分类[16]。HOG是一种重要 有效的图像局部纹理特征描述子。在深度学习特 征提取方法未普及之前,被研究者们广泛使用。 Girshick[17] 等提出形变部件模型(deformable parts model, DPM)算法,使用 HOG 提取特征,并独立 地对行人的不同部位进行建模,从而在一定程度 上解决了行人遮挡难以检测的问题。DPM 中包 含 2 个部分:根部模型和部位模型。根部模型主 要是定位对象的潜在区域,找出可能存在物体对 象的区域,再与部位模型进行确认,最终采用 SVM 和 AdaBoost 进行分类。另外,也有部分学 者从运动特征角度进行研究。假设捕捉行人运动 的摄像机是固定不动的,则使用背景建模算法提 取出运动的前景目标,再对前景目标进行分类。 背景建模算法的思路是:通过学习前一帧获得背 景模型,把当前帧与背景帧数据进行对比,得到 运动的目标,代表性方法是高斯混合模型[18] 、视 频前景提取算法算法[19] 、样本一致性建模算法[20] 、 基于像素的参数自适应算法[21]。 1.2.2 基于深度学习的行人检测 基于传统算法的行人检测在一定条件下可以 达到较好的检测效率或准确性,但仍不能满足实 际的应用需求。2012 年 Krizhevsky 等 [22] 将深度 学习技术应用到图像分类并取得良好效果,研究 者们发现通过神经网络提取的特征具有很强的表 达能力和鲁棒性,使计算机视觉的发展迈上了一 个新台阶。因此,对于行人检测任务,基于深度 学习的方法受到越来越多研究者的青睐。 基于深度学习的行人检测又可分为双阶段检 测与单阶段检测。双阶段检测方法首先生成一组 稀疏的目标候选框,然后对候选框进行分类和回 归。Girshick[23] 等提出区域卷积神经网络(regions with CNN features, R-CNN),首次 将 CNN 用于目标检测,极大提高了目标检测的性能。后 来 Girshick 在 R-CNN 基础上进行改进,提出了快 速区域卷积神经网络模型[24] ,将感兴趣区域提取 与特征分类合并在同一个网络结构,提高了模型 训练的速度和检测的准确率。Ren 等 [25] 在 Fast RCNN 上增加区域卷积网络来生成候选区域,构成 一种更快的区域卷积神经网络模型,端到端的训 练方式大大提高了运算速度。 单阶段的方法通过直接对图像中的不同位 置,尺度和长宽比进行规则和密集采样,以此来 预测图像中的目标。以 YOLO[26] 为代表的单阶段 检测方法将目标检测任务转换为回归问题,是 一种快速的行人检测方法。除了 YOLO 系列算 法,单阶段检测的模型还包括单次检测模型[27]。 Zhang 等 [28] 提出基于单次精化神经网络的目标检 测方法,结合单阶段检测速度快及双阶段检测准 确率高的优点。方法包括锚窗精化模块和目标检 测模块,2 个模块互相连接,兼顾了检测的准确率 与速度。 2 多视角数据融合的特征平衡 本文提出的多视角数据融合的特征平衡 YOLOv3 行人检测网络 (MVBYOLO) 包括 2 部分:1) 自监 督学习的多视角特征点融合网络模型 (Self-MVFM); 2) 特征平衡 YOLOv3 网络 (BYOLO)。首先对输 入的多视角图像做特征匹配,融合成一个完备的 图像,之后再利用目标检测网络对融合后的图像 做训练,提高遮挡及远距离小尺寸行人检测的精 度。网络总体框架如图 1 所示。 Self-MVFM BYOLO 左视角 融合 多尺度融合 26×26 右视角 52×52 52×52 26×26 26×26 13×13 13×13 特征点匹配 特征点匹配 Darknet-53 图 1 MVBYOLO 行人检测网络 Fig. 1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 2.1 自监督学习的多视角特征点融合网络模型 自监督学习的多视角数据融合模型工作流程 如下:图像获取、自监督特征点与描述子提取、特 征匹配,最后进行多视角图像融合。本文提出自 监督学习的多视角特征点融合网络模型,网络结 构如图 2 所示。 2.1.1 数据集自标注与模型训练 多视角数据融合过程中的数据集特征点提取 任务很难利用人工标注。对于传统的检测、分割 任务的标注,给定一个图像,通过标注矩形框或 者标注物体的轮廓,可以得到确定的语义真值。 但是对于特征点检测任务,人工很难判断哪一个 像素点可以作为特征点,因此本文利用仅包含简 单几何形状的基本数据集和自行采集数据集进行 数据集的自标注[29] ,具体流程为 1) 利用简单几何形状数据集进行模型的预 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·59·
·60· 智能系统学报 第16卷 训练 低。因此本文利用单应性适应变换和初级特征点 简单几何形状数据集是由一些线段、多边 检测网络训练得到新的模型,提升真实图像特征 形、立方体等特征点较为容易确定的图像构成 点提取的精度。 的。利用尺度不变特征变换等进行基本数据集的 2)自行采集图像自标注 特征点提取,可以得到数据集和特征点真值。因 利用多次复合几何变换对输入的图像进行处 为线段、三角形等基础几何形状图像的特征点是 理,本文设置超参数Nh=80;即N,是未经过复合 真实图像特征点的子集。利用标注好的简单几何 几何变换的原始图像,剩余的79帧图像是原始图 形状数据集对特征点检测网络进行训练,得到了 像经过随机生成的复合简单几何变换形成的图 一个初级特征点检测网络。与尺度不变特征变换 像。利用步骤1)中生成的初级特征点检测网络 等传统算法相比,在简单几何形状数据集训练得 对真实图像数据集伪特征点进行提取,将与源图 到的初级特征点检测网络在精度方面具有一定的 像对应的79帧图像映射回原图像的特征点累加 优势,但是在对真实图像数据集进行提取特征点 起来形成新的源图像特征点。至此本文完成了真 时会出现一些特征点的遗漏问题,检测精确度较 实图像数据集的特征点标注。 简单几何形状数据集 初级特征点检测网络 多视角图像融合网络 增强特征点检测网络 Prxel L Pixel R 图像L图像R Pixel L Pixel Fusion 图像L图像了 融合 Fusion 融合 增强特征点检测网络 跨色差特征融合 特 左视角 右视角 复合几何变换 无标注真实数据绨 图2 Self-MVFM网络模型 Fig.2 Self-supervised multi-view feature fusion model 在复合简单几何变换中,本文获取了79帧经 hoo ho2 过已知变换矩阵形成的源图像变换图像,因此获 =H hio hu h (1) 1 ha h2 得了源图像和其对应的79帧图像的79组已知位 式中:x,y)代表来自第一个视角的图片中的某 姿变换的图像对。这样就得到了原始图像与变换 一点;(2,y2)代表来自另一个视角图片中与(1y) 图像之间映射关系的真值。最终的自行采集数据 对应的某点。需要通过2张不同视角的照片计算 集包含特征点和特征点描述子真值,用于特征点 出复合几何变换矩阵H。 检测网络中特征点检测和描述子检测2个网络分 通过自监督学习到的复合简单几何变换矩阵 支的联合训练。 并非都是有用的,需要进行选择。为了选取表现 为了实现特征点检测子网络和描述子检测子 较好的复合简单几何变换矩阵,使用截断正态分 网络在初级特征点检测网络中的联合训练,将 布在预定范围内进行平移、缩放、平面内旋转和 2个检测子网络的损失函数值加权相加,得到统 对称透视变换采样。 一的损失函数。 2.1.3增强特征点检测网络 2.1.2复合几何变换 在获得数据集的原始图像与真实图像之间映 为了将不同视角的信息进行融合,需要先找 射关系的真值之后,就完成了真实数据集的自标 到不同视角的对应关系。利用自适应单应性变换 注,实现了难以人工进行标注的真实图像数据集 求解不同视角的对应关系矩阵H。单应性变换为 自标注。增强特征点检测网络用于训练前面
训练 简单几何形状数据集是由一些线段、多边 形、立方体等特征点较为容易确定的图像构成 的。利用尺度不变特征变换等进行基本数据集的 特征点提取,可以得到数据集和特征点真值。因 为线段、三角形等基础几何形状图像的特征点是 真实图像特征点的子集。利用标注好的简单几何 形状数据集对特征点检测网络进行训练,得到了 一个初级特征点检测网络。与尺度不变特征变换 等传统算法相比,在简单几何形状数据集训练得 到的初级特征点检测网络在精度方面具有一定的 优势,但是在对真实图像数据集进行提取特征点 时会出现一些特征点的遗漏问题,检测精确度较 低。因此本文利用单应性适应变换和初级特征点 检测网络训练得到新的模型,提升真实图像特征 点提取的精度。 2) 自行采集图像自标注 利用多次复合几何变换对输入的图像进行处 理,本文设置超参数 Nh=80;即 N1 是未经过复合 几何变换的原始图像,剩余的 79 帧图像是原始图 像经过随机生成的复合简单几何变换形成的图 像。利用步骤 1) 中生成的初级特征点检测网络 对真实图像数据集伪特征点进行提取,将与源图 像对应的 79 帧图像映射回原图像的特征点累加 起来形成新的源图像特征点。至此本文完成了真 实图像数据集的特征点标注。 简单几何形状数据集 训练 Pixel L Pixel R Fusion 图像 L图像 R 融合 Pixel L Pixel R Fusion 图像 L图像 R 融合 跨色差特征融合 复合几何变换 左视角 右视角 无标注真实数据集 增强特征点检测网络 增强特征点检测网络 特 征 点 描 述 子 特 征 点 描 述 子 初级特征点检测网络 多视角图像融合网络 图 2 Self-MVFM 网络模型 Fig. 2 Self-supervised multi-view feature fusion model 在复合简单几何变换中,本文获取了 79 帧经 过已知变换矩阵形成的源图像变换图像,因此获 得了源图像和其对应的 79 帧图像的 79 组已知位 姿变换的图像对。这样就得到了原始图像与变换 图像之间映射关系的真值。最终的自行采集数据 集包含特征点和特征点描述子真值,用于特征点 检测网络中特征点检测和描述子检测 2 个网络分 支的联合训练。 为了实现特征点检测子网络和描述子检测子 网络在初级特征点检测网络中的联合训练,将 2 个检测子网络的损失函数值加权相加,得到统 一的损失函数。 2.1.2 复合几何变换 为了将不同视角的信息进行融合,需要先找 到不同视角的对应关系。利用自适应单应性变换 求解不同视角的对应关系矩阵 H。单应性变换为 x1 y1 1 = H x2 y2 1 = h00 h01 h02 h10 h11 h12 h20 h21 h22 x2 y2 1 (1) (x1, y1) (x2, y2) (x1, y1) 式中: 代表来自第一个视角的图片中的某 一点; 代表来自另一个视角图片中与 对应的某点。需要通过 2 张不同视角的照片计算 出复合几何变换矩阵 H。 通过自监督学习到的复合简单几何变换矩阵 并非都是有用的,需要进行选择。为了选取表现 较好的复合简单几何变换矩阵,使用截断正态分 布在预定范围内进行平移、缩放、平面内旋转和 对称透视变换采样。 2.1.3 增强特征点检测网络 在获得数据集的原始图像与真实图像之间映 射关系的真值之后,就完成了真实数据集的自标 注,实现了难以人工进行标注的真实图像数据集 自标注。增强特征点检测网络[11] 用于训练前面 ·60· 智 能 系 统 学 报 第 16 卷
第1期 陈丽,等:多视角数据融合的特征平衡YOLOv3行人检测研究 ·61 获得的自标注图像数据集,以提高特征点提取的 准确性。增强特征点检测网络如图3所示。 合并 特征点检测 卷积+归一化 +Reu激活 全局池化 1×1卷积 p Relu活 1×1卷积 Sigmoid激活 描述子生成 ↓ (b)FN:融合网格 全局池化 图像 样 1×1卷积 HxW 1 HxWxD 批量归一化 Sigmoid激活 (a)总体结构 (c)AM:注意力模块 图3增强特征点检测网络结构 Fig.3 Enhanced feature point detection network 多层次编码器:为了兼顾实时性与精确性,增 注意力模块(attention model,AM):经过全局 强特征点检测网络被设计成2个分支,分别用来 池化之后,可以简单得到深层全局语义信息,并 处理不同的任务。上边的分支通过非对称的编码 通过1×1卷积操作平衡多层次编码器得到的不同 解码网络实现对原始图像进行深层特征点的提 特征图通道之间的差异。 取。对原始单视图像进行特征描述子的生成,通 2.1.4加权平滑算法 过多通道、低层次的编码器网络(图3的下方分 在实际应用中,自行采集的数据集由于相机 支),提取原始图像表层的特征描述。 的架设位置和光照条件变化原因,存在2个视角 特征点检测:在特征点检测网铬部分时,经过 点信息因光场变化产生的色差问题,影响后续融 深层、少通道、非对称的编码解码网络得到图像 合效果。因此,在融合时本文采用加权平滑算法 的特征点。 来解决存在的色差问题。加权平滑算法主要思 融合网络(fusion network,FN):由于网络的特 想:用f(x,y表示重叠区域融合后的图像,由2幅 征图并不具有相同的通道和尺寸,描述子生成网 待融合图像f和fR加权平均得到,即:f(x,y)= 络提取到的特征是浅层的,包含大量的位置信 a×f(xy)+(1-a)f(xy),其中a是可调因子。 息,而特征点检测网络经过多层编码器之后得到 一般情况下0<α<1,即在图像交叉区域中, 的是深层的特征点,包含胳膊、人脸等信息。为 沿视角1图像向视角2图像的方向,α由1渐变 了融合不同层级的特征,融合网络先通过Concat- 为0,从而实现交叉区域的平滑融合。为了给 enate操作实现不同层次特征图的简单融合。为 2幅图像建立更大的相关性,使用式(2)进行融合 了平衡不同尺寸的特征,在Concatenate之后使用 处理: 了BatchNorm操作。把相连接的特征经过全局池 (fL(x,y),(x,y)E fL 化、1×1卷积得到一个新的权重。这样做的目的 f(x,y)= a×f(x,y+(1-a)×fR(x,y,(x,y)∈fnfR 是对连接后的特征进行一个新的特征选择和结 fR(x,y),(x,y)∈fR (2) 合。至此,本文得到了W×H×D的描述子检测结 果,其中W是原始图像的宽、H是原始图像的长、 +店则1-as 令= d +店其中d、山分别 D是原始图像的通道。 表示交叉区域中的点到2个不同视角图像交叉区
获得的自标注图像数据集,以提高特征点提取的 准确性。增强特征点检测网络如图 3 所示。 特征点检测 描述子生成 AM FN 上 采 样 H×W×D 图像 H×W H×W×1 合并 全局池化 全局池化 1×1 卷积 1×1 卷积 1×1 卷积 批量归一化 Sigmoid 激活 Sigmoid 激活 相乘相乘 (b) FN: 融合网格 (c) AM: 注意力模块 (a) 总体结构 p Relu 激活 卷积+归一化 +Relu 激活 图 3 增强特征点检测网络结构 Fig. 3 Enhanced feature point detection network 多层次编码器:为了兼顾实时性与精确性,增 强特征点检测网络被设计成 2 个分支,分别用来 处理不同的任务。上边的分支通过非对称的编码 解码网络实现对原始图像进行深层特征点的提 取。对原始单视图像进行特征描述子的生成,通 过多通道、低层次的编码器网络 (图 3 的下方分 支),提取原始图像表层的特征描述。 特征点检测:在特征点检测网络部分时,经过 深层、少通道、非对称的编码解码网络得到图像 的特征点。 融合网络 (fusion network, FN): 由于网络的特 征图并不具有相同的通道和尺寸,描述子生成网 络提取到的特征是浅层的,包含大量的位置信 息,而特征点检测网络经过多层编码器之后得到 的是深层的特征点,包含胳膊、人脸等信息。为 了融合不同层级的特征,融合网络先通过 Concatenate 操作实现不同层次特征图的简单融合。为 了平衡不同尺寸的特征,在 Concatenate 之后使用 了 BatchNorm 操作。把相连接的特征经过全局池 化、1×1 卷积得到一个新的权重。这样做的目的 是对连接后的特征进行一个新的特征选择和结 合。至此,本文得到了 W×H×D 的描述子检测结 果,其中 W 是原始图像的宽、H 是原始图像的长、 D 是原始图像的通道。 注意力模块 (attention model, AM):经过全局 池化之后,可以简单得到深层全局语义信息,并 通过 1×1 卷积操作平衡多层次编码器得到的不同 特征图通道之间的差异。 2.1.4 加权平滑算法 f (x, y) fL fR f (x, y)= α× fL (x, y)+(1−α)fR (x, y) α 在实际应用中,自行采集的数据集由于相机 的架设位置和光照条件变化原因,存在 2 个视角 点信息因光场变化产生的色差问题,影响后续融 合效果。因此,在融合时本文采用加权平滑算法 来解决存在的色差问题。加权平滑算法主要思 想:用 表示重叠区域融合后的图像,由 2 幅 待融合图像 和 加权平均得到,即: ,其中 是可调因子。 0 < α < 1 α 一般情况下 ,即在图像交叉区域中, 沿视角 1 图像向视角 2 图像的方向, 由 1 渐变 为 0,从而实现交叉区域的平滑融合。为了给 2 幅图像建立更大的相关性,使用式 (2) 进行融合 处理: f(x, y) = fL(x, y), (x, y) ∈ fL α× fL(x, y)+(1−α)× fR(x, y), (x, y) ∈ fL ∩ fR fR(x, y), (x, y) ∈ fR (2) α= d 2 1 d 2 1 +d 2 2 1−α= d 2 2 d 2 1 +d 2 2 令 ,则 ,其中 d1、d2 分别 表示交叉区域中的点到 2 个不同视角图像交叉区 第 1 期 陈丽,等:多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·61·