当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器感知与模式识别】多视角数据融合的特征平衡YOLOv3行人检测研究

文件格式：PDF，文件大小：4.41MB，售价：3.51元

文档详细内容（约9页）

第16卷第1期智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992/tis.202010003 多视角数据融合的特征平衡YOLO3行人检测研究陈丽，马楠2，逢桂林3，高跃，李佳洪2，张国平，吴祉璇'，姚永强 (1.北京联合大学北京市信息服务工程重点实验室，北京100101；2.北京联合大学机器人学院，北京100101； 3.北京交通大学计算机与信息技术学院，北京100044,4.清华大学软件学院，北京100085) 摘要：针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题，本文提出一种多视角数据融合的特征平衡YOLOv3行人检测模型(MVBYOLO),包括2部分：自监督学习的多视角特征点融合模型 (Self-MVFM)和特征平衡YOLOv3网络(BYOLO)。Self-MVFM对输入的2个及以上的视角数据进行自监督学习特征，通过特征点的匹配实现多视角信息融合，在融合时使用加权平滑算法解决产生的色差问题；BYOLO使用相同分辨率融合高层语义特征和低层细节特征，得到平衡的语义增强多层级特征，提高复杂场景下车辆前方行人检测的精确度。为了验证所提出方法的有效性，在VOC数据集上进行对比实验，最终AP值达到80.14%。与原YOLOv3网络相比.本文提出的MVBYOLO模型精度提高了2.89%。关键词：多视数据；自监督学习；特征点匹配：特征融合；YOLOv3网络；平衡特征；复杂场景；行人检测中图分类号：TP391 文献标志码：A文章编号：1673-4785(2021)01-0057-09 中文引用格式：陈丽，马楠，逢桂林，等.多视角数据融合的特征平衡Y0L0v3行人检测研究J八.智能系统学报，2021,16(1)： 57-65. 英文引用格式：CHEN Li,MA Nan,.PANG Guilin,etal.Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[Jl.CAAI transactions on intelligent systems,2021,16(1):57-65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li',MA Nan2,PANG Guilin',GAO Yue',LI Jiahong'2, ZHANG Guoping',WU Zhixuan',YAO Yongqiang (1.Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China;2.College of Ro- botics,Beijing Union University,Beijing 100101,China;3.School of Computer and Information Technology,Beijing Jiaotong Uni- versity,Beijing 100044:4.School of Software,Tsinghua University,Beijing 100085) Abstract:Because of the occlusion and low accuracy of long-distance detection,pedestrian detection in complex scenes is difficult.Therefore,a pedestrian detection method based on multi-view data fusion and balanced YOLOv3(MVBY- OLO)is proposed,including the self-supervised network for multi-view fusion model(Self-MVFM)and balanced YOLOv3 network(BYOLO).Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion;BYOLO uses the same resolution to fuse high-and low-level semantic features to obtain balanced semantic information,thereby en- hancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method.The fi- nal AP value reaches 80.14%.The experimental results indicate that compared with the original YOLOv3 network,the accuracy of the MVBYOLO is increased by 2.89%. Keywords:multi-view data;self-supervised learning;feature point matching;feature fusion;YOLOv3 network;bal- anced feature;complex scene;pedestrian detection 安全性是无人驾驶技术研究成果落地应用的收稿日期：2020-10-07. 基金项目：国家自然科学基金项目(61871038,61931012 重要需求。无人驾驶技术需要与周围环境形成良 9手季名哭共胶林司好的交互山。无人驾驶需要具备认知能力，才能领军计划(BPHR2020AZ02:北京联合大学研究生科更好地学习。对周围环境的感知、主动学习是无研创新资助项目(YZ2020K001). 通信作者：马楠.E-mail:xxtmanan@buu.edu.cn 人驾驶技术必须攻克的一个难点。其中，行人

DOI: 10.11992/tis.202010003 多视角数据融合的特征平衡 YOLOv3 行人检测研究陈丽1 ，马楠1,2，逄桂林3 ，高跃4 ，李佳洪1,2，张国平1 ，吴祉璇1 ，姚永强1 （1. 北京联合大学北京市信息服务工程重点实验室，北京 100101; 2. 北京联合大学机器人学院，北京 100101; 3. 北京交通大学计算机与信息技术学院，北京 100044; 4. 清华大学软件学院，北京 100085）摘要：针对复杂场景下行人发生遮挡检测困难以及远距离行人检测精确度低的问题，本文提出一种多视角数据融合的特征平衡 YOLOv3 行人检测模型 (MVBYOLO)，包括 2 部分：自监督学习的多视角特征点融合模型 (Self-MVFM) 和特征平衡 YOLOv3 网络 (BYOLO)。Self-MVFM 对输入的 2 个及以上的视角数据进行自监督学习特征，通过特征点的匹配实现多视角信息融合，在融合时使用加权平滑算法解决产生的色差问题；BYOLO 使用相同分辨率融合高层语义特征和低层细节特征，得到平衡的语义增强多层级特征，提高复杂场景下车辆前方行人检测的精确度。为了验证所提出方法的有效性，在 VOC 数据集上进行对比实验，最终 AP 值达到 80.14%。与原 YOLOv3 网络相比，本文提出的 MVBYOLO 模型精度提高了 2.89%。关键词：多视数据；自监督学习；特征点匹配；特征融合；YOLOv3 网络；平衡特征；复杂场景；行人检测中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2021)01−0057−09 中文引用格式：陈丽, 马楠, 逄桂林, 等. 多视角数据融合的特征平衡 YOLOv3 行人检测研究 [J]. 智能系统学报, 2021, 16(1): 57–65. 英文引用格式：CHEN Li, MA Nan, PANG Guilin, et al. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection[J]. CAAI transactions on intelligent systems, 2021, 16(1): 57–65. Research on multi-view data fusion and balanced YOLOv3 for pedestrian detection CHEN Li1 ，MA Nan1,2 ，PANG Guilin3 ，GAO Yue4 ，LI Jiahong1,2 ， ZHANG Guoping1 ，WU Zhixuan1 ，YAO Yongqiang1 (1. Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101, China; 2. College of Robotics, Beijing Union University, Beijing 100101, China; 3. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; 4. School of Software, Tsinghua University, Beijing 100085) Abstract: Because of the occlusion and low accuracy of long-distance detection, pedestrian detection in complex scenes is difficult. Therefore, a pedestrian detection method based on multi-view data fusion and balanced YOLOv3 (MVBYOLO) is proposed, including the self-supervised network for multi-view fusion model (Self-MVFM) and balanced YOLOv3 network (BYOLO). Self-MVFM fuses two or more input perspective data through a self-supervised network and incorporates a weighted smoothing algorithm to solve the color difference problem during the fusion; BYOLO uses the same resolution to fuse high- and low-level semantic features to obtain balanced semantic information, thereby enhancing multi-level features and improving the accuracy of pedestrian detection in front of vehicles in complex scenes. A comparative experiment is conducted on the VOC dataset to verify the effectiveness of the proposed method. The final AP value reaches 80.14%. The experimental results indicate that compared with the original YOLOv3 network, the accuracy of the MVBYOLO is increased by 2.89%. Keywords: multi-view data; self- supervised learning; feature point matching; feature fusion; YOLOv3 network; balanced feature; complex scene; pedestrian detection 安全性是无人驾驶技术研究成果落地应用的重要需求。无人驾驶技术需要与周围环境形成良好的交互[1]。无人驾驶需要具备认知能力，才能更好地学习。对周围环境的感知、主动学习是无人驾驶技术必须攻克的一个难点[2]。其中，行人收稿日期：2020−10−07. 基金项目：国家自然科学基金项目 (61871038, 61931012, 6183034)；军委装备发展部共性预研计划项目 (41412040302)；北京联合大学“人才强校优选计划” 领军计划 (BPHR2020AZ02)；北京联合大学研究生科研创新资助项目 (YZ2020K001). 通信作者：马楠. E-mail：xxtmanan@buu.edu.cn. 第 16 卷第 1 期智能系统学报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021

·58 智能系统学报第16卷检测就是无人驾驶进行环境认知的一个必备环问题，一直受到研究者们的关注。Farenzena 节。行人检测工作主要是判别在输入的视频、图等向提出了一种对称驱动的局部特征累积方法像中是否含有行人并返回其位置。在无人驾驶场该方法从结构元素成分分析模型)提取的行人轮景下，一旦未能及时、准确地检测出行人，就会造廓中找到垂直对称轴，然后根据像素的权重提取成伤亡，后果不堪设想，所以无人驾驶条件下对颜色和纹理特征。Wen等[提出从几张已知相行人检测的准确性有极高的要求。因为行人存在机位置的多视角彩色图片生成三角网格模型的网不同的运动姿态、不同的穿衣风格，行人被别的络结构，使用图卷积神经网络从多视角图片的交障碍物遮挡以及行人之间互相遮挡)，复杂交通叉信息学习进一步提升形状质量。相比于直接建场景下光线不统一等问题，行人检测一直是无人立从图像到最终3D形状的映射，本文预测一系驾驶领域重点研究的问题。列形变，逐渐将由多视角图片生成的粗略形状精复杂交通场景下的行人检测要求在发生部分细化。Chen等9通过输入多张不同角度的图片，遮挡时，仍能检测出行人，并且要求能快速有效提取不同的点云特征，再进行融合，从而生成最地检测出车辆前方远距离的小目标行人（小目标终的点云。与基于代价体的同类网络相比，这种指在整张图片中目标的像素点小于32×32，或者基于点云的网络结构具有更高的准确性，更高的目标尺寸低于原图像尺寸的10%。但是，在实计算效率和更大的灵活性。Yi等0引入2种新际实验中，依靠单一视角的数据，行人发生遮挡颖的自适应视图融合（逐像素视图融合和体素视时很难被检测到。图融合)，考虑在不同视角图像间多重匹配的不同为了解决发生遮挡以及远距离行人检测困难重要性，优化了代价体的计算方法并且引入了新的问题，本文提出一种基于多视角数据融合的特的深度图聚合结构，提高了3D点云重建的鲁棒征平衡YOLOv3行人检测模型(multi-view data 性和完整性。旷世科技公司提出的双向网络， and balanced YOLOv3,MVBYOLO)。首先输入不利用深度学习模型，对提取的空间信息特征和全同视角的图像，使用自监督学习的多视角特征点局语义特征进行融合，兼顾了语义分割任务的速融合网络模型(self-supervised network for multi- 度与语义信息。Su等21提出多视角卷积网络 view fusion model,.Self-MVFM)对其进行特征点提 multi-view convolutio nal neu r a l 取与匹配，实现多视角图像融合。但是在实际问 networks,MVCNN),利用二维的CNN网络对多个题中不同角度的摄像机采集的图像融后会产生色视角的图像进行融合，实验结果显示比直接用差。本文在多视角图像融合时引入改进的加权平 3D检测方法更好。Fcng等提出的组视图卷积滑算法，有效解决不同视角图像融合时产生色差网络框架，在MVCNN基础上增加分组模型，将的问题。此外，为了提高复杂交通场景下车辆前不同视角的信息根据相关性进行分组后，再进行方远距离行人的检测精度，本文提出了一个特征特征融合。Dong等在CVPR2019上提出一种平衡的YOLOv3网络(balanced YOLOv3,BYOLO), 利用外观特征和几何约束相似性矩阵共同寻找各在接收到经过Self-MVFM网络融合的多视角图个视角中满足回路一致性的二维姿态匹配关系，像后，用Darknet-53网络对图像进行特征提取，可实现了较好的多视角下多人的三维姿态估计结以获得分辨率不同的特征。分辨率高的低层特征果。澳洲国立大学郑良老师实验室提出多视角检包括行人的轮廓、衣着颜色、纹理等信息；分辨率测模型联合考虑多个相机，利用特征图的投影低的高层特征包括肢体、人脸等语义信息。对获变换进行多相机信息融合，提高虚拟场景下行人得的低层特征与高层特征进行采样，映射到中间发生遮挡时的检测效率。层级的分辨率进行特征融合、修正，再通过相反 1.2行人检测方法的采样方式适配到原分辨率的特征图，与行人检测是目标检测领域的一个重要分支， Darknet-53提取的原始特征进行融合，再利用融其主要任务是找出输人的图像或视频帧中存在的合后的特征预测行人。在公共数据集VOC上的行人，并用矩形框输出行人位置和大小。然而行实验结果表明，本文提出的MVBYOLO行人检测人的着装风格、姿势、形状不同，并且面临被物体模型可以有效提高复杂场景下的行人检测精度。遮挡以及行人互相遮挡、拍摄光照不同、拍摄角 1基于多视角数据的行人检测研究度不同等因素的影响，使得行人检测任务一直受到视觉研究者们的关注。从研究历史来看，行人 1.1多视角数据融合算法检测方法可以分为2个主要方向：基于传统算法针对多角度、多尺度的特征如何进行融合的的行人检测和基于深度学习的行人检测

检测就是无人驾驶进行环境认知的一个必备环节。行人检测工作主要是判别在输入的视频、图像中是否含有行人并返回其位置。在无人驾驶场景下，一旦未能及时、准确地检测出行人，就会造成伤亡，后果不堪设想，所以无人驾驶条件下对行人检测的准确性有极高的要求。因为行人存在不同的运动姿态、不同的穿衣风格，行人被别的障碍物遮挡以及行人之间互相遮挡[3] ，复杂交通场景下光线不统一等问题，行人检测一直是无人驾驶领域重点研究的问题[4]。 32×32 复杂交通场景下的行人检测要求在发生部分遮挡时，仍能检测出行人，并且要求能快速有效地检测出车辆前方远距离的小目标行人 (小目标指在整张图片中目标的像素点小于，或者目标尺寸低于原图像尺寸的 10%[5] )。但是，在实际实验中，依靠单一视角的数据，行人发生遮挡时很难被检测到。为了解决发生遮挡以及远距离行人检测困难的问题，本文提出一种基于多视角数据融合的特征平衡 YOLOv3 行人检测模型 (multi-view data and balanced YOLOv3, MVBYOLO)。首先输入不同视角的图像，使用自监督学习的多视角特征点融合网络模型 (self-supervised network for multiview fusion model, Self-MVFM) 对其进行特征点提取与匹配，实现多视角图像融合。但是在实际问题中不同角度的摄像机采集的图像融后会产生色差。本文在多视角图像融合时引入改进的加权平滑算法，有效解决不同视角图像融合时产生色差的问题。此外，为了提高复杂交通场景下车辆前方远距离行人的检测精度，本文提出了一个特征平衡的 YOLOv3 网络 (balanced YOLOv3, BYOLO)，在接收到经过 Self-MVFM 网络融合的多视角图像后，用 Darknet-53 网络对图像进行特征提取，可以获得分辨率不同的特征。分辨率高的低层特征包括行人的轮廓、衣着颜色、纹理等信息；分辨率低的高层特征包括肢体、人脸等语义信息。对获得的低层特征与高层特征进行采样，映射到中间层级的分辨率进行特征融合、修正，再通过相反的采样方式适配到原分辨率的特征图，与 Darknet-53 提取的原始特征进行融合，再利用融合后的特征预测行人。在公共数据集 VOC 上的实验结果表明，本文提出的 MVBYOLO 行人检测模型可以有效提高复杂场景下的行人检测精度。 1 基于多视角数据的行人检测研究 1.1 多视角数据融合算法针对多角度、多尺度的特征如何进行融合的问题，一直受到研究者们的关注。Farenzena 等 [6] 提出了一种对称驱动的局部特征累积方法，该方法从结构元素成分分析模型[7] 提取的行人轮廓中找到垂直对称轴，然后根据像素的权重提取颜色和纹理特征。Wen 等 [8] 提出从几张已知相机位置的多视角彩色图片生成三角网格模型的网络结构，使用图卷积神经网络从多视角图片的交叉信息学习进一步提升形状质量。相比于直接建立从图像到最终 3D 形状的映射，本文预测一系列形变，逐渐将由多视角图片生成的粗略形状精细化。Chen 等 [9] 通过输入多张不同角度的图片，提取不同的点云特征，再进行融合，从而生成最终的点云。与基于代价体的同类网络相比，这种基于点云的网络结构具有更高的准确性，更高的计算效率和更大的灵活性。Yi 等 [10] 引入 2 种新颖的自适应视图融合 (逐像素视图融合和体素视图融合)，考虑在不同视角图像间多重匹配的不同重要性，优化了代价体的计算方法并且引入了新的深度图聚合结构，提高了 3D 点云重建的鲁棒性和完整性。旷世科技公司提出的双向网络[11] ，利用深度学习模型，对提取的空间信息特征和全局语义特征进行融合，兼顾了语义分割任务的速度与语义信息。Su 等 [ 1 2 ] 提出多视角卷积网络（ multi-view convolutional neural networks,MVCNN)，利用二维的 CNN 网络对多个视角的图像进行融合，实验结果显示比直接用 3D 检测方法更好。Feng 等 [13] 提出的组视图卷积网络框架，在 MVCNN 基础上增加分组模型，将不同视角的信息根据相关性进行分组后，再进行特征融合。Dong 等 [14] 在 CVPR2019 上提出一种利用外观特征和几何约束相似性矩阵共同寻找各个视角中满足回路一致性的二维姿态匹配关系，实现了较好的多视角下多人的三维姿态估计结果。澳洲国立大学郑良老师实验室提出多视角检测模型[15] 联合考虑多个相机，利用特征图的投影变换进行多相机信息融合，提高虚拟场景下行人发生遮挡时的检测效率。 1.2 行人检测方法行人检测是目标检测领域的一个重要分支，其主要任务是找出输入的图像或视频帧中存在的行人，并用矩形框输出行人位置和大小。然而行人的着装风格、姿势、形状不同，并且面临被物体遮挡以及行人互相遮挡、拍摄光照不同、拍摄角度不同等因素的影响，使得行人检测任务一直受到视觉研究者们的关注。从研究历史来看，行人检测方法可以分为 2 个主要方向：基于传统算法的行人检测和基于深度学习的行人检测。 ·58· 智能系统学报第 16 卷

第1期陈丽，等：多视角数据融合的特征平衡YOLOv23行人检测研究 ·59· 1.2.1基于传统算法的行人检测预测图像中的目标。以YOL0为代表的单阶段传统算法的典型代表是利用方向梯度直方图检测方法将目标检测任务转换为回归问题，是 (histogram of oriented gradient,.HOG)进行行人特一种快速的行人检测方法。除了YOLO系列算征提取，并利用支持向量机(support vector ma- 法，单阶段检测的模型还包括单次检测模型2”。 chine,SVM)算法进行分类u6。HOG是一种重要 Zhang等2提出基于单次精化神经网络的目标检有效的图像局部纹理特征描述子。在深度学习特测方法，结合单阶段检测速度快及双阶段检测准征提取方法未普及之前，被研究者们广泛使用。确率高的优点。方法包括锚窗精化模块和目标检 Girshick!等提出形变部件模型(deformable parts 测模块，2个模块互相连接，兼顾了检测的准确率 model,DPM)算法，使用HOG提取特征，并独立与速度。地对行人的不同部位进行建模，从而在一定程度上解决了行人遮挡难以检测的问题。DPM中包 2多视角数据融合的特征平衡含2个部分：根部模型和部位模型。根部模型主本文提出的多视角数据融合的特征平衡YOLOv3 要是定位对象的潜在区域，找出可能存在物体对行人检测网络MVBYOLO)包括2部分：1)自监象的区域，再与部位模型进行确认，最终采用督学习的多视角特征点融合网铬模型(Self-MVFM): SVM和AdaBoost进行分类。另外，也有部分学 2)特征平衡YOLOv3网络(BYOLO)。首先对输者从运动特征角度进行研究。假设捕捉行人运动入的多视角图像做特征匹配，融合成一个完备的的摄像机是固定不动的，则使用背景建模算法提图像，之后再利用目标检测网络对融合后的图像取出运动的前景目标，再对前景目标进行分类。做训练，提高遮挡及远距离小尺寸行人检测的精背景建模算法的思路是：通过学习前一帧获得背度。网络总体框架如图1所示。景模型，把当前帧与背景帧数据进行对比，得到 Self-MVFM BYOLO 运动的目标，代表性方法是高斯混合模型11、视「特征点匹配 l Darknet-53 频前景提取算法算法1叨、样本一致性建模算法2] 「左视角基于像素的参数自适应算法P。融合川 1.2.2基于深度学习的行人检测基于传统算法的行人检测在一定条件下可以特征点匹配达到较好的检测效率或准确性，但仍不能满足实际的应用需求。2012年Krizhevsky等22将深度学习技术应用到图像分类并取得良好效果，研究者们发现通过神经网络提取的特征具有很强的表图1 MVBYOLO行人检测网络达能力和鲁棒性，使计算机视觉的发展迈上了一 Fig.1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 个新台阶。因此，对于行人检测任务，基于深度学习的方法受到越来越多研究者的青睐。 2.1自监督学习的多视角特征点融合网络模型基于深度学习的行人检测又可分为双阶段检自监督学习的多视角数据融合模型工作流程测与单阶段检测。双阶段检测方法首先生成一组如下：图像获取、自监督特征点与描述子提取、特稀疏的目标候选框，然后对候选框进行分类和回征匹配，最后进行多视角图像融合。本文提出自归。Girshick等提出区域卷积神经网络(regions 监督学习的多视角特征点融合网络模型，网络结 with CNN features,.R-CNN),首次将CNN 构如图2所示。用于目标检测，极大提高了目标检测的性能。后 2.11数据集自标注与模型训练来Girshick在R-CNN基础上进行改进，提出了快多视角数据融合过程中的数据集特征点提取速区域卷积神经网络模型2，将感兴趣区域提取任务很难利用人工标注。对于传统的检测、分割与特征分类合并在同一个网络结构，提高了模型任务的标注，给定一个图像，通过标注矩形框或训练的速度和检测的准确率。Ren等在Fast R- 者标注物体的轮廓，可以得到确定的语义真值。 CNN上增加区域卷积网络来生成候选区域，构成但是对于特征点检测任务，人工很难判断哪一个一种更快的区域卷积神经网络模型，端到端的训像素点可以作为特征点，因此本文利用仅包含简练方式大大提高了运算速度。单几何形状的基本数据集和自行采集数据集进行单阶段的方法通过直接对图像中的不同位数据集的自标注四，具体流程为置，尺度和长宽比进行规则和密集采样，以此来 1)利用简单几何形状数据集进行模型的预

1.2.1 基于传统算法的行人检测传统算法的典型代表是利用方向梯度直方图（histogram of oriented gradient, HOG）进行行人特征提取，并利用支持向量机（support vector machine，SVM）算法进行分类[16]。HOG是一种重要有效的图像局部纹理特征描述子。在深度学习特征提取方法未普及之前，被研究者们广泛使用。 Girshick[17] 等提出形变部件模型（deformable parts model, DPM）算法，使用 HOG 提取特征，并独立地对行人的不同部位进行建模，从而在一定程度上解决了行人遮挡难以检测的问题。DPM 中包含 2 个部分：根部模型和部位模型。根部模型主要是定位对象的潜在区域，找出可能存在物体对象的区域，再与部位模型进行确认，最终采用 SVM 和 AdaBoost 进行分类。另外，也有部分学者从运动特征角度进行研究。假设捕捉行人运动的摄像机是固定不动的，则使用背景建模算法提取出运动的前景目标，再对前景目标进行分类。背景建模算法的思路是：通过学习前一帧获得背景模型，把当前帧与背景帧数据进行对比，得到运动的目标，代表性方法是高斯混合模型[18] 、视频前景提取算法算法[19] 、样本一致性建模算法[20] 、基于像素的参数自适应算法[21]。 1.2.2 基于深度学习的行人检测基于传统算法的行人检测在一定条件下可以达到较好的检测效率或准确性，但仍不能满足实际的应用需求。2012 年 Krizhevsky 等 [22] 将深度学习技术应用到图像分类并取得良好效果，研究者们发现通过神经网络提取的特征具有很强的表达能力和鲁棒性，使计算机视觉的发展迈上了一个新台阶。因此，对于行人检测任务，基于深度学习的方法受到越来越多研究者的青睐。基于深度学习的行人检测又可分为双阶段检测与单阶段检测。双阶段检测方法首先生成一组稀疏的目标候选框，然后对候选框进行分类和回归。Girshick[23] 等提出区域卷积神经网络（regions with CNN features， R-CNN），首次将 CNN 用于目标检测，极大提高了目标检测的性能。后来 Girshick 在 R-CNN 基础上进行改进，提出了快速区域卷积神经网络模型[24] ，将感兴趣区域提取与特征分类合并在同一个网络结构，提高了模型训练的速度和检测的准确率。Ren 等 [25] 在 Fast RCNN 上增加区域卷积网络来生成候选区域，构成一种更快的区域卷积神经网络模型，端到端的训练方式大大提高了运算速度。单阶段的方法通过直接对图像中的不同位置，尺度和长宽比进行规则和密集采样，以此来预测图像中的目标。以 YOLO[26] 为代表的单阶段检测方法将目标检测任务转换为回归问题，是一种快速的行人检测方法。除了 YOLO 系列算法，单阶段检测的模型还包括单次检测模型[27]。 Zhang 等 [28] 提出基于单次精化神经网络的目标检测方法，结合单阶段检测速度快及双阶段检测准确率高的优点。方法包括锚窗精化模块和目标检测模块，2 个模块互相连接，兼顾了检测的准确率与速度。 2 多视角数据融合的特征平衡本文提出的多视角数据融合的特征平衡 YOLOv3 行人检测网络 (MVBYOLO) 包括 2 部分：1) 自监督学习的多视角特征点融合网络模型 (Self-MVFM)； 2) 特征平衡 YOLOv3 网络 (BYOLO)。首先对输入的多视角图像做特征匹配，融合成一个完备的图像，之后再利用目标检测网络对融合后的图像做训练，提高遮挡及远距离小尺寸行人检测的精度。网络总体框架如图 1 所示。 Self-MVFM BYOLO 左视角融合多尺度融合 26×26 右视角 52×52 52×52 26×26 26×26 13×13 13×13 特征点匹配特征点匹配 Darknet-53 图 1 MVBYOLO 行人检测网络 Fig. 1 Multi-view data fusion and balanced YOLOv3 for pedestrian detection 2.1 自监督学习的多视角特征点融合网络模型自监督学习的多视角数据融合模型工作流程如下：图像获取、自监督特征点与描述子提取、特征匹配，最后进行多视角图像融合。本文提出自监督学习的多视角特征点融合网络模型，网络结构如图 2 所示。 2.1.1 数据集自标注与模型训练多视角数据融合过程中的数据集特征点提取任务很难利用人工标注。对于传统的检测、分割任务的标注，给定一个图像，通过标注矩形框或者标注物体的轮廓，可以得到确定的语义真值。但是对于特征点检测任务，人工很难判断哪一个像素点可以作为特征点，因此本文利用仅包含简单几何形状的基本数据集和自行采集数据集进行数据集的自标注[29] ，具体流程为 1) 利用简单几何形状数据集进行模型的预第 1 期陈丽，等：多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·59·

·60· 智能系统学报第16卷训练低。因此本文利用单应性适应变换和初级特征点简单几何形状数据集是由一些线段、多边检测网络训练得到新的模型，提升真实图像特征形、立方体等特征点较为容易确定的图像构成点提取的精度。的。利用尺度不变特征变换等进行基本数据集的 2)自行采集图像自标注特征点提取，可以得到数据集和特征点真值。因利用多次复合几何变换对输入的图像进行处为线段、三角形等基础几何形状图像的特征点是理，本文设置超参数Nh=80;即N,是未经过复合真实图像特征点的子集。利用标注好的简单几何几何变换的原始图像，剩余的79帧图像是原始图形状数据集对特征点检测网络进行训练，得到了像经过随机生成的复合简单几何变换形成的图一个初级特征点检测网络。与尺度不变特征变换像。利用步骤1)中生成的初级特征点检测网络等传统算法相比，在简单几何形状数据集训练得对真实图像数据集伪特征点进行提取，将与源图到的初级特征点检测网络在精度方面具有一定的像对应的79帧图像映射回原图像的特征点累加优势，但是在对真实图像数据集进行提取特征点起来形成新的源图像特征点。至此本文完成了真时会出现一些特征点的遗漏问题，检测精确度较实图像数据集的特征点标注。简单几何形状数据集初级特征点检测网络多视角图像融合网络增强特征点检测网络 Prxel L Pixel R 图像L图像R Pixel L Pixel Fusion 图像L图像了融合 Fusion 融合增强特征点检测网络跨色差特征融合特左视角右视角复合几何变换无标注真实数据绨图2 Self-MVFM网络模型 Fig.2 Self-supervised multi-view feature fusion model 在复合简单几何变换中，本文获取了79帧经 hoo ho2 过已知变换矩阵形成的源图像变换图像，因此获 =H hio hu h (1) 1 ha h2 得了源图像和其对应的79帧图像的79组已知位式中：x,y)代表来自第一个视角的图片中的某姿变换的图像对。这样就得到了原始图像与变换一点；(2，y2)代表来自另一个视角图片中与(1y) 图像之间映射关系的真值。最终的自行采集数据对应的某点。需要通过2张不同视角的照片计算集包含特征点和特征点描述子真值，用于特征点出复合几何变换矩阵H。检测网络中特征点检测和描述子检测2个网络分通过自监督学习到的复合简单几何变换矩阵支的联合训练。并非都是有用的，需要进行选择。为了选取表现为了实现特征点检测子网络和描述子检测子较好的复合简单几何变换矩阵，使用截断正态分网络在初级特征点检测网络中的联合训练，将布在预定范围内进行平移、缩放、平面内旋转和 2个检测子网络的损失函数值加权相加，得到统对称透视变换采样。一的损失函数。 2.1.3增强特征点检测网络 2.1.2复合几何变换在获得数据集的原始图像与真实图像之间映为了将不同视角的信息进行融合，需要先找射关系的真值之后，就完成了真实数据集的自标到不同视角的对应关系。利用自适应单应性变换注，实现了难以人工进行标注的真实图像数据集求解不同视角的对应关系矩阵H。单应性变换为自标注。增强特征点检测网络用于训练前面

训练简单几何形状数据集是由一些线段、多边形、立方体等特征点较为容易确定的图像构成的。利用尺度不变特征变换等进行基本数据集的特征点提取，可以得到数据集和特征点真值。因为线段、三角形等基础几何形状图像的特征点是真实图像特征点的子集。利用标注好的简单几何形状数据集对特征点检测网络进行训练，得到了一个初级特征点检测网络。与尺度不变特征变换等传统算法相比，在简单几何形状数据集训练得到的初级特征点检测网络在精度方面具有一定的优势，但是在对真实图像数据集进行提取特征点时会出现一些特征点的遗漏问题，检测精确度较低。因此本文利用单应性适应变换和初级特征点检测网络训练得到新的模型，提升真实图像特征点提取的精度。 2) 自行采集图像自标注利用多次复合几何变换对输入的图像进行处理，本文设置超参数 Nh=80；即 N1 是未经过复合几何变换的原始图像，剩余的 79 帧图像是原始图像经过随机生成的复合简单几何变换形成的图像。利用步骤 1) 中生成的初级特征点检测网络对真实图像数据集伪特征点进行提取，将与源图像对应的 79 帧图像映射回原图像的特征点累加起来形成新的源图像特征点。至此本文完成了真实图像数据集的特征点标注。简单几何形状数据集训练 Pixel L Pixel R Fusion 图像 L图像 R 融合 Pixel L Pixel R Fusion 图像 L图像 R 融合跨色差特征融合复合几何变换左视角右视角无标注真实数据集增强特征点检测网络增强特征点检测网络特征点描述子特征点描述子初级特征点检测网络多视角图像融合网络图 2 Self-MVFM 网络模型 Fig. 2 Self-supervised multi-view feature fusion model 在复合简单几何变换中，本文获取了 79 帧经过已知变换矩阵形成的源图像变换图像，因此获得了源图像和其对应的 79 帧图像的 79 组已知位姿变换的图像对。这样就得到了原始图像与变换图像之间映射关系的真值。最终的自行采集数据集包含特征点和特征点描述子真值，用于特征点检测网络中特征点检测和描述子检测 2 个网络分支的联合训练。为了实现特征点检测子网络和描述子检测子网络在初级特征点检测网络中的联合训练，将 2 个检测子网络的损失函数值加权相加，得到统一的损失函数。 2.1.2 复合几何变换为了将不同视角的信息进行融合，需要先找到不同视角的对应关系。利用自适应单应性变换求解不同视角的对应关系矩阵 H。单应性变换为   x1 y1 1   = H   x2 y2 1   =   h00 h01 h02 h10 h11 h12 h20 h21 h22     x2 y2 1   (1) (x1, y1) (x2, y2) (x1, y1) 式中：代表来自第一个视角的图片中的某一点；代表来自另一个视角图片中与对应的某点。需要通过 2 张不同视角的照片计算出复合几何变换矩阵 H。通过自监督学习到的复合简单几何变换矩阵并非都是有用的，需要进行选择。为了选取表现较好的复合简单几何变换矩阵，使用截断正态分布在预定范围内进行平移、缩放、平面内旋转和对称透视变换采样。 2.1.3 增强特征点检测网络在获得数据集的原始图像与真实图像之间映射关系的真值之后，就完成了真实数据集的自标注，实现了难以人工进行标注的真实图像数据集自标注。增强特征点检测网络[11] 用于训练前面 ·60· 智能系统学报第 16 卷

第1期陈丽，等：多视角数据融合的特征平衡YOLOv3行人检测研究 ·61 获得的自标注图像数据集，以提高特征点提取的准确性。增强特征点检测网络如图3所示。合并特征点检测卷积+归一化 +Reu激活全局池化 1×1卷积 p Relu活 1×1卷积 Sigmoid激活描述子生成 ↓ (b)FN:融合网格全局池化图像样 1×1卷积 HxW 1 HxWxD 批量归一化 Sigmoid激活 (a)总体结构 (c)AM:注意力模块图3增强特征点检测网络结构 Fig.3 Enhanced feature point detection network 多层次编码器：为了兼顾实时性与精确性，增注意力模块(attention model,AM):经过全局强特征点检测网络被设计成2个分支，分别用来池化之后，可以简单得到深层全局语义信息，并处理不同的任务。上边的分支通过非对称的编码通过1×1卷积操作平衡多层次编码器得到的不同解码网络实现对原始图像进行深层特征点的提特征图通道之间的差异。取。对原始单视图像进行特征描述子的生成，通 2.1.4加权平滑算法过多通道、低层次的编码器网络（图3的下方分在实际应用中，自行采集的数据集由于相机支)，提取原始图像表层的特征描述。的架设位置和光照条件变化原因，存在2个视角特征点检测：在特征点检测网铬部分时，经过点信息因光场变化产生的色差问题，影响后续融深层、少通道、非对称的编码解码网络得到图像合效果。因此，在融合时本文采用加权平滑算法的特征点。来解决存在的色差问题。加权平滑算法主要思融合网络(fusion network,FN):由于网络的特想：用f(x,y表示重叠区域融合后的图像，由2幅征图并不具有相同的通道和尺寸，描述子生成网待融合图像f和fR加权平均得到，即：f(x,y)= 络提取到的特征是浅层的，包含大量的位置信 a×f(xy)+(1-a)f(xy),其中a是可调因子。息，而特征点检测网络经过多层编码器之后得到一般情况下0<α<1，即在图像交叉区域中，的是深层的特征点，包含胳膊、人脸等信息。为沿视角1图像向视角2图像的方向，α由1渐变了融合不同层级的特征，融合网络先通过Concat- 为0，从而实现交叉区域的平滑融合。为了给 enate操作实现不同层次特征图的简单融合。为 2幅图像建立更大的相关性，使用式(2)进行融合了平衡不同尺寸的特征，在Concatenate之后使用处理：了BatchNorm操作。把相连接的特征经过全局池 (fL(x,y),(x,y)E fL 化、1×1卷积得到一个新的权重。这样做的目的 f(x,y)= a×f(x,y+(1-a)×fR(x,y,(x,y)∈fnfR 是对连接后的特征进行一个新的特征选择和结 fR(x,y),(x,y)∈fR (2) 合。至此，本文得到了W×H×D的描述子检测结果，其中W是原始图像的宽、H是原始图像的长、 +店则1-as 令= d +店其中d、山分别 D是原始图像的通道。表示交叉区域中的点到2个不同视角图像交叉区

获得的自标注图像数据集，以提高特征点提取的准确性。增强特征点检测网络如图 3 所示。特征点检测描述子生成 AM FN 上采样 H×W×D 图像 H×W H×W×1 合并全局池化全局池化 1×1 卷积 1×1 卷积 1×1 卷积批量归一化 Sigmoid 激活 Sigmoid 激活相乘相乘 (b) FN: 融合网格 (c) AM: 注意力模块 (a) 总体结构 p Relu 激活卷积+归一化 +Relu 激活图 3 增强特征点检测网络结构 Fig. 3 Enhanced feature point detection network 多层次编码器：为了兼顾实时性与精确性，增强特征点检测网络被设计成 2 个分支，分别用来处理不同的任务。上边的分支通过非对称的编码解码网络实现对原始图像进行深层特征点的提取。对原始单视图像进行特征描述子的生成，通过多通道、低层次的编码器网络 (图 3 的下方分支)，提取原始图像表层的特征描述。特征点检测：在特征点检测网络部分时，经过深层、少通道、非对称的编码解码网络得到图像的特征点。融合网络 (fusion network, FN)：由于网络的特征图并不具有相同的通道和尺寸，描述子生成网络提取到的特征是浅层的，包含大量的位置信息，而特征点检测网络经过多层编码器之后得到的是深层的特征点，包含胳膊、人脸等信息。为了融合不同层级的特征，融合网络先通过 Concatenate 操作实现不同层次特征图的简单融合。为了平衡不同尺寸的特征，在 Concatenate 之后使用了 BatchNorm 操作。把相连接的特征经过全局池化、1×1 卷积得到一个新的权重。这样做的目的是对连接后的特征进行一个新的特征选择和结合。至此，本文得到了 W×H×D 的描述子检测结果，其中 W 是原始图像的宽、H 是原始图像的长、 D 是原始图像的通道。注意力模块 (attention model, AM)：经过全局池化之后，可以简单得到深层全局语义信息，并通过 1×1 卷积操作平衡多层次编码器得到的不同特征图通道之间的差异。 2.1.4 加权平滑算法 f (x, y) fL fR f (x, y)= α× fL (x, y)+(1−α)fR (x, y) α 在实际应用中，自行采集的数据集由于相机的架设位置和光照条件变化原因，存在 2 个视角点信息因光场变化产生的色差问题，影响后续融合效果。因此，在融合时本文采用加权平滑算法来解决存在的色差问题。加权平滑算法主要思想：用表示重叠区域融合后的图像，由 2 幅待融合图像和加权平均得到，即：，其中是可调因子。 0 < α < 1 α 一般情况下，即在图像交叉区域中，沿视角 1 图像向视角 2 图像的方向，由 1 渐变为 0，从而实现交叉区域的平滑融合。为了给 2 幅图像建立更大的相关性，使用式 (2) 进行融合处理： f(x, y) =        fL(x, y), (x, y) ∈ fL α× fL(x, y)+(1−α)× fR(x, y), (x, y) ∈ fL ∩ fR fR(x, y), (x, y) ∈ fR (2) α= d 2 1 d 2 1 +d 2 2 1−α= d 2 2 d 2 1 +d 2 2 令，则，其中 d1、d2 分别表示交叉区域中的点到 2 个不同视角图像交叉区第 1 期陈丽，等：多视角数据融合的特征平衡 YOLOv3 行人检测研究 ·61·

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录