第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201710019 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010html 多层卷积特征的真实场景下行人检测研究 伍鹏瑛2,张建明2,彭建2,陆朝铨2 (1.长沙理工大学综合交通运输大数据智能处理湖南省重点实验室,湖南长沙410114;2.长沙理工大学计算 机与通信工程学院,湖南长沙410114) 摘要:针对真实场景下的行人检测方法存在漏检、误检率高,以及小尺寸目标检测精度低等问题,提出了一 种基于改进SSD网络的行人检测模型(PDIS)。PDIS通过引出更底层的输出特征图改进了原始SSD网络模型, 并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的 检测性能。此外,针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮 挡等复杂场景下的行人图像,对背景比较复杂的NRIA行人数据集进行了扩充,在扩增的行人数据集上训练 的PDIS模型,提高了在真实场景下的行人检测精度。实验表明:PDIS在INRIA测试集上测试结果达到 93.8%的准确率,漏检率低至7.4%。 关键词:行人检测:卷积神经网络:SSD:真实场景:多尺度特征:目标检测:小目标行人:行人数据集 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)02-0306-10 中文引用格式:伍鹏瑛,张建明,彭建,等.多层卷积特征的真实场景下行人检测研究{J.智能系统学报,2019,14(2): 306-315. 英文引用格式:VU Pengying,.ZHANGJianming,.PENGJian,,etal.Research on pedestrian detection based on multi--layer convolu- tion feature in real sceneJI.CAAI transactions on intelligent systems,2019,14(2):306-315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying,ZHANG Jianming,PENG Jian'2,LU Chaoquan'2 (1.Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation,Changsha University of Science and Technology,Changsha 410114,China;2.School of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China) Abstract:Pedestrian detection methods in real scenes face some problems due to the high miss detection and false de- tection as well as the low detection accuracy of small size objects.To solve these problems,a pedestrian detection mod- el based on improved SSD(PDIS)is proposed.The PDIS method improves the original SSD network model by extract- ing the lower-level output feature maps.It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively,and then integrates the detection results of multi layers to increase the pedestrian de- tection performance for small sizes.Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm,the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination,pose and occlusion.The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes.The experiment results on INRIA test set indic- ate that the precision rate of PDIS algorithm is up to 93.8%and the miss rate is as low as 7.4%. Keywords:pedestrian detection:CNN:single shot multibox detector:real scene:multi-scale features:object detection: small target pedestrians;Pedestrian dataset 收稿日期:2017-10-31.网络出版日期:2018-04-16 行人检测是判断输入的图像或视频中是否含 基金项目:国家自然科学基金项目(61402053):湖南省教育厅 科研重点项目(16A008):湖南省交通厅科技项目 有行人,并准确的找出行人的具体位置。行人检 (201446):长沙理工大学研究生科研创新项目 (CX20I7SS19):长沙理工大学研究生课程建设项目 测作为目标检测的一个子方向,在视频监控、行 (KC201611). 通信作者:张建明.E-mail:jmzhang@csust..edu.cn. 人识别山、图像检索以及先进的驾驶员辅助系统
DOI: 10.11992/tis.201710019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180416.1401.010.html 多层卷积特征的真实场景下行人检测研究 伍鹏瑛1,2,张建明1,2,彭建1,2,陆朝铨1,2 (1. 长沙理工大学 综合交通运输大数据智能处理湖南省重点实验室,湖南 长沙 410114; 2. 长沙理工大学 计算 机与通信工程学院,湖南 长沙 410114) 摘 要:针对真实场景下的行人检测方法存在漏检、误检率高,以及小尺寸目标检测精度低等问题,提出了一 种基于改进 SSD 网络的行人检测模型 (PDIS)。PDIS 通过引出更底层的输出特征图改进了原始 SSD 网络模型, 并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的 检测性能。此外,针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮 挡等复杂场景下的行人图像,对背景比较复杂的 INRIA 行人数据集进行了扩充,在扩增的行人数据集上训练 的 PDIS 模型,提高了在真实场景下的行人检测精度。实验表明:PDIS 在 INRIA 测试集上测试结果达到 93.8% 的准确率,漏检率低至 7.4%。 关键词:行人检测;卷积神经网络;SSD;真实场景;多尺度特征;目标检测;小目标行人;行人数据集 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)02−0306−10 中文引用格式:伍鹏瑛, 张建明, 彭建, 等. 多层卷积特征的真实场景下行人检测研究[J]. 智能系统学报, 2019, 14(2): 306–315. 英文引用格式:WU Pengying, ZHANG Jianming, PENG Jian, et al. Research on pedestrian detection based on multi-layer convolution feature in real scene[J]. CAAI transactions on intelligent systems, 2019, 14(2): 306–315. Research on pedestrian detection based on multi-layer convolution feature in real scene WU Pengying1,2 ,ZHANG Jianming1,2 ,PENG Jian1,2 ,LU Chaoquan1,2 (1. Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation, Changsha University of Science and Technology, Changsha 410114, China; 2. School of Computer and Communication Engineering, Changsha University of Science and Technology, Changsha 410114, China) Abstract: Pedestrian detection methods in real scenes face some problems due to the high miss detection and false detection as well as the low detection accuracy of small size objects. To solve these problems, a pedestrian detection model based on improved SSD (PDIS) is proposed. The PDIS method improves the original SSD network model by extracting the lower-level output feature maps. It employs the abstract features of different convolutional neural network layers to detect pedestrians respectively, and then integrates the detection results of multi layers to increase the pedestrian detection performance for small sizes. Considering that the diversity of dataset can effectively enhance the generalization ability of detection algorithm, the paper expands the INRIA pedestrian dataset with complex background by collecting pedestrian images with different illumination, pose and occlusion. The PDIS method trained on expanded pedestrian dataset increases the precision rate of pedestrian detection in real scenes. The experiment results on INRIA test set indicate that the precision rate of PDIS algorithm is up to 93.8% and the miss rate is as low as 7.4%. Keywords: pedestrian detection; CNN; single shot multibox detector; real scene; multi-scale features; object detection; small target pedestrians; Pedestrian dataset 行人检测是判断输入的图像或视频中是否含 有行人,并准确的找出行人的具体位置。行人检 测作为目标检测的一个子方向,在视频监控、行 人识别[1] 、图像检索以及先进的驾驶员辅助系统 收稿日期:2017−10−31. 网络出版日期:2018−04−16. 基金项目:国家自然科学基金项目 (61402053);湖南省教育厅 科研重点项目 (16A008);湖南省交通厅科技项目 (201446) ;长沙理工大学研究生科研创新项 目 (CX2017SS19);长沙理工大学研究生课程建设项目 (KC201611). 通信作者:张建明. E-mail:jmzhang@csust.edu.cn. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307· 等领域有着广泛的应用。由于行人具有非刚性 征上融合颜色特征、纹理特征等诸多算法;2005 属性,决定了行人检测不同于普通的目标检测, 年Dalal等提出了HOG结合分类器SVM的算 另外存在着许多制约行人检测的因素,如现实场 法,取得了较好的效果,并陆续提出的ACF(ag 景中背景的复杂多样性、光照变化、行人遮挡、姿 gregated channel features)m、LDCF2等算法都具有 态变化、拍摄角度多样化、实时性要求、小目标行 很好的检测效果。2015年Zhang等把HOG特 人等。这些因素给行人检测带来了巨大的挑战, 征结合光流特征进一步提高了行人检测性能。针 因此行人检测一直是计算机视觉领域中的研究热 对在同一张图像有不同尺寸的目标时,传统方法 点和难点。 主要有两种处理方法:1)将原始图像转换成不同 传统的行人检测的效果依赖于特征的选取以 尺寸大小的图像输入固定尺寸的滑动窗口分别提 及分类器的学习。一个好的特征即使结合简单的 取特征,该方法的检测精度较好,但是计算复杂, 分类器仍能够取得不错的检测效果,所以传统的 其流程如图1所示;2)用固定大小不变的图像输 行人检测研究重点在于行人的特征提取及分类。 入多尺度缩放的滑动窗进行特征提取。方法 尽管传统的行人检测算法取得了不少的研究成 2)避免了测试图像的多尺度计算,检测速度较快 果,但是在实际生活场景的检测效果依然不理 但其精度比较差。 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 行 统检测算法相比,卷积神经网络(CNN)通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 人检测器 度。CNN的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 图1多尺度输入图像检测流程 测领域里的检测精度以及实时性都优于传统算法。 Fig.1 Object detection with multi-scale input 针对真实场景下的行人检测精度不高,小目 2012年Krizhevsky等i在ImageNet竞赛上训 标行人的漏检率较高的问题,本文对目前优秀的 练出一个8层的卷积神经网络,取得了视觉领域 深度模型进行了改进。通过引出S$D网络模型 竞赛ILSVRC2012的冠军。在此之后,深度学习 中更底层特征做检测以及增加输入图像大小来增 算法层出不穷,典型的算法有VGG-Nets1、R- 加深度模型的分辨率,提高了对小目标行人的检 CNNl6、Faster R-CNNI;Redmon等usl提出的 测性能。卷积网络中的底层特征能检测到尺寸较 YOLO直接在输出层回归目标位置与类别,加快 小的目标,而深层特征可以检测到尺寸较大的目 了目标检测速度及精度:Liu等提出了SSD融合 标,因此引出SSD网络中多层输出特征图,将检 卷积层的多层输出特征做检测,进一步提高了目 测结果综合后确定目标位置。此外,训练数据集 标检测精度。由于CNN提取的特征比传统特征 的数量跟数据集样本的多样性也是深度学习算法 更具鲁棒性,其良好的特征表达能力提高了行人 取得优秀成果的主要原因。因此本文采用车载摄 检测性能,因此许多研究学者将深度学习算法应 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 用于行人检测领域。文献[19]引入级联CNN网络 背景下的行人视频,在NRIA行人数据集上,扩 在拥挤场景中准确地检测行人;Hosang等2o利用 增了一个复杂场景下的行人数据集CSUSTPD。 SquaresChnFtrs!2产生行人候选窗口用于训练 AlexNet"。文献22]利用光流卷积神经网络对光 1相关工作 流图序列中提取行人特征,该特征具有较强的全 传统的行人检测流程主要由行人图像输入、 局描述能力;Tian等2利用深度学习结合部件模 行人的特征提取、分类与定位、检测结果等几个 型解决行人检测中的遮挡问题。文献24]采用级 模块组成),其研究重点在于行人的特征提取及 联的Adaboost检测器对行人目标进行初步筛选, 分类,比较常见的特征提取算子有SIFT61 再用迁移学习技术训练卷积神经网络来提高检测 Haar、梯度方向直方图HOG等;代表性的分类 精度;Zhang等2s利用级联的决策森林来分类 器有神经网络、Adaboost!1、支持向量机SVM RPN网络(region proposal network)产生的行人候 随机森林RFo等。基于HOG特征的提取极大地 选窗口。 推动了行人检测的发展,并随后出现了在HOG特 训练深度CNN模型时,数据集的数量跟数据
等领域有着广泛的应用[2]。由于行人具有非刚性 属性,决定了行人检测不同于普通的目标检测, 另外存在着许多制约行人检测的因素,如现实场 景中背景的复杂多样性、光照变化、行人遮挡、姿 态变化、拍摄角度多样化、实时性要求、小目标行 人等。这些因素给行人检测带来了巨大的挑战, 因此行人检测一直是计算机视觉领域中的研究热 点和难点。 传统的行人检测的效果依赖于特征的选取以 及分类器的学习。一个好的特征即使结合简单的 分类器仍能够取得不错的检测效果,所以传统的 行人检测研究重点在于行人的特征提取及分类。 尽管传统的行人检测算法取得了不少的研究成 果,但是在实际生活场景的检测效果依然不理 想。近年来深度学习的方法在目标检测、语音识 别、图像分类等方面取得了突破性的进展,与传 统检测算法相比,卷积神经网络 (CNN) 通过权值 共享,大大减少了网络的参数,进而降低了算法复杂 度。CNN 的卷积运算以及下采样能很好的学习到 图像的颜色、纹理等特征,使之对图像的缩放、平移 具有很好的鲁棒性。因此,深度学习算法在行人检 测领域里的检测精度以及实时性都优于传统算法。 针对真实场景下的行人检测精度不高,小目 标行人的漏检率较高的问题,本文对目前优秀的 深度模型进行了改进。通过引出 SSD[3]网络模型 中更底层特征做检测以及增加输入图像大小来增 加深度模型的分辨率,提高了对小目标行人的检 测性能。卷积网络中的底层特征能检测到尺寸较 小的目标,而深层特征可以检测到尺寸较大的目 标,因此引出 SSD 网络中多层输出特征图,将检 测结果综合后确定目标位置。此外,训练数据集 的数量跟数据集样本的多样性也是深度学习算法 取得优秀成果的主要原因。因此本文采用车载摄 像头拍摄了各种场合、光照、遮挡、姿态等复杂的 背景下的行人视频,在 INRIA[4]行人数据集上,扩 增了一个复杂场景下的行人数据集 CSUSTPD。 1 相关工作 传统的行人检测流程主要由行人图像输入、 行人的特征提取、分类与定位、检测结果等几个 模块组成[5] ,其研究重点在于行人的特征提取及 分类,比较常见的特征提取算子 有 SIFT [ 6 ] 、 Haar[7] 、梯度方向直方图 HOG[4]等;代表性的分类 器有神经网络、Adaboost[8] 、支持向量机 SVM[9] 、 随机森林 RF[10]等。基于 HOG 特征的提取极大地 推动了行人检测的发展,并随后出现了在 HOG 特 征上融合颜色特征、纹理特征等诸多算法;2005 年 Dalal 等 [4]提出了 HOG 结合分类器 SVM 的算 法,取得了较好的效果,并陆续提出的 ACF(aggregated channel features)[11] 、LDCF[12]等算法都具有 很好的检测效果。2015 年 Zhang 等 [13]把 HOG 特 征结合光流特征进一步提高了行人检测性能。针 对在同一张图像有不同尺寸的目标时,传统方法 主要有两种处理方法:1) 将原始图像转换成不同 尺寸大小的图像输入固定尺寸的滑动窗口分别提 取特征,该方法的检测精度较好,但是计算复杂, 其流程如图 1 所示;2) 用固定大小不变的图像输 入多尺度缩放的滑动窗进行特征提取。方法 2) 避免了测试图像的多尺度计算,检测速度较快 但其精度比较差。 2012 年 Krizhevsky 等 [14]在 ImageNet 竞赛上训 练出一个 8 层的卷积神经网络,取得了视觉领域 竞赛 ILSVRC 2012 的冠军。在此之后,深度学习 算法层出不穷,典型的算法有 VGG-Net[ 1 5 ] 、RCNN[16] 、Faster R-CNN[17] ;Redmon 等 [18]提出的 YOLO 直接在输出层回归目标位置与类别,加快 了目标检测速度及精度;Liu 等 [3]提出了 SSD 融合 卷积层的多层输出特征做检测,进一步提高了目 标检测精度。由于 CNN 提取的特征比传统特征 更具鲁棒性,其良好的特征表达能力提高了行人 检测性能,因此许多研究学者将深度学习算法应 用于行人检测领域。文献[19]引入级联 CNN 网络 在拥挤场景中准确地检测行人;Hosang 等 [20]利用 SquaresChnFtrs[ 2 1 ]产生行人候选窗口用于训练 AlexNet[14]。文献[22]利用光流卷积神经网络对光 流图序列中提取行人特征,该特征具有较强的全 局描述能力;Tian 等 [23]利用深度学习结合部件模 型解决行人检测中的遮挡问题。文献[24]采用级 联的 Adaboost 检测器对行人目标进行初步筛选, 再用迁移学习技术训练卷积神经网络来提高检测 精度;Zhang 等 [ 2 5 ]利用级联的决策森林来分类 RPN 网络 (region proposal network) 产生的行人候 选窗口。 训练深度 CNN 模型时,数据集的数量跟数据 行人检测器 图 1 多尺度输入图像检测流程 Fig. 1 Object detection with multi-scale input 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·307·
·308· 智能系统学报 第14卷 集样本的多样性能增强算法检测的泛化能力。现 和类别的检测算法,整个网络没有生成候选窗口 有的行人数据集如Daimler行人数据集P含训练 的过程。SSD算法的骨干网络结构是VGG16I町 样本集有正样本大小为18×36和48×96的图像。 将VGG16最后两个全连接层改成卷积层再增加 较早公开的MT行人数据集2)含924张宽高为 4个卷积层构造网络结构。表1展示了整个 64×128行人图像,肩到脚的距离约80像素。该 SSD网络中每个卷积层中卷积核的大小、数目, 数据库只含正面和背面两个视角,无负样本,并 卷积的步长,特征图有无填充以及每层输出特征 且未区分训练集和测试集。NICTA行人数据集2 图的大小。图2为SSD算法的目标检测流程图, 标注要求行人高度至少要大于40个像素。这些 SSD检测算法分别把conv4_3、fc7、conv6_2 数据集训练样本存在从大图像中剪切出的单个行 conv7_2、conv82和conv9_2等6个不同卷积层 人图像、分辨率偏低、对小目标行人无标注的问 的特征图引出做检测,其特征图与两个3×3的卷 题,且行人数据集训练样本背景单一。因此,这 积核卷积后得到两个输出,分别作为分类时使用 些数据集不适合用于训练深度卷积网络模型。 的置信度以及回归时使用的位置信息。将每层计 2 SSD网络 算结果合并后传递给损失层,该层对所有层的检 测结果进行综合,通过非极大值抑制输出目标的 SSD算法是一种直接预测目标边界框的坐标 检测结果。 表1SSD网络参数表 Table 1 Parameters of SSD Network 卷积层 卷积核 卷积核数量 步长 填充 输出特征图像素大小 Conv1 1 3×3 64 1 300×300 Conv1_2 3×3 64 1 300×300 Maxpooll 2×2 1 2 0 150×150 Conv2_I 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3x3 512 1 38×38 Conv4 2 3×3 512 1 38×38 Conv4 3 3×3 512 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 19×19 Conv5 2 3×3 512 1 19×19 Conv5_3 3×3 512 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1024 1 19×19 Fc7 1×1 1024 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3x3 512 2 1 10×10 Conv7_1 1×1 128 0 10×10 Conv7_2 3×3 256 2 5x5 Conv8_1 1x1 128 1 0 5x5 Conv8_2 3×3 256 0 3×3 Conv9 1 1x1 128 0 3×3 Conv9 2 3×3 256 0 1×1
集样本的多样性能增强算法检测的泛化能力。现 有的行人数据集如 Daimler 行人数据集[26]含训练 样本集有正样本大小为 18×36 和 48×96 的图像。 较早公开的 MIT 行人数据集[27]含 924 张宽高为 64×128 行人图像,肩到脚的距离约 80 像素。该 数据库只含正面和背面两个视角,无负样本,并 且未区分训练集和测试集。NICTA 行人数据集[28] 标注要求行人高度至少要大于 40 个像素。这些 数据集训练样本存在从大图像中剪切出的单个行 人图像、分辨率偏低、对小目标行人无标注的问 题,且行人数据集训练样本背景单一。因此,这 些数据集不适合用于训练深度卷积网络模型。 2 SSD 网络 SSD 算法是一种直接预测目标边界框的坐标 和类别的检测算法,整个网络没有生成候选窗口 的过程。SSD 算法的骨干网络结构是 VGG16[15] , 将 VGG16 最后两个全连接层改成卷积层再增加 4 个卷积层构造网络结构。 表 1 展示了整 个 SSD 网络中每个卷积层中卷积核的大小、数目, 卷积的步长,特征图有无填充以及每层输出特征 图的大小。图 2 为 SSD 算法的目标检测流程图, SSD 检测算法分别把 conv4_3、fc7、conv6_2、 conv7_2、conv8_2 和 conv9_2 等 6 个不同卷积层 的特征图引出做检测,其特征图与两个 3×3 的卷 积核卷积后得到两个输出,分别作为分类时使用 的置信度以及回归时使用的位置信息。将每层计 算结果合并后传递给损失层,该层对所有层的检 测结果进行综合,通过非极大值抑制输出目标的 检测结果。 表 1 SSD 网络参数表 Table 1 Parameters of SSD Network 卷积层 卷积核 卷积核数量 步长 填充 输出特征图像素大小 Conv1_1 3×3 64 1 1 300×300 Conv1_2 3×3 64 1 1 300×300 Maxpool1 2×2 1 2 0 150×150 Conv2_1 3×3 128 1 1 150×150 Conv2_2 3×3 128 1 1 150×150 Maxpool2 2×2 1 2 0 75×75 Conv3_1 3×3 256 1 1 75×75 Conv3_2 3×3 256 1 1 75×75 Conv3_3 3×3 256 1 1 75×75 Maxpool3 2×2 1 2 0 38×38 Conv4_1 3×3 512 1 1 38×38 Conv4_2 3×3 512 1 1 38×38 Conv4_3 3×3 512 1 1 38×38 Maxpool4 2×2 1 2 0 19×19 Conv5_1 3×3 512 1 1 19×19 Conv5_2 3×3 512 1 1 19×19 Conv5_3 3×3 512 1 1 19×19 Maxpool5 3×3 1 1 1 19×19 Fc6 3×3 1 024 1 1 19×19 Fc7 1×1 1 024 1 0 19×19 Conv6_1 1×1 256 1 0 19×19 Conv6_2 3×3 512 2 1 10×10 Conv7_1 1×1 128 1 0 10×10 Conv7_2 3×3 256 2 1 5×5 Conv8_1 1×1 128 1 0 5×5 Conv8_2 3×3 256 1 0 3×3 Conv9_1 1×1 128 1 0 3×3 Conv9_2 3×3 256 1 0 1×1 ·308· 智 能 系 统 学 报 第 14 卷
第2期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309· 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 入图片 大值抑制 的行人0。因此,本文提出了改进的SSD模型用 于行人检测。 3多层卷积特征的行人检测算法 图2 SSD目标检测流程图 Fig.2 Detection flowchart for SSD object algorithm 3.1基于改进SSD的行人检测算法 SSD算法关键核心点是同时采用底层和顶层 随着深度学习的快速发展,CNN已经广泛地 的特征图做检测。在不同层卷积输出的若干特征 应用于目标检测中,在实时性和准确性上都优于 图中的每个位置处评估不同纵横比的默认框。默 传统算法的性能。SSD算法是以VGG16网络模 认框是指在特征图的每个网格上都有一系列固定 型为基础的前向传播的深度卷积网络模型,对卷 大小的框。每个网格有k个默认框,每个默认框 积后得到的特征图分别预判目标位置跟类别置信 预测c个目标类别的分数和4个偏移。若特征图 度,实现快速且精准目标检测效果。但原始S$D 的大小为mn,即有mn个特征图网格,则该特征 算法对同一张图像中小尺寸目标检测效果较差, 图共有(c+4)×k×m×n个输出。在训练阶段,将默 主要原因有两点:1)输入图像在深度卷积神经网 认框和真实框(ground truth box)进行匹配,一旦匹 络中经过网络的卷积、池化后特征图变小,原始 配成功,则默认框即为正样本,反之则为负样 SSD算法conv43输出的特征图与原始输入图像 本。根据置信度的损失值对负样本进行排序,得 相比缩小至原来的1/8,特征图的变小导致检测的 到靠前的负训练样本,使得正负样本的比例保持 目标丢失了大部分的细节信息,在训练阶段严重 在3:1。在预测阶段,得到默认框的偏移及目标类 的影响了算法对各项参数的学习,且后续的fc7 别相应的置信度。 conv62等层输出的特征图缩小更多,对算法的 SSD网络的目标损失函数表示为 训练影响更大;2)输入图像分辨率的大小对SSD L(wc.1g)-(L()+aLe()) (1) 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段S$D网络 式中:N为匹配到的默认框个数;I为预测框;g为 参数的学习不完全造成过拟合;若输人图像较 真实框;c为多类别目标的置信度;Loe为位置损 大,网络学习的参数大量增加,使得算法计算复 失;Lcot为置信度损失;a通过交叉验证设为l。 位置损失是预测框I和真实框g之间的 杂度增加,速度减慢。 smooth损失2,如式(2)所示,通过对边界框的 本文在权衡算法的精准度及实时性的基础 坐标中心点(x,y)以及宽度w和高度h的偏移进 上,对SSD模型更底层的输出特征图进行特征提 行回归.使得位置损失最小。 取,获取更多特征图的纹理、边缘等细节信息,增 强了SSD模型对行人目标的检测性能,提升对小 Lioc(x,l,g)= ∑∑smoot(-8) (2) iE(Pos)mEcx.cy.w 目标行人的检测能力。图3为本文基于改进SSD 模型的行人检测(pedestrian detection based on im- 式中:8=(g5-d)/d,83=(g3-d)/d,8= proved SSD,PDIS)框架,行人图像通过改进SSD log(g/d),8=log(g/d);g、g分别表示第j个 卷积网络中的各卷积层输出多层次特征图,并在 真实框中心点(x,y):d、d分别表示第i个默认 多层次的特征图上提取特征做检测,将多层特征 框的中心点(x,y):g”、g分别表示第j个真实框宽 图的检测结果进行综合实现行人检测。由图3的 度跟高度;d”、d分别表示第i个默认框的宽度跟高度。 特征图可视化结果可知,底层卷积conv33输出 置信度损失是多类别置信度c的softmax损 的特征图比较大,且纹理、轮廓信息明确,因此该 失如式(3)所示。 层的特征图可以提取到小目标行人的细节信息。 Lconf(x,c) x号log()- ∑og(e (3) conv92卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 式中:Y=exp(c)/∑pexp(c),表示第i个默认框 重,因此该层只能获取较大目标的行人信息。随 的类别的置信度,p表示目标的类别,0表示目标 着网络层数增加,原始图像的信息会随着输出特 外的背景,x表示第i个默认框与类别p匹配的 征的尺寸变小而减少。底层输出特征图可以检测 第广个真实框相。 较小的行人目标,深层输出的特征可以检测较大 相比现有的目标检测方法,SSD算法不管是 的行人目标,因此PDIS通过结合多层特征图检 在检测速度还是检测精度上都取得了非常优秀的 测结果,提升了多尺寸行人的检测性能
SSD 算法关键核心点是同时采用底层和顶层 的特征图做检测。在不同层卷积输出的若干特征 图中的每个位置处评估不同纵横比的默认框。默 认框是指在特征图的每个网格上都有一系列固定 大小的框。每个网格有 k 个默认框,每个默认框 预测 c 个目标类别的分数和 4 个偏移。若特征图 的大小为 mn,即有 mn 个特征图网格,则该特征 图共有 (c+4)×k×m×n 个输出。在训练阶段,将默 认框和真实框 (ground truth box) 进行匹配,一旦匹 配成功,则默认框即为正样本,反之则为负样 本。根据置信度的损失值对负样本进行排序,得 到靠前的负训练样本,使得正负样本的比例保持 在 3:1。在预测阶段,得到默认框的偏移及目标类 别相应的置信度。 SSD 网络的目标损失函数表示为 L(x, c,l,g) = 1 N (Lconf(x, c)+αLloc(x,l,g)) (1) α 式中:N 为匹配到的默认框个数;l 为预测框;g 为 真实框;c 为多类别目标的置信度;Lloc 为位置损 失;Lconf 为置信度损失; 通过交叉验证设为 1。 位置损失是预测 框 l 和真实 框 g 之 间 的 smoothL1 损失[29] ,如式 (2) 所示,通过对边界框的 坐标中心点 (x,y) 以及宽度 w 和高度 h 的偏移进 行回归,使得位置损失最小。 Lloc(x,l,g) = ∑N i∈(Pos) ∑ m∈{cx,cy,w,h} x k i jsmoothL1(L m i −gˆ m j ) (2) gˆ cx = (g cx j −d cx i )/d w i gˆ cy j = (g cy j −d cy i )/d h i gˆ w j = log(g w j /d w i ) gˆ h j = log(g h j /d h i ) g cx j 、g cy j d cx i 、d cy i g w j g h j d w i d h i 式中: , , , ; 分别表示第 j 个 真实框中心点 (x,y); 分别表示第 i 个默认 框的中心点 (x,y); 、 分别表示第 j 个真实框宽 度跟高度; 、 分别表示第i个默认框的宽度跟高度。 置信度损失是多类别置信度 c 的 softmax 损 失如式 (3) 所示。 Lconf(x, c) = − ∑N i∈Pos x p i j log(ˆc p i )− ∑ i∈Neg log(ˆc 0 i ) (3) cˆ p i = exp(c p i )/ ∑ p exp(c p i ) cˆ p i x p i j 式中: , 表示第 i 个默认框 的类别的置信度,p 表示目标的类别,0 表示目标 外的背景, 表示第 i 个默认框与类别 p 匹配的 第 j 个真实框相。 相比现有的目标检测方法,SSD 算法不管是 在检测速度还是检测精度上都取得了非常优秀的 效果,但受卷积神经网络中特定特征层感受野大 小限制,单独一层的特征无法应对多姿态多尺度 的行人[30]。因此,本文提出了改进的 SSD 模型用 于行人检测。 3 多层卷积特征的行人检测算法 3.1 基于改进 SSD 的行人检测算法 随着深度学习的快速发展,CNN 已经广泛地 应用于目标检测中,在实时性和准确性上都优于 传统算法的性能。SSD 算法是以 VGG16 网络模 型为基础的前向传播的深度卷积网络模型,对卷 积后得到的特征图分别预判目标位置跟类别置信 度,实现快速且精准目标检测效果。但原始 SSD 算法对同一张图像中小尺寸目标检测效果较差, 主要原因有两点:1) 输入图像在深度卷积神经网 络中经过网络的卷积、池化后特征图变小,原始 SSD 算法 conv4_3 输出的特征图与原始输入图像 相比缩小至原来的 1/8,特征图的变小导致检测的 目标丢失了大部分的细节信息,在训练阶段严重 的影响了算法对各项参数的学习,且后续的 fc7、 conv6_2 等层输出的特征图缩小更多,对算法的 训练影响更大;2) 输入图像分辨率的大小对 SSD 算法的影响。训练的图像较小,卷积池化后得到 的特征图会对应地减小,使得训练阶段 SSD 网络 参数的学习不完全造成过拟合;若输入图像较 大,网络学习的参数大量增加,使得算法计算复 杂度增加,速度减慢。 本文在权衡算法的精准度及实时性的基础 上,对 SSD 模型更底层的输出特征图进行特征提 取,获取更多特征图的纹理、边缘等细节信息,增 强了 SSD 模型对行人目标的检测性能,提升对小 目标行人的检测能力。图 3 为本文基于改进 SSD 模型的行人检测 (pedestrian detection based on improved SSD,PDIS) 框架,行人图像通过改进 SSD 卷积网络中的各卷积层输出多层次特征图,并在 多层次的特征图上提取特征做检测,将多层特征 图的检测结果进行综合实现行人检测。由图 3 的 特征图可视化结果可知,底层卷积 conv3_3 输出 的特征图比较大,且纹理、轮廓信息明确,因此该 层的特征图可以提取到小目标行人的细节信息。 conv9_2 卷积层输出的特征图变得很小,原始图 像的大部分信息丢失,尤其小物体信息丢失严 重,因此该层只能获取较大目标的行人信息。随 着网络层数增加,原始图像的信息会随着输出特 征的尺寸变小而减少。底层输出特征图可以检测 较小的行人目标,深层输出的特征可以检测较大 的行人目标,因此 PDIS 通过结合多层特征图检 测结果,提升了多尺寸行人的检测性能。 非极大值抑制 检测 输入图片 VGG16 Conv4_3 Fc7 Conv6_2 Conv7_2 Conv8_2 Con9_2 图 2 SSD 目标检测流程图 Fig. 2 Detection flowchart for SSD object algorithm 第 2 期 伍鹏瑛,等:多层卷积特征的真实场景下行人检测研究 ·309·
·310· 智能系统学报 第14卷 多层特征图可视化结果 改进B算法多层特征图输出做检测 综合多层特征图的检测结果 图3PDIS框架 Fig.3 PDIS framework PDIS模型通过引出SSD卷积网络中更底层 对小尺寸行人检测效果不理想。因此PDIS模型 conv33输出的特征图做检测。图4为本文改进 把网络中各层次输出的特征图由底层到深层依 之一的PDIS流程图,应用SSD算法卷积层 次引出做检测,检测到行人目标尺寸越来越大。 conv33、conv43、conv7、conv62、conv72、 尽管每一层对图像整体的检测效果不理想,但 conv82和conv92等7个输出层的特征图做检 综合所有层的检测达到了精准的行人检测结果。 测,图中可以看出不同卷积层输出的特征图可以 因此,本文通过修改后的S$D网络,应用多个卷 检测图像中不同尺度的行人,conv33输出的特 积层输出的特征图做检测,实现了图像中多尺度 征图能检测到图像中尺度很小的行人,但对尺寸 的行人检测问题,增加了算法的行人检测分辨 大的行人检测效果很差;卷积层conv92输出的 率,提升了对图像中尺寸相对较小行人的检测 特征图可以检测图像中的尺寸较大的行人,但 效果。 E Auoo 0 检测 检测 检测 检测 检测 分类 分类 分类 分类 分类 分类 综合所有检测结果然后非极大值抑制(NMS) 图4PDIS流程 Fig.4 PDIS flowchart
PDIS 模型通过引出 SSD 卷积网络中更底层 conv3_3 输出的特征图做检测。图 4 为本文改进 之 一 的 PDI S 流程图,应 用 S SD 算法卷积 层 conv3_3、conv4_3、conv7、conv6_2、conv7_2、 conv8_2 和 conv9_2 等 7 个输出层的特征图做检 测,图中可以看出不同卷积层输出的特征图可以 检测图像中不同尺度的行人,conv3_3 输出的特 征图能检测到图像中尺度很小的行人,但对尺寸 大的行人检测效果很差;卷积层 conv9_2 输出的 特征图可以检测图像中的尺寸较大的行人,但 对小尺寸行人检测效果不理想。因此 PDIS 模型 把网络中各层次输出的特征图由底层到深层依 次引出做检测,检测到行人目标尺寸越来越大。 尽管每一层对图像整体的检测效果不理想,但 综合所有层的检测达到了精准的行人检测结果。 因此,本文通过修改后的 SSD 网络,应用多个卷 积层输出的特征图做检测,实现了图像中多尺度 的行人检测问题,增加了算法的行人检测分辨 率,提升了对图像中尺寸相对较小行人的检测 效果。 ··· 多层特征图可视化结果 改进算法多层特征图输出做检测 综合多层特征图的检测结果 SSD 图 3 PDIS 框架 Fig. 3 PDIS framework 输出 conv3_3 特征图 输出 conv4_3 特征图 输出 fc7 特征图 输出 conv6_2 特征图 输出 conv7_2 特征图 输出 conv8_2 特征图 输出 conv9_2 特征图 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 检测 分类 综合所有检测结果然后非极大值抑制 (NMS) 图 4 PDIS 流程 Fig. 4 PDIS flowchart ·310· 智 能 系 统 学 报 第 14 卷