第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992tis.201910004 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20200717.1727.008.html 基于Faster R-CNN的多任务增强裂缝图像检测方法 毛莺池,唐江红,王静,平萍,王龙宝 (河海大学计算机与信息学院,江苏南京211100) 摘要:针对Faster R-CNN算法对多目标、小目标检测精度不高的问题,本文提出一种基于Faster R-CNN的多 任务增强裂缝图像检测(Multitask Enhanced Dam Crack Image Detection Based on Faster R-CNN,ME-Faster R- CNN)方法。同时提出一种基于K-means的多源自适应平衡TrAdaBoost的迁移学习方法(multi-source adaptive balance TrAdaBoost based on K-neans,K-MABtrA)轴助网络训练,解决样本不足问题。ME-Faster R-CNN将图片 输入ResNet--50网络提取特征:然后将所得特征图输入多任务增强RPN模型,同时改善RPN模型的锚盒尺寸和 大小以提高检测识别精度,生成候选区域:最后将特征图和候选区域发送到检测处理网络。K-MABA方法利 用K-means聚类删除与目标源差别较大的图像,再在多元自适应平衡TrAdaBoost迁移学习方法下训练模型。 实验结果表明:将ME-Faster R-CNN在K-MABtrA迁移学习的条件下应用于小数据集大坝裂缝图像集的平均 IoU为82.52%,平均精度mAP值为80.02%.与相同参数设置下的Faster R-CNN检测算法相比,平均IoU和 mAP值分别提高了1.06%和1.56%。 关键词:裂缝图像检测;Faster R-CNN;多任务检测;小目标检测;迁移学习;大坝安全;区域建议网络;小样本 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)02-0286-08 中文引用格式:毛莺池,唐江红,王静,等.基于Faster R-CNN的多任务增强裂缝图像检测方法.智能系统学报,2021, 16(2):286-293. 英文引用格式:MAO Yingchi,,TANG Jianghong,.WANG Jing,etal.Mlulti-.-task enhanced dam crack image detection based on Faster R-CNNIJI.CAAI transactions on intelligent systems,2021,16(2):286-293. Multi-task enhanced dam crack image detection based on Faster R-CNN MAO Yingchi,TANG Jianghong,WANG Jing,PING Ping,WANG Longbao (College of Computer and Information,Hohai University,Nanjing 211100,China) Abstract:To improve the accuracy of the detection of multiple small targets using the faster R-CNN model,we pro- pose a multi-task enhanced dam-crack image detection method based on faster R-CNN(ME-Faster R-CNN).In addition, to solve the problem of insufficient dam-crack samples,we propose a transfer learning method,multi-source adaptive balance TrAdaBoost based on K-means(K-MABtrA),to assist with network training.In the ME-Faster R-CNN,the ResNet-50 network is adopted to extract features from original images,obtain the feature map,and input a multi-task en- hanced region-proposal-network module to generate candidate regions by adopting the appropriate size and dimensions of the anchor box.Lastly,the features map and candidate regions are processed to detect dam cracks.The K-MABtrA method first uses K-means clustering to delete unsuitable images.Then,models are trained using the multi-source adapt- ive balance TrAdaBoost method.Our experimental results show that the proposed ME Faster R-CNN with the K-MAB- trA method can obtain an 82.52%average intersection over union (IoU)and 80.02%mean average precision(mAP). Compared with Faster R-CNN detection method using the same parameters,the average IoU and mAP values was in- creased by 1.06%and 1.56%,respectively. Keywords:crack image detection;Faster R-CNN;Multi-task detection;small targets detection;transfer learning;dam safety;RPN;small sample 收稿日期:2019-09-15.网络出版日期:2020-07-18. 我国是世界上拥有水库大坝最多的国家山, 基金项目:国家重点研发课题(2018Y℉C0407105):国家自然科 学基金重点项目(61832005):国网新源科技项目 但随着时间的推移和坝龄的增长,大坝表面和内 (SGTYHT/19-JS-217):华能集团重点研发课题 (HNKJ19-H12). 部发生形变,出险几率增加,威胁人民生命财产 通信作者:唐江红.E-mail:15195897810@163.com. 安全。裂缝是大坝的主要危害之一
DOI: 10.11992/tis.201910004 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200717.1727.008.html 基于 Faster R-CNN 的多任务增强裂缝图像检测方法 毛莺池,唐江红,王静,平萍,王龙宝 (河海大学 计算机与信息学院,江苏 南京 211100) 摘 要:针对 Faster R-CNN 算法对多目标、小目标检测精度不高的问题,本文提出一种基于 Faster R-CNN 的多 任务增强裂缝图像检测 (Multitask Enhanced Dam Crack Image Detection Based on Faster R-CNN, ME-Faster RCNN) 方法。同时提出一种基于 K-means 的多源自适应平衡 TrAdaBoost 的迁移学习方法 (multi-source adaptive balance TrAdaBoost based on K-means, K-MABtrA) 辅助网络训练,解决样本不足问题。ME-Faster R-CNN 将图片 输入 ResNet-50 网络提取特征;然后将所得特征图输入多任务增强 RPN 模型,同时改善 RPN 模型的锚盒尺寸和 大小以提高检测识别精度,生成候选区域;最后将特征图和候选区域发送到检测处理网络。K-MABtrA 方法利 用 K-means 聚类删除与目标源差别较大的图像,再在多元自适应平衡 TrAdaBoost 迁移学习方法下训练模型。 实验结果表明:将 ME-Faster R-CNN 在 K-MABtrA 迁移学习的条件下应用于小数据集大坝裂缝图像集的平均 IoU 为 82.52%,平均精度 mAP 值为 80.02%,与相同参数设置下的 Faster R-CNN 检测算法相比,平均 IoU 和 mAP 值分别提高了 1.06% 和 1.56%。 关键词:裂缝图像检测;Faster R-CNN;多任务检测;小目标检测;迁移学习;大坝安全;区域建议网络;小样本 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)02−0286−08 中文引用格式:毛莺池, 唐江红, 王静, 等. 基于 Faster R-CNN 的多任务增强裂缝图像检测方法 [J]. 智能系统学报, 2021, 16(2): 286–293. 英文引用格式:MAO Yingchi, TANG Jianghong, WANG Jing, et al. Multi-task enhanced dam crack image detection based on Faster R-CNN[J]. CAAI transactions on intelligent systems, 2021, 16(2): 286–293. Multi-task enhanced dam crack image detection based on Faster R-CNN MAO Yingchi,TANG Jianghong,WANG Jing,PING Ping,WANG Longbao (College of Computer and Information, Hohai University, Nanjing 211100, China) Abstract: To improve the accuracy of the detection of multiple small targets using the faster R-CNN model, we propose a multi-task enhanced dam-crack image detection method based on faster R-CNN (ME-Faster R-CNN). In addition, to solve the problem of insufficient dam-crack samples, we propose a transfer learning method, multi-source adaptive balance TrAdaBoost based on K-means (K-MABtrA), to assist with network training. In the ME-Faster R-CNN, the ResNet-50 network is adopted to extract features from original images, obtain the feature map, and input a multi-task enhanced region-proposal-network module to generate candidate regions by adopting the appropriate size and dimensions of the anchor box. Lastly, the features map and candidate regions are processed to detect dam cracks. The K-MABtrA method first uses K-means clustering to delete unsuitable images. Then, models are trained using the multi-source adaptive balance TrAdaBoost method. Our experimental results show that the proposed ME Faster R-CNN with the K-MABtrA method can obtain an 82.52% average intersection over union (IoU) and 80.02% mean average precision (mAP). Compared with Faster R-CNN detection method using the same parameters, the average IoU and mAP values was increased by 1.06% and 1.56%, respectively. Keywords: crack image detection; Faster R-CNN; Multi-task detection; small targets detection; transfer learning; dam safety; RPN; small sample 我国是世界上拥有水库大坝最多的国家[1] , 但随着时间的推移和坝龄的增长,大坝表面和内 部发生形变,出险几率增加,威胁人民生命财产 安全。裂缝是大坝的主要危害之一。 收稿日期:2019−09−15. 网络出版日期:2020−07−18. 基金项目:国家重点研发课题 (2018YFC0407105);国家自然科 学基金重点项目 (61832005);国网新源科技项目 (SGTYHT/19-JS-217);华能集团重点研发课 题 (HNKJ19-H12). 通信作者:唐江红. E-mail:15195897810@163.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·287· 近年来,图像处理、模式识别和深度学习等技 行改进,提出一种动态TrAdaboost(dynamic TrAd-. 术的发展,为大坝裂缝图像检测提供技术支持。 aboost,.DtrA)方法,DtrA方法能够在迭代过程中 但由于大坝环境复杂等一系列因素的限制,导致 动态调整样本权重;郭勇1在DrA方法基础上 裂缝图像收集和标记成本过高,因此难以获得大 进一步改进,提出一种自适应TrAdaBoost(adapt- 坝裂缝图像检测的分类模型。迁移学习主要是针 ive TrAdaBoost,.AtrA)方法,AtrA方法能够反映出 对规模不大,样本数量有限的特定领域数据集使 源领域训练数据集与目标领域训练数据集之间是 用机器学习容易产生过拟合而导致无法训练与学 否具有相似性关系。 习的问题,通过利用具有一定相似性的领域中已 训练好的较好优秀模型和样本构建满足任务需求 2ME-Faster R-CNN与K-MABtrA方法 的模型,从而实现小数据集下构建良好模型的效果。 本文提出了一种基于Faster R-CNN的多任务 Faster R-CNN是目前基于区域卷积神经网 增强裂缝图像检测的网络模型,以适应大坝在不 络系列的目标检测算法中综合性能最好的方法之 同光照环境、不同长度裂缝情况下的检测。同 一,但其对多目标、小目标情况检测精度不高。 时,提出了一种基于K-means多源自适应平衡 本文提出了一种基于Faster R-CNN的多任务增强 TrAdaBoost迁移学习方法解决样本不足问题。本 裂缝图像检测方法,以适应大坝在不同光照环 境,不同长度裂缝情况下的检测。同时提出了一 文采用基于K-MABtrA迁移学习方法训练ME- 种基于K-means多源自适应平衡TrAdaBoost迁移 Faster R-CNN网络模型,该方法通过已准备的多 学习方法辅助网络训练,解决样本不足问题。 源裂缝图像数据集对卷积神经网络的参数进行预 训练,然后使用预训练得到的网络权重作为初始 相关工作 权值,迁移到目标数据集上进行微调,得到适用 于大坝裂缝检测的模型。 根据卷积神经网络的使用方式,将基于 2.1ME-Faster R-CNN模型 CNN目标检测算法B分为两大类:基于区域建 ME-Faster R-CNN在Faster R-CNN模型基础 议的深度学习目标检测算法和基于回归思想的深 上进行改进,改进之处如图1所示。其中,特征提 度学习目标检测算法。前者的主流算法有:R- CNN算法IsI、Fast R-CNN算法I6和Faster R- 取部分:选取轻量级的ResNet-50作为卷积神经 CNN算法。R-CNN首次将神经网络应用在目标 网络:特征融合部分以及候选区域生成部分:改 检测算法上,在Pascal VOC2012的数据集上将平 进使用多任务增强RPN模型,改善锚盒尺寸大小 均精度mAP提升了30%。Fast R-CNN将候选框 提高Faster R-CNN搜索能力,提高检测识别精 识别分类和位置回归合成到一个网络中,不再对 度:检测处理部分:特征图和选择区域建议经过 网络进行分步训练,提高了训练速度。Faster R- 感兴趣区域(ROD池、全连接(FC)层分别发送给 CNN与Fast R-CNN最大的区别就是提出了区域 边界回归器和SVM分类器得到分类与回归结果。 建议网络(region proposal networks,.RPN)网络,极 基本框架 改进之处 大地提升了检测框的生成速度。基于回归思想的 深度学习目标检测的主流算法有:SSD算法) 数据输人部分 和YOLO V2算法I⑧。SSD算法和YOLO算法均 图像 没有区域建议过程,极大地提高了检测速度,但 选取残差网路 特征提取部分 卷积■ 识别精度和位置回归精度不足。 神经网络 ResNet-50 从20世纪90年代起迁移学习开始逐渐进入 多RPN模型 机器学习领域,受到研究者们的关注。常用的迁 移学习方法有AdaBoost'9和TrAdaBoost算法 RPN 等。AdaBoost算法基本思想:当一个训练样本被 改变anchor 大小尺寸 错误分类时候,对此样本增加样本权重,再次训 练时该样本分错的概率就会大大降低。TrAda- 检测处理部分ROI池化 Boost算法是由AdaBoost算法演变而来的,该算 全连接层 法通过降低误分类的源域训练数据权重,增加误 候选框回归 SVM 分类的目标域训练数据权重,使得分类面朝正确 的方向移动并训练出强分类模型。Al-Stouhi等 图1ME-Faster R-CNN模型改进之处 总结TrAdaBoost算法存在的问题,在此基础上进 Fig.1 Improvements of ME-Faster R-CNN
近年来,图像处理、模式识别和深度学习等技 术的发展,为大坝裂缝图像检测提供技术支持。 但由于大坝环境复杂等一系列因素的限制,导致 裂缝图像收集和标记成本过高,因此难以获得大 坝裂缝图像检测的分类模型。迁移学习主要是针 对规模不大,样本数量有限的特定领域数据集使 用机器学习容易产生过拟合而导致无法训练与学 习的问题,通过利用具有一定相似性的领域中已 训练好的较好优秀模型和样本构建满足任务需求 的模型,从而实现小数据集下构建良好模型的效果。 Faster R-CNN[2] 是目前基于区域卷积神经网 络系列的目标检测算法中综合性能最好的方法之 一,但其对多目标、小目标情况检测精度不高。 本文提出了一种基于 Faster R-CNN 的多任务增强 裂缝图像检测方法,以适应大坝在不同光照环 境,不同长度裂缝情况下的检测。同时提出了一 种基于 K-means 多源自适应平衡 TrAdaBoost 迁移 学习方法辅助网络训练,解决样本不足问题。 1 相关工作 根据卷积神经网络的使用方式,将基 于 CNN 目标检测算法[3-4] 分为两大类:基于区域建 议的深度学习目标检测算法和基于回归思想的深 度学习目标检测算法。前者的主流算法有:RCNN 算法[ 5 ] 、Fast R-CNN 算法[ 6 ] 和 Faster RCNN 算法。R-CNN 首次将神经网络应用在目标 检测算法上,在 Pascal VOC 2012 的数据集上将平 均精度 mAP 提升了 30%。Fast R-CNN 将候选框 识别分类和位置回归合成到一个网络中,不再对 网络进行分步训练,提高了训练速度。Faster RCNN 与 Fast R-CNN 最大的区别就是提出了区域 建议网络 (region proposal networks, RPN) 网络,极 大地提升了检测框的生成速度。基于回归思想的 深度学习目标检测的主流算法有:SSD 算法[ 7 ] 和 YOLO V2 算法[8]。SSD 算法和 YOLO 算法均 没有区域建议过程,极大地提高了检测速度,但 识别精度和位置回归精度不足。 从 20 世纪 90 年代起迁移学习开始逐渐进入 机器学习领域,受到研究者们的关注。常用的迁 移学习方法有 AdaBoost[9] 和 TrAdaBoost[10] 算法 等。AdaBoost 算法基本思想:当一个训练样本被 错误分类时候,对此样本增加样本权重,再次训 练时该样本分错的概率就会大大降低。TrAdaBoost 算法是由 AdaBoost 算法演变而来的,该算 法通过降低误分类的源域训练数据权重,增加误 分类的目标域训练数据权重,使得分类面朝正确 的方向移动并训练出强分类模型。Al-Stouhi 等 [11] 总结 TrAdaBoost 算法存在的问题,在此基础上进 行改进,提出一种动态 TrAdaboost (dynamic TrAdaboost, DtrA) 方法,DtrA 方法能够在迭代过程中 动态调整样本权重;郭勇[12] 在 DtrA 方法基础上 进一步改进,提出一种自适应 TrAdaBoost (adaptive TrAdaBoost, AtrA) 方法,AtrA 方法能够反映出 源领域训练数据集与目标领域训练数据集之间是 否具有相似性关系。 2 ME-Faster R-CNN 与 K-MABtrA 方法 本文提出了一种基于 Faster R-CNN 的多任务 增强裂缝图像检测的网络模型,以适应大坝在不 同光照环境、不同长度裂缝情况下的检测。同 时,提出了一种基于 K-means 多源自适应平衡 TrAdaBoost 迁移学习方法解决样本不足问题。本 文采用基于 K-MABtrA 迁移学习方法训练 MEFaster R-CNN 网络模型,该方法通过已准备的多 源裂缝图像数据集对卷积神经网络的参数进行预 训练,然后使用预训练得到的网络权重作为初始 权值,迁移到目标数据集上进行微调,得到适用 于大坝裂缝检测的模型。 2.1 ME-Faster R-CNN 模型 ME-Faster R-CNN 在 Faster R-CNN 模型基础 上进行改进,改进之处如图 1 所示。其中,特征提 取部分:选取轻量级的 ResNet-50 作为卷积神经 网络;特征融合部分以及候选区域生成部分:改 进使用多任务增强 RPN 模型,改善锚盒尺寸大小 提高 Faster R-CNN 搜索能力,提高检测识别精 度;检测处理部分:特征图和选择区域建议经过 感兴趣区域 (ROI) 池、全连接 (FC) 层分别发送给 边界回归器和 SVM 分类器得到分类与回归结果。 图像 卷积 神经网络 ROI池化 全连接层 候选框回归 SVM RPN 数据输入部分 特征提取部分 特征融合及候 选区域生成 检测处理部分 多RPN模型 选取残差网络 ResNet-50 基本框架 改进之处 改变anchor 大小尺寸 图 1 ME-Faster R-CNN 模型改进之处 Fig. 1 Improvements of ME-Faster R-CNN 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·287·
·288· 智能系统学报 第16卷 ME-Faster R-CNN检测流程主要分为3个部 CNN模型结构中只有一个RPN,RPN使用最后一 分,分别是特征提取、特征融合以及候选区域生 个卷积层获得特征图。称之为原始RPN,其结 成、检测处理。 构如图2(a)所示,输入图像大小为224×224,原 1)特征提取:本文选用ResNet-50深度残差网 始RPN在网络中感受野要远远大于224×224,仅 络)作为大坝裂缝图像特征提取器,通过5级 能获得少量典型裂缝特征。然而,图像中裂缝存 ResNet-50将图片转换成特征图。 在不同大小和比例。如果检测到裂缝大小对于检 2)特征融合以及候选区域生成:将所得特征 测区域太大,则检测区域周围多余裂缝形状可能 图输人多任务增强RPN模型,并改善RPN模型 会被视为噪音。如果检测到裂缝大小对于检测区 的锚盒尺寸和大小以提高检测识别精度,最后生 域太小,RPN将无法生成ROI。因此,原始 成候选框。具体方法如下: RPN的功能不足以检测不同大小和比例的完整 ①多任务增强RPN方法:最初Faster R- 裂缝对象。 ConvI_x Conv2_x Conv3_x Conv4_x Conv5_x Bbox ROI Pooling Layer FC6 FC7 FC8 Class Input ROI Score RPN 619×619 (a)原始RPN模块 Convl x Conv2_x Conv3_x Conv4_x Conv5_x Bbox ROI Pooling Layer FC6 FC7 FC8 Input Class Score ROI RPNI 146×146 ROI-Merge Layer RPN2 229×229 RPN3 619×619 (b)多任务增强RPN模块 图2原始RPN模型与多任务增强RPN模型 Fig.2 Primitive RPN module &multi-task enhanced RPN module 针对以上问题,ME-Faster R-CNN方法提出一 Merge Layer仅输出一个数组。为了避免重复的 种多任务增强RPN方法,其结构如图2(b)所示。 ROI和低的ROI裂缝似然分数,本文使用非极大 该方法在ResNet-50的基础上引入多个RPN来产 值抑制方法,不同卷积层后RPN输出的候选区域 生ROL,提取不同大小特征图。具体是在ResNet- 中,在对应位置两ROI的交并比大于0.7的 50的第3卷积层Cov3x后加入一个RPN模块,ROI为同一ROI。具体方法为,3个卷积层后 其感受野大小为146×146,用来检测较小目标;同 RPN输出的候选区域均带有建议得分,该分数对 时在ResNet-50的第4卷积层Conv4x后加入一 应的是目标的可能性,在对应位置选取分数最高 个RPN模块,其感受野大小为229×229,用来检 的一个ROI区域,另外两层对应位置的ROI与所 测较大目标;在ResNet-.50的第5卷积层Conv5_x选ROI交并比IoU若大于0.7,则认为是同一 之后利用多RPN任务可以输出图像总体信息。 ROI,ROI-Merge Layer的输出数组中对应位置仅 由于每个RPN输出独立的ROI数组,为聚集 输出该得分最高的数组。在使用非极大值抑制方 和选择有效的区域,多任务增强RPN方法提供 法之后,选择前100个值较高的ROI。因此,RO ROI-Merge Layer用于接受独立ROI数组,ROI- Merge Layer只需要调整超参数即可控制ROI的
ME-Faster R-CNN 检测流程主要分为 3 个部 分,分别是特征提取、特征融合以及候选区域生 成、检测处理。 1) 特征提取:本文选用 ResNet-50 深度残差网 络 [13] 作为大坝裂缝图像特征提取器,通过 5 级 ResNet-50 将图片转换成特征图。 2) 特征融合以及候选区域生成:将所得特征 图输入多任务增强 RPN 模型,并改善 RPN 模型 的锚盒尺寸和大小以提高检测识别精度,最后生 成候选框。具体方法如下: ①多任务增强 RPN 方法:最初 Faster R- 224×224 224×224 CNN 模型结构中只有一个 RPN,RPN 使用最后一 个卷积层获得特征图[2]。称之为原始 RPN,其结 构如图 2(a) 所示,输入图像大小为 ,原 始 RPN 在网络中感受野要远远大于 ,仅 能获得少量典型裂缝特征。然而,图像中裂缝存 在不同大小和比例。如果检测到裂缝大小对于检 测区域太大,则检测区域周围多余裂缝形状可能 会被视为噪音。如果检测到裂缝大小对于检测区 域太小, R P N 将无法生 成 ROI。因此,原 始 RPN 的功能不足以检测不同大小和比例的完整 裂缝对象。 ROI Pooling Layer FC6 FC7 Bbox Class Score RPN Input ROI Conv1_x Conv2_x Conv3_x Conv4_x Conv5_x 619×619 FC8 (a) 原始RPN模块 ROI Pooling Layer FC6 FC7 Bbox Class Score RPN3 Input ROI Conv1_x Conv2_x Conv3_x Conv4_x Conv5_x 229×229 FC8 RPN2 RPN1 146×146 619×619 ROI-Merge Layer (b) 多任务增强RPN模块 图 2 原始 RPN 模型与多任务增强 RPN 模型 Fig. 2 Primitive RPN module &multi-task enhanced RPN module 146×146 229×229 针对以上问题,ME-Faster R-CNN 方法提出一 种多任务增强 RPN 方法,其结构如图 2(b) 所示。 该方法在 ResNet-50 的基础上引入多个 RPN 来产 生 ROI,提取不同大小特征图。具体是在 ResNet- 50 的第 3 卷积层 Conv3_x 后加入一个 RPN 模块, 其感受野大小为 ,用来检测较小目标;同 时在 ResNet-50 的第 4 卷积层 Conv4_x 后加入一 个 RPN 模块,其感受野大小为 ,用来检 测较大目标;在 ResNet-50 的第 5 卷积层 Conv5_x 之后利用多 RPN 任务可以输出图像总体信息。 由于每个 RPN 输出独立的 ROI 数组,为聚集 和选择有效的区域,多任务增强 RPN 方法提供 ROI-Merge Layer 用于接受独立 ROI 数组,ROIMerge Layer 仅输出一个数组。为了避免重复的 ROI 和低的 ROI 裂缝似然分数,本文使用非极大 值抑制方法,不同卷积层后 RPN 输出的候选区域 中,在对应位置 两 R OI 的交并比大 于 0 . 7 的 ROI 为同一 ROI。具体方法为, 3 个卷积层后 RPN 输出的候选区域均带有建议得分,该分数对 应的是目标的可能性,在对应位置选取分数最高 的一个 ROI 区域,另外两层对应位置的 ROI 与所 选 ROI 交并比 IoU 若大于 0.7,则认为是同一 ROI,ROI-Merge Layer 的输出数组中对应位置仅 输出该得分最高的数组。在使用非极大值抑制方 法之后,选择前 100 个值较高的 ROI。因此,ROIMerge Layer 只需要调整超参数即可控制 ROI 的 ·288· 智 能 系 统 学 报 第 16 卷
第2期 毛鸴池,等:基于Faster R-CNN的多任务增强裂缝图像检测方法 ·289· 数量。 重新对相应图像小块灰度均值进行划分,将每个 ②改善RPN模型的锚盒尺寸和大小:Faster 图像矩阵小块赋给最相近的类: R-CNN模型经过卷积层提取特征图.然后特征图 输入RPN区域进行特征融合以及生成候选区域, dis(xi.y ij=1,2,…,n (1) 此时特征图上每个像素点映射不同比例宽度锚 式中:dis(cy)为数据对象x和y;之间的距离。 点,每个锚点放置若干个不同大小的锚,为解决 该值越大,说明x和y越相似;反之x和y差距 不同尺度间隔的锚盒搜索能力不平衡的问题,本 越大。 文设计了一种新型锚盒,新型锚盒尺度为: ④重新计算每个有变化的图像小块像素灰度 50×50、200×200、350×350和500×500,其中, 均值的质心; 50×50和200×200适用于较小的裂缝检测, ⑤重复上述步骤3)、4)直至各个数据类的集 350×350和500×500适用于较大的裂缝检测。这 合中心不再发生变化为止。 4种尺度每种尺寸按1:1,1:2,2:1的长宽比例缩 开始 放,共12种尺度作为RPN需要评估的候选框,在 预测时候选框的顺序是固定的。RPN的目标就 输入多源图片 是对原图中的每个锚点对应的12个框,预测其是 K-means聚类 否是一个存在目标的框。框与真值框的IoU>0.7 剔除与目标数据 K-means图像聚类算法 差异大的图片 就认为这个框是一个候选框,反之,则不是。 明 2.2K-MABtrA方法 校正系数 最终平衡法 多源自适应平衡 自 TrAdaBoosti迁移学习门自适应回补参数 针对大坝裂缝图像较少,训练样本分布不均 应平 衡,以及TrAdaBoost算法在训练过程中易削弱辅 是否满意 助数据集作用的问题,本节提出一种基于K TrAdaBoost means的多源自适应平衡TrAdaBoost的迁移学习 移 方法K-MABtrA,使用迁移学习充分利用多个领 输出分类器 域的大量相关训练集,动态调整样本权值,训练 法 出网络的强分类器,提高大坝裂缝检测的准确 结束 率。如图3所示为基于K-means的多源自适应平 图3K-MABtrA方法流程图 衡TrAdaBoost迁移学习方法的过程,主要分为两 Fig.3 Flow chart of K-MABtrA method 个阶段:K-means图像聚类方法和多源自适应 2)多源自适应平衡TrAdaBoost迁移学习:利 平衡TrAdaBoost迁移学习。 用不同领域裂缝图像和真实大坝裂缝图像一一组 l)K-means图像聚类方法:通过K-means图 合进行训练,生成基分类器;在TrAdaBoost基础 像聚类方法,利用欧式距离将图像进行聚类排 上引入校正系数回,避免由于迭代次数的增加,导 序。将聚类距离远的图片从裂缝图像库中删除, 致源领域权重下降过快,与目标源领域权重之间 有利于后续分类器的训练,提高训练效率。K代 差距过大的问题;在校正系数中引入自适应回补 表聚类质心数目,means表示簇内数据的均值。 参数),反映源领域训练数据集与目标领域训练 K-means图像聚类方法具体步骤如下: 数据集之间是否具有相似性关系,提高方法检测 ①首先将图像库中图像X(i=1,2,…,n)进行 性能;最后,使用最终平衡权重法,使最终得到的 灰度化,依次存储到一维矩阵Dx中; 目标源数据集与各领域裂缝数据集重要度一致。 ②接着以10像素长度,3像素移动步长依次 ①增加校正系数更新源领域样本的权值 进行分块存储,记录每小块的首位置,得到n个像 迁移学习在训练过程在,各领域辅助训练集 素块数据集,从中任意选择30个图像小块的灰度 随着迭代次数增加得到的权值不断减小以至于与 均值作为初始聚类中心; 目标数据集不相关,无法起到辅助目标数据集学 ③根据每个图像矩阵小块的灰度均值,利用 习的作用。为了更好地利用各领域辅助训练集和 欧几里得距离,如式(1)所示,计算这些对象与 目标数据集训练,在TrAdaBoost基础上增加校正 30个图像样本聚类中心的距离;并根据最小距离 系数更新源领域样本的权值。当迭代次数m不
数量。 50×50 200×200 350×350 500×500 50×50 200×200 350×350 500×500 IoU > 0.7 ②改善 RPN 模型的锚盒尺寸和大小:Faster R-CNN 模型经过卷积层提取特征图,然后特征图 输入 RPN 区域进行特征融合以及生成候选区域, 此时特征图上每个像素点映射不同比例宽度锚 点,每个锚点放置若干个不同大小的锚,为解决 不同尺度间隔的锚盒搜索能力不平衡的问题,本 文设计了一种新型锚盒,新型锚盒尺度为: 、 、 和 ,其中, 和 适用于较小的裂缝检测, 和 适用于较大的裂缝检测。这 4 种尺度每种尺寸按 1∶1,1∶2,2∶1 的长宽比例缩 放,共 12 种尺度作为 RPN 需要评估的候选框,在 预测时候选框的顺序是固定的。RPN 的目标就 是对原图中的每个锚点对应的 12 个框,预测其是 否是一个存在目标的框。框与真值框的 就认为这个框是一个候选框,反之,则不是。 2.2 K-MABtrA 方法 针对大坝裂缝图像较少,训练样本分布不均 衡,以及 TrAdaBoost 算法在训练过程中易削弱辅 助数据集作用的问题,本节提出一种基 于 Kmeans 的多源自适应平衡 TrAdaBoost 的迁移学习 方法 K-MABtrA,使用迁移学习充分利用多个领 域的大量相关训练集,动态调整样本权值,训练 出网络的强分类器,提高大坝裂缝检测的准确 率。如图 3 所示为基于 K-means 的多源自适应平 衡 TrAdaBoost 迁移学习方法的过程,主要分为两 个阶段:K-means 图像聚类方法[14] 和多源自适应 平衡 TrAdaBoost 迁移学习。 1) K-means 图像聚类方法:通过 K-means 图 像聚类方法,利用欧式距离将图像进行聚类排 序。将聚类距离远的图片从裂缝图像库中删除, 有利于后续分类器的训练,提高训练效率。K 代 表聚类质心数目,means 表示簇内数据的均值。 K-means 图像聚类方法具体步骤如下: Xi(i = 1,2,··· ,n) DX ①首先将图像库中图像 进行 灰度化,依次存储到一维矩阵 中; ②接着以 10 像素长度,3 像素移动步长依次 进行分块存储,记录每小块的首位置,得到 n 个像 素块数据集,从中任意选择 30 个图像小块的灰度 均值作为初始聚类中心; ③根据每个图像矩阵小块的灰度均值,利用 欧几里得距离,如式 (1) 所示,计算这些对象与 30 个图像样本聚类中心的距离;并根据最小距离 重新对相应图像小块灰度均值进行划分,将每个 图像矩阵小块赋给最相近的类; dis(xi , yj)= ∑d k=1 (xik − xjk) 2 1 2 ,i, j = 1,2,··· ,n (1) dis(xi , yj) xi yj xi yj xi yj 式中: 为数据对象 和 之间的距离。 该值越大,说明 和 越相似;反之 和 差距 越大。 ④重新计算每个有变化的图像小块像素灰度 均值的质心; ⑤重复上述步骤 3)、4) 直至各个数据类的集 合中心不再发生变化为止。 开始 K-means聚类 剔除与目标数据 差异大的图片 输入多源图片 多源自适应平衡 TrAdaBoost迁移学习 是否满意 Y N K-means图像聚类算法 TrAdaBoost 校正系数 最终平衡法 自适应回补参数 输出分类器 结束 多源自适应平衡迁移学习方法 图 3 K-MABtrA 方法流程图 Fig. 3 Flow chart of K-MABtrA method 2) 多源自适应平衡 TrAdaBoost 迁移学习:利 用不同领域裂缝图像和真实大坝裂缝图像一一组 合进行训练,生成基分类器;在 TrAdaBoost 基础 上引入校正系数[12] ,避免由于迭代次数的增加,导 致源领域权重下降过快,与目标源领域权重之间 差距过大的问题;在校正系数中引入自适应回补 参数[13] ,反映源领域训练数据集与目标领域训练 数据集之间是否具有相似性关系,提高方法检测 性能;最后,使用最终平衡权重法,使最终得到的 目标源数据集与各领域裂缝数据集重要度一致。 ① 增加校正系数更新源领域样本的权值 m 迁移学习在训练过程在,各领域辅助训练集 随着迭代次数增加得到的权值不断减小以至于与 目标数据集不相关,无法起到辅助目标数据集学 习的作用。为了更好地利用各领域辅助训练集和 目标数据集训练,在 TrAdaBoost 基础上增加校正 系数更新源领域样本的权值。当迭代次数 不 第 2 期 毛莺池,等:基于 Faster R-CNN 的多任务增强裂缝图像检测方法 ·289·
·290· 智能系统学报 第16卷 断增大,各个领域辅助训练集都能被正确回归, 之和,即 当m次迭代结束后,各个辅助领域样本权值之和为 Bm=(1-)+(1-e) (10) 第m+1次迭代后辅助领域数据样本权值: 5-2-2= (2) B"w"al()-3 B"wal-s Sa+Sb 、B,w7+2nsw3(1-3 式中:n为辅助训练集a中样本个数;w为a中 B"wal 各训练样本权重。 (11) 目标数据集b中预测样本正确的样本权值不 ③最终平衡权重法 变,b为目标数据集b中样本个数,w为b中训 最后,循环达到设定迭代次数M,得到强学 练样本权重,为弱分类器在b上的错误率,正 习器。但在迭代后,目标数据集与源数据集的权 确样本的权值之和为 重已经严重偏离,所以,造成最终分类器也过于 Sh,=6w8(1-W) (3) 偏向目标小数据集的问题。针对上述问题,在最 目标数据集b中预测错误样本需要更新Pm, 终分类器生成方式中引入最终平衡权重法。最终 平衡权重法的基本概念是:在迭代过程中,源数 .=二,则b中错误样本的权值之和S为 据权重不断下降,目标数据权重不断增加,迭代 Sb nowsscom =nowB(1-s6) (4) 结束后,源数据权重与目标数据权重之间差距较 所有目标域样本权值之和,即正确样本和错 大,但在最终分类器生成形式上,将目标数据集 误样本权值之和: 最终权重重置为最后一次迭代中各领域辅助训练 S6=S6,+Sn=2n%wg(1-g) (5) 集权重的平均值,使最终得到的目标源数据集与 当m+1次迭代的辅助数据集样本权值分布为 各领域辅助训练集要度一致,提高算法的检测准 w 确率。 w1=3,+=nw+2,r0-支 (6) 3实验与结果 当迭代次数足够大时,各领域辅助训练集都 能被正确回归,迭代结束后,w+1=w,联系式(6) 3.1数据集介绍 可得: 目前公开的大坝裂缝图像数据库较少,为了 Sa+Sp=nawm+2ngws(1-sm)=1 (7) 实现对大坝裂缝图像检测与识别,从大坝日常监 设辅助数据集样本增加校正系数为C",其权 测过程以及Google图像搜索引擎中收集并整理 值变为 已标记好的裂缝图像组建成数据库。该数据库包 w+1=CMW/(CmS+S)= 含大坝、公路、混凝土墙壁和桥梁4个领域裂缝 C"w/[C"naw+2nw(1-s)] (8) 图像,其中大坝裂缝图像635张,其他领域裂缝图 由于此时辅助数据集样本权值稳定不变,即 片每个领域各2500张,总计8135张裂缝图片。 w1=w,根据关系式(7)和(8)可得校正系数为 3.2实验结果与分析 Cm=2(1-6) (9) 本次实验根据选取数据集的特点,选取 从式(9)可以看出,校正系数Cm与弱分类器 mAp(mean average precision)和检测评价函数交 在目标数据集b上的错误率负相关,辅助数据 并比lia(intersection over union,IoU)作为目标检测 集样本权值增加,对下一次迭代训练弱分类器的 算法的评价指标。mAP作为目标检测中用于衡 影响增加;反之对下一次迭代训练弱分类器的影 量识别精度指标;oU表示感兴趣区域和标定区 响减小。因此,在TrAdaBoost算法基础上加入校 域的重叠率。 正系数Cm能够同时保持目标数据集和辅助数据 本实验主要从以下4个方面对基于Faster R: 集样本权值得到收敛。 CNN参数迁移的裂缝图像检测训练方法的优劣 ②引入自适应回补参数 进行对比分析: 然而,即使较低时,弱分类器对源领域训 1)视觉对比分析 练集的分类效果也会存在差异,这种差异同样可 在裂缝检测过程中,对裂缝图像提取感兴趣 以反映出源领域训练集与目标领域训练集之间的 区域,并对感兴趣区域进行裂缝特征提取,通过 相关性。为了反映这种相似性关系,在校正系数 训练好的分类器进行裂缝检测识别后,每个感兴 中引入自适应回补参数,自适应回补参数为基分 趣区域边框都会得到一个分数,即置信度。随机 类器在辅助数据集和目标数据集上的分类正确率 选取3组实验结果进行视觉对比分析如图4所
m 断增大,各个领域辅助训练集都能被正确回归, 当 次迭代结束后,各个辅助领域样本权值之和为 S n = ∑na i=1 w m+1 ai = ∑na i=1 w m ai = naw m a (2) na a w m 式中: 为辅助训练集 中样本个数; a 为 a 中 各训练样本权重。 b nb b w m b b ε m b b 目标数据集 中预测样本正确的样本权值不 变, 为目标数据集 中样本个数, 为 中训 练样本权重, 为弱分类器在 上的错误率,正 确样本的权值之和为 S b1=nbw m b (1−ε m b ) (3) b φm φm = ε m b 1−ε m b b S b2 目标数据集 中预测错误样本需要更新 , ,则 中错误样本的权值之和 为 S b2 = nbw m b ε m b φ −1 m == nbw m b (1−ε m b ) (4) 所有目标域样本权值之和,即正确样本和错 误样本权值之和: S b = S b1 +S b2 = 2nbw m b (1−ε m b ) (5) 当 m+1 次迭代的辅助数据集样本权值分布为 w m+1 a = w m a S a +S b = w m a nawm a +2nbw m b (1−ε m b ) (6) w m+1 a = w m a 当迭代次数足够大时,各领域辅助训练集都 能被正确回归,迭代结束后, ,联系式 (6) 可得: S a +S b=naw m a +2nbw m b (1−ε m b )=1 (7) C 设辅助数据集样本增加校正系数为 m ,其权 值变为 w m+1 a = C mw m a /(C mS a +S b) = C mw m a / [ C mnaw m a +2nbw m b (1−ε m b ) ] (8) w m+1 a = w m a 由于此时辅助数据集样本权值稳定不变,即 ,根据关系式 (7) 和 (8) 可得校正系数为 C m = 2(1−ε m b ) (9) C m b ε m b C m 从式 (9) 可以看出,校正系数 与弱分类器 在目标数据集 上的错误率 负相关,辅助数据 集样本权值增加,对下一次迭代训练弱分类器的 影响增加;反之对下一次迭代训练弱分类器的影 响减小。因此,在 TrAdaBoost 算法基础上加入校 正系数 能够同时保持目标数据集和辅助数据 集样本权值得到收敛。 ② 引入自适应回补参数 然而,即使 εb 较低时,弱分类器对源领域训 练集的分类效果也会存在差异,这种差异同样可 以反映出源领域训练集与目标领域训练集之间的 相关性。为了反映这种相似性关系,在校正系数 中引入自适应回补参数,自适应回补参数为基分 类器在辅助数据集和目标数据集上的分类正确率 之和,即 B m = (1−ε m b )+(1−ε m a ) (10) 第 m+1 次迭代后辅助领域数据样本权值: w m+1 a = B mw m a α | f(xi)−yi| S a+S b = B mw m a α | f(xi)−yi| Bmnawm a +2nbw m b (1−ε m b ) = B mw m a α | f(xi)−yi| (11) ③ 最终平衡权重法 最后,循环达到设定迭代次数 M ,得到强学 习器。但在迭代后,目标数据集与源数据集的权 重已经严重偏离,所以,造成最终分类器也过于 偏向目标小数据集的问题。针对上述问题,在最 终分类器生成方式中引入最终平衡权重法。最终 平衡权重法的基本概念是:在迭代过程中,源数 据权重不断下降,目标数据权重不断增加,迭代 结束后,源数据权重与目标数据权重之间差距较 大,但在最终分类器生成形式上,将目标数据集 最终权重重置为最后一次迭代中各领域辅助训练 集权重的平均值,使最终得到的目标源数据集与 各领域辅助训练集要度一致,提高算法的检测准 确率。 3 实验与结果 3.1 数据集介绍 目前公开的大坝裂缝图像数据库较少,为了 实现对大坝裂缝图像检测与识别,从大坝日常监 测过程以及 Google 图像搜索引擎中收集并整理 已标记好的裂缝图像组建成数据库。该数据库包 含大坝、公路、混凝土墙壁和桥梁 4 个领域裂缝 图像,其中大坝裂缝图像 635 张,其他领域裂缝图 片每个领域各 2500 张,总计 8135 张裂缝图片。 3.2 实验结果与分析 IoU 本次实验根据选取数据集的特点,选 取 mAP[15] (mean average precision) 和检测评价函数交 并比[16] (intersection over union,IoU) 作为目标检测 算法的评价指标。mAP 作为目标检测中用于衡 量识别精度指标; 表示感兴趣区域和标定区 域的重叠率。 本实验主要从以下 4 个方面对基于 Faster RCNN 参数迁移的裂缝图像检测训练方法的优劣 进行对比分析: 1) 视觉对比分析 在裂缝检测过程中,对裂缝图像提取感兴趣 区域,并对感兴趣区域进行裂缝特征提取,通过 训练好的分类器进行裂缝检测识别后,每个感兴 趣区域边框都会得到一个分数,即置信度。随机 选取 3 组实验结果进行视觉对比分析如图 4 所 ·290· 智 能 系 统 学 报 第 16 卷