《工程科学学报》：基于TATLNet的输电场景威胁检测.pdf

工程科学学报.第42卷，第4期：509-515.2020年4月 Chinese Journal of Engineering,Vol.42,No.4:509-515,April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.004;http://cje.ustb.edu.cn 基于TATLNet的输电场景威胁检测李梅，郭飞”，张立中》，王波，张俊岭》，李兆桐 1)国网宁夏电力有限公司.银川7500012)国网宁夏电力有限公司吴忠供电公司，吴忠7511013)山东鲁能软件技术有限公司，济南 2500014)中国石油大学（华东）计算机科学与技术学院.青岛266580 ☒通信作者，E-mail:sl8070027@s.upc.edu.cn 摘要在输电场景中，吊车等大型机械的运作会威胁到输电线路的安全.针对此问题，从训练数据、网络结构和算法超参数的角度进行研究，设计了一种新的端到端的输电线路威胁检测网络结构TATLNet..其中包括可疑区域生成网络VRGNet和威胁判别网铬VTCNet,VRGNet与VTCNet共享部分卷积网络以实现特征共享，并利用模型压缩的方式压缩模型体积，提升检测效率，从计算机视觉和系统工程的角度对入侵输电场景的大型机械进行精确预警.针对训练数据偏少的问题，利用多种数据增强技术相结合的方式对数据集进行扩充.通过充分的试验对本方法的多个超参数进行探究，综合检测准确率和推理速度来研究其最优配置.研究结果表明，随着网格数目的增加，准确率也随之增加，而召回率有先增加后降低的趋势，检测效率则随着网格的增加迅速降低.综合检测准确率与推理速度，确定9×9为最优网格划分方案：随着输人图像尺寸的增加，检测准确率稳步上升而检测效率逐渐下降，综合检测准确率和效率，选择480×480像素作为最终的图像输入尺寸.输人实验以及现场部署表明，相对于其他的轻量级目标检测算法，该方法对输电现场人侵的吊车等大型机械的检测具有更优秀的准确性和效率，满足实际应用的需要关键词深度学习：威胁检测：特征共享：输电场景：轻量级神经网络分类号TP277 Threat detection in transmission scenario based on TATLNet LI Mei.GUO Fei,ZHANG Li-zhong,WANG Bo2,ZHANG Jun-ling LI Zhao-tong 1)Ningxia Electric Power Co.Ltd.,Yinchuan 750001,China 2)Wuzhong Power Supply Company of Ningxia Electric Power Co.Ltd.,Wuzhong 751101,China 3)Shandong Luneng Software Technology Co.Ltd.,Jinan 250001,China 4)College of Computer Science and Technology,China University of Petroleum,Qingdao 266580,China Corresponding author,E-mail:s18070027@s.upc.edu.cn ABSTRACT The operation of cranes and other large machinery threatens the safety of transmission lines.In order to solve this problem in the transmission scenario,the research from the aspects of data enhancement,network structure and the hyperparameters of the algorithm were performed.And a new end-to-end transmission line threat detection method based on TATLNet were proposed in this paper,which included the suspicious areas generation network VRGNet and threat discrimination network VTCNet.VRGNet and VTCNet share part of the convolution network for feature sharing and we used the model compression to compress the model volume and improved the detection efficiency.The method can realize accurate detection of large-scale machinery invading in the transmission scene from the perspective of computer vision and system engineering.To mend the insufficient training data,the data set was expanded by a combination of various data enhancement techniques.The sufficient experiments were carried out to explore the multiple hyperparameters of this method,and its optimal configuration was studied by synthesizing detection accuracy and inference speed.The 收稿日期：2019-09-15 基金项目：国家重点研发计划资助项目(2017ZX05013-002):山东省自然基金资助项目(ZR2019MF049)

基于 TATLNet 的输电场景威胁检测李梅1)，郭飞1)，张立中1)，王波2)，张俊岭3)，李兆桐4) 苣 1) 国网宁夏电力有限公司，银川 750001 2) 国网宁夏电力有限公司吴忠供电公司，吴忠 751101 3) 山东鲁能软件技术有限公司，济南 250001 4) 中国石油大学（华东）计算机科学与技术学院，青岛 266580 苣通信作者，E-mail: s18070027@s.upc.edu.cn 摘要在输电场景中，吊车等大型机械的运作会威胁到输电线路的安全. 针对此问题，从训练数据、网络结构和算法超参数的角度进行研究，设计了一种新的端到端的输电线路威胁检测网络结构 TATLNet，其中包括可疑区域生成网络 VRGNet 和威胁判别网络 VTCNet，VRGNet 与 VTCNet 共享部分卷积网络以实现特征共享，并利用模型压缩的方式压缩模型体积，提升检测效率，从计算机视觉和系统工程的角度对入侵输电场景的大型机械进行精确预警. 针对训练数据偏少的问题，利用多种数据增强技术相结合的方式对数据集进行扩充. 通过充分的试验对本方法的多个超参数进行探究，综合检测准确率和推理速度来研究其最优配置. 研究结果表明，随着网格数目的增加，准确率也随之增加，而召回率有先增加后降低的趋势，检测效率则随着网格的增加迅速降低. 综合检测准确率与推理速度，确定 9×9 为最优网格划分方案；随着输入图像尺寸的增加，检测准确率稳步上升而检测效率逐渐下降，综合检测准确率和效率，选择 480×480 像素作为最终的图像输入尺寸. 输入实验以及现场部署表明，相对于其他的轻量级目标检测算法，该方法对输电现场入侵的吊车等大型机械的检测具有更优秀的准确性和效率，满足实际应用的需要. 关键词深度学习；威胁检测；特征共享；输电场景；轻量级神经网络分类号 TP277 Threat detection in transmission scenario based on TATLNet LI Mei1) ，GUO Fei1) ，ZHANG Li-zhong1) ，WANG Bo2) ，ZHANG Jun-ling3) ，LI Zhao-tong4) 苣 1) Ningxia Electric Power Co. Ltd., Yinchuan 750001, China 2) Wuzhong Power Supply Company of Ningxia Electric Power Co. Ltd., Wuzhong 751101, China 3) Shandong Luneng Software Technology Co. Ltd., Jinan 250001, China 4) College of Computer Science and Technology, China University of Petroleum, Qingdao 266580, China 苣 Corresponding author, E-mail: s18070027@s.upc.edu.cn ABSTRACT The operation of cranes and other large machinery threatens the safety of transmission lines. In order to solve this problem in the transmission scenario, the research from the aspects of data enhancement, network structure and the hyperparameters of the algorithm were performed. And a new end-to-end transmission line threat detection method based on TATLNet were proposed in this paper, which included the suspicious areas generation network VRGNet and threat discrimination network VTCNet. VRGNet and VTCNet share part of the convolution network for feature sharing and we used the model compression to compress the model volume and improved the detection efficiency. The method can realize accurate detection of large-scale machinery invading in the transmission scene from the perspective of computer vision and system engineering. To mend the insufficient training data, the data set was expanded by a combination of various data enhancement techniques. The sufficient experiments were carried out to explore the multiple hyperparameters of this method, and its optimal configuration was studied by synthesizing detection accuracy and inference speed. The 收稿日期: 2019−09−15 基金项目: 国家重点研发计划资助项目（2017ZX05013-002）；山东省自然基金资助项目（ZR2019MF049）工程科学学报，第 42 卷，第 4 期：509−515，2020 年 4 月 Chinese Journal of Engineering, Vol. 42, No. 4: 509−515, April 2020 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.004; http://cje.ustb.edu.cn

510 工程科学学报，第42卷，第4期 research results are sufficient.With increase in the number of grids,the accuracy and recall first increase and then decrease,whereas,the detection efficiency decreases rapidly with increase in the number of grids.Considering the detection accuracy and reasoning speed,9x 9 is the optimal division strategy.With the increase in the input image resolution,the detection accuracy increases steadily and detection efficiency decreases gradually.To balance the detection accuracy and inference efficiency,480 x 480 is selected as the final image input resolution.Experimental results and field deployment demonstrate that compared with other lightweight object detection algorithms,this method has better accuracy and efficiency in large-scale machinery invasion detection such as cranes in transmission fields,and meets the demands of practical applications KEY WORDS deep learning;threat detection;feature sharing;transmission scene;lightweight network 输电线路的安全对国家的发展至关重要，由像进行分析.文献[]中，摄像头拍摄监控区域图于吊车等大型机械运作时的高度跟输电线路的高像，通过对大型运动目标进行实时匹配，来确定运度比较接近甚至更高，当这些设备在输电线附近动目标与输电线路的位置和距离.文献[8]中，应进行作业时会对输电线路的安全造成威胁.因此，用红外滤片式自动切换网络摄像机，对监控区域设计一种能够对输电线路威胁进行自动报警的方进行24h全天候监控，并将图像上传至服务器，在法显得十分必要山服务器中应用混合高斯背景建模实现对大型机械国家电网在输电塔上配备了图像抓拍设备，入侵的定向识别但目前其供电方式为太阳能充电，能够提供的功 1.2深度学习率较小并且难以支撑监控设备的长时间运行.因自从Hinton等9在2012年提出深度学习的概念，此，对输电线路进行全天候监控并利用常规深度深度学习便逐渐取代了传统的检测算法而成为目学习目标检测的方式来进行报警变得不再可行标检测领域的主流方法.近年来深度学习的发展针对以上问题，本文提出了一种基于TATLNet的为输电线路威胁报警提供了新的方案，卷积神经输电线路威胁报警方法，该方法通过红外传感器网络对于目标的几何变换、光照等因素适应性较来对过往的大型设备进行监控，当检测到大型机强，有效克服了目标外观的多样性带来的识别阻械时再唤醒系统加以分析以减少能耗.利用本文力.它可以根据输入到网络的数据而自动生成相提出的一种新的输电线路威胁检测网络TATLNet, 应的特征描述，具有较高的灵活性和普适性0-1) 并用通道剪枝的策略来对模型进行压缩)，提高目前图像中的目标检测主要分为单步检测方检测速度，使之可以在轻量级计算平台上运行.同法和两步检测方法两种.其中，单步检测方法包时，由于可以采集到的吊车、起重机等大型机械入 SSD(Single shot multibox detector),YOLO(You 侵图像较少，采用传统图像几何变换与GAN阿 only look once)和CornerNet(基于角点的目标检测 (Generative adversarial network.对抗生成网络)相神经网络)等4-1(，两步检测方法包括如R-CNN 结合的方式来对数据集进行数据增强 (Region-CNN)、Fast R-CNN、Faster R-CNN和Mask 该方法的贡献主要有以下几点： R-CNN等7-20单步检测方法直接在图像上经过计 (1)解决了如何在无人值守的情况下对入侵算生成检测结果；两步检测方法先在图像上提取输电场地的吊车等大型机械进行报警的难题；候选区域，再基于候选区域进行特征提取，然后在 (2)针对低能耗计算平台的限制以及入侵输图像中进行预测.相对来说单步检测方法速度快，电场地机械在图像中的特点，设计了一种新的端准确率略低：而两步检测方法准确率高，速度略到端输电线路威胁检测网络TATLNet; 慢.但是因为输电塔上的设备由太阳能电池供电， (3)提出了目标检测的一个新思路，即将大多摄像头无法全天开启并且难以支撑大型计算平台数计算用于提出更精确的候选区域，并针对具有的运行，因此上述传统目标检测方法在此场景下较高准确率的候选区域设计较小的分类网络并不适用.而最近新提出的YOLO-Lite、MobileNet 和ShuffleNet等轻型网络结构-2)，尽管在速度和 1相关研究体积上有了极大的提升，但因此产生的准确率损 1.1 输电线路监控失使得其难以在此场景下满足检测要求目前对输电线路威胁的监控大多通过采集监综上所述，将深度学习用于输电场景的威胁控图像，并利用图像匹配或者深度学习方法对图报警是当前的一个研究趋势.目前常规的深度学

research results are sufficient. With increase in the number of grids, the accuracy and recall first increase and then decrease, whereas, the detection efficiency decreases rapidly with increase in the number of grids. Considering the detection accuracy and reasoning speed, 9 × 9 is the optimal division strategy. With the increase in the input image resolution, the detection accuracy increases steadily and detection efficiency decreases gradually. To balance the detection accuracy and inference efficiency, 480 × 480 is selected as the final image input resolution. Experimental results and field deployment demonstrate that compared with other lightweight object detection algorithms, this method has better accuracy and efficiency in large-scale machinery invasion detection such as cranes in transmission fields, and meets the demands of practical applications. KEY WORDS deep learning；threat detection；feature sharing；transmission scene；lightweight network 输电线路的安全对国家的发展至关重要，由于吊车等大型机械运作时的高度跟输电线路的高度比较接近甚至更高，当这些设备在输电线附近进行作业时会对输电线路的安全造成威胁. 因此，设计一种能够对输电线路威胁进行自动报警的方法显得十分必要[1] . 国家电网在输电塔上配备了图像抓拍设备，但目前其供电方式为太阳能充电，能够提供的功率较小并且难以支撑监控设备的长时间运行. 因此，对输电线路进行全天候监控并利用常规深度学习目标检测的方式来进行报警变得不再可行. 针对以上问题，本文提出了一种基于 TATLNet 的输电线路威胁报警方法，该方法通过红外传感器来对过往的大型设备进行监控[2] ，当检测到大型机械时再唤醒系统加以分析以减少能耗. 利用本文提出的一种新的输电线路威胁检测网络 TATLNet，并用通道剪枝的策略来对模型进行压缩[3−5] ，提高检测速度，使之可以在轻量级计算平台上运行. 同时，由于可以采集到的吊车、起重机等大型机械入侵图像较少，采用传统图像几何变换与 GAN[6] （Generative adversarial network，对抗生成网络）相结合的方式来对数据集进行数据增强. 该方法的贡献主要有以下几点：（1）解决了如何在无人值守的情况下对入侵输电场地的吊车等大型机械进行报警的难题；（2）针对低能耗计算平台的限制以及入侵输电场地机械在图像中的特点，设计了一种新的端到端输电线路威胁检测网络 TATLNet；（3）提出了目标检测的一个新思路，即将大多数计算用于提出更精确的候选区域，并针对具有较高准确率的候选区域设计较小的分类网络. 1 相关研究 1.1 输电线路监控目前对输电线路威胁的监控大多通过采集监控图像，并利用图像匹配或者深度学习方法对图像进行分析. 文献 [7] 中，摄像头拍摄监控区域图像，通过对大型运动目标进行实时匹配，来确定运动目标与输电线路的位置和距离. 文献 [8] 中，应用红外滤片式自动切换网络摄像机，对监控区域进行 24 h 全天候监控，并将图像上传至服务器，在服务器中应用混合高斯背景建模实现对大型机械入侵的定向识别. 1.2 深度学习自从 Hinton 等[9] 在 2012 年提出深度学习的概念，深度学习便逐渐取代了传统的检测算法而成为目标检测领域的主流方法. 近年来深度学习的发展为输电线路威胁报警提供了新的方案，卷积神经网络对于目标的几何变换、光照等因素适应性较强，有效克服了目标外观的多样性带来的识别阻力. 它可以根据输入到网络的数据而自动生成相应的特征描述，具有较高的灵活性和普适性[10−13] . 目前图像中的目标检测主要分为单步检测方法和两步检测方法两种. 其中，单步检测方法包括 SSD（Single shot multibox detector）、YOLO（You only look once）和 CornerNet（基于角点的目标检测神经网络）等[14−16] ；两步检测方法包括如 R-CNN （Region-CNN）、Fast R-CNN、Faster R-CNN 和 Mask R-CNN 等[17−20] . 单步检测方法直接在图像上经过计算生成检测结果；两步检测方法先在图像上提取候选区域，再基于候选区域进行特征提取，然后在图像中进行预测. 相对来说单步检测方法速度快，准确率略低；而两步检测方法准确率高，速度略慢. 但是因为输电塔上的设备由太阳能电池供电，摄像头无法全天开启并且难以支撑大型计算平台的运行，因此上述传统目标检测方法在此场景下并不适用. 而最近新提出的 YOLO-Lite、MobileNet 和 ShuffleNet 等轻型网络结构[21−23] ，尽管在速度和体积上有了极大的提升，但因此产生的准确率损失使得其难以在此场景下满足检测要求. 综上所述，将深度学习用于输电场景的威胁报警是当前的一个研究趋势. 目前常规的深度学 · 510 · 工程科学学报，第 42 卷，第 4 期

李梅等：基于TATLNet的输电场景威胁检测 511 习方法已经取得了一定的效果，但是在检测准确数据增强方式对数据集进行扩充，包括传统的几率和效率方面仍有一定的提升空间，并且在限定何变换数据增强和GAN生成新图像的数据增强能耗的条件下也不再适用.因此，针对输电场景大方法.在用GAN对数据集进行扩充时，采用深度型机械入侵的偶然性和图像特征，需要提出一整卷积对抗生成网络(Deep convolutional generative 套新的输电场景大型机械入侵检测方法. adversarial network,DCGAN)来生成新的图像P 考虑计算机显存的限制，在训练时统一将图像在 2设计与实现 960×640像素的尺寸上进行训练，每16张图像为 2.1架构设计一个批次，训练过程中生成的图像样本如图2(a) 基于TATLNet的输电场景下的威胁报警方法所示.对于传统的图像几何变换方法，采用随机裁通过开启或者关闭红外传感器控制系统来减少运剪、水平翻转、图像倾斜、添加噪声和图像缩放的行能耗，当红外传感器探测到大型机械的运行时方式对数据集进行了扩充，图2(b)为添加椒盐噪会唤醒摄像头并加载神经网络，在对摄像头采集声的图像的视频解码后将图像传输至输电线路威胁检测 (a) (b) 网络TATLNet.TATLNet分为可疑区域生成网络 VRGNet(Vehicle regions generation network)和威胁判别网络VTCNet(Vehicle threat classification network).VRGNet提取图像中可能存在目标的区域，VTCNet实现与VRGNet的特征共享并对候选图2数据增强图像.(a)GAN生成图像：(b)椒盐噪声图像区域进行进一步的分类.检测结果通过无线传输 Fig.2 Images from data enhancement:(a)image generated from GAN; 发送至服务器，在服务器上实现对大型机械入侵 (b)image with salt and pepper noise 的报警，流程图如图1所示. 2.3 TATLNet设计针对计算平台低能耗的需求以及入侵输电 Infared sensor 场地的机械在图像中的特点，设计了一种端到端的输电线路威胁检测网络TATLNet,分别设计可疑区域生成网络VRGNet和吊车分类网络 Waking camera up VTCNet两部分，并采用模型压缩的方式来对模型进行压缩以减少非必要参数数量、缩小模型体 Video decoding 积、提高运算速度.其中，VRGNet负责输电场景 Loading model 下吊车的粗略检测，VTCNet负责对VRGNet的检测结果进行进一步判断（可以将VRGNet视为一个更为精确的RPNP),VTCNet与VRGNet共享部 TLTANet 分卷积层以减少检测的计算量，TATLNet结构图 VRGNet VTCNet 如图3所示 2.3.1 VRGNet结构设计 VRGNet借鉴了YOLO边框回归计算的思想， Detection result 并对其主体网络做了一定的精简以尽可能缩小模型的体积，网络结构如图4所示，其中Conv为卷积层(Convolutional layer),同时包含一个最大池化 Control server 层(Max pooling layer)和relu激活层(Rectified linear 图1系统流程图 unit layer),Fc为全连接层(Fully connection layer) Fig.I System flow chart 首先将输入图像缩放至统一尺寸后在图像中划分出多个网格，如果目标中心点落在某个网格中，则 2.2数据增强该网格就负责对该目标的检测.由于大型机械在由于可以获得的数据集样本较少，采用多种运作时不会十分密集，并且该网络的主要任务为

习方法已经取得了一定的效果，但是在检测准确率和效率方面仍有一定的提升空间，并且在限定能耗的条件下也不再适用. 因此，针对输电场景大型机械入侵的偶然性和图像特征，需要提出一整套新的输电场景大型机械入侵检测方法. 2 设计与实现 2.1 架构设计基于 TATLNet 的输电场景下的威胁报警方法通过开启或者关闭红外传感器控制系统来减少运行能耗，当红外传感器探测到大型机械的运行时会唤醒摄像头并加载神经网络，在对摄像头采集的视频解码后将图像传输至输电线路威胁检测网络 TATLNet. TATLNet 分为可疑区域生成网络 VRGNet（Vehicle regions generation network）和威胁判别网络 VTCNet（ Vehicle threat classification network）. VRGNet 提取图像中可能存在目标的区域，VTCNet 实现与 VRGNet 的特征共享并对候选区域进行进一步的分类. 检测结果通过无线传输发送至服务器，在服务器上实现对大型机械入侵的报警，流程图如图 1 所示. 2.2 数据增强由于可以获得的数据集样本较少，采用多种数据增强方式对数据集进行扩充，包括传统的几何变换数据增强和 GAN 生成新图像的数据增强方法. 在用 GAN 对数据集进行扩充时，采用深度卷积对抗生成网络（ Deep convolutional generative adversarial network， DCGAN）来生成新的图像 [24] . 考虑计算机显存的限制，在训练时统一将图像在 960×640 像素的尺寸上进行训练，每 16 张图像为一个批次，训练过程中生成的图像样本如图 2（a）所示. 对于传统的图像几何变换方法，采用随机裁剪、水平翻转、图像倾斜、添加噪声和图像缩放的方式对数据集进行了扩充，图 2（b）为添加椒盐噪声的图像. 2.3 TATLNet 设计针对计算平台低能耗的需求以及入侵输电场地的机械在图像中的特点，设计了一种端到端的输电线路威胁检测网络 TATLNet，分别设计可疑区域生成网络 VRGNet 和吊车分类网络 VTCNet 两部分，并采用模型压缩的方式来对模型进行压缩以减少非必要参数数量、缩小模型体积、提高运算速度. 其中，VRGNet 负责输电场景下吊车的粗略检测，VTCNet 负责对 VRGNet 的检测结果进行进一步判断（可以将 VRGNet 视为一个更为精确的 RPN[25] ），VTCNet 与 VRGNet 共享部分卷积层以减少检测的计算量，TATLNet 结构图如图 3 所示. 2.3.1 VRGNet 结构设计 VRGNet 借鉴了 YOLO 边框回归计算的思想，并对其主体网络做了一定的精简以尽可能缩小模型的体积，网络结构如图 4 所示，其中 Conv 为卷积层（Convolutional layer），同时包含一个最大池化层（Max pooling layer）和 relu 激活层（Rectified linear unit layer），Fc 为全连接层（Fully connection layer）. 首先将输入图像缩放至统一尺寸后在图像中划分出多个网格，如果目标中心点落在某个网格中，则该网格就负责对该目标的检测. 由于大型机械在运作时不会十分密集，并且该网络的主要任务为 Infared sensor Waking camera up Loading model Video decoding Detection result Control server TLTANet VRGNet VTCNet 图 1 系统流程图 Fig.1 System flow chart (a) (b) 图 2 数据增强图像. （a） GAN 生成图像；（b）椒盐噪声图像 Fig.2 Images from data enhancement: (a)image generated from GAN; (b) image with salt and pepper noise 李梅等：基于 TATLNet 的输电场景威胁检测 · 511 ·

512 工程科学学报，第42卷，第4期 Input image Confidence Feature Feature Input imag哭 extraction sharing layer Regression Input image Coordinates Rol pooling Detection result 图3 TATLNet结构图 Fig.3 Structure of TATLNet 384 384 96 48 24 192 256 1024 1024 024 Conv Conv Conv Conv Conv Conv 图4 VRGNet结构图 Fig.4 Structure of VRGNet 检测大型机械是否存在，对目标的个数没有很高 Coordinates 的要求，因此每个网格只预测至多一个目标出现的坐标和概率.由于需要检测的目标只有吊车这 Rol 一类，所以VRGNet并不需要单独的分类器，因而舍弃了目标类别预测的分支，采用置信度来衡量 Uniform size Conv Conv Fc Rol feature map map 边框中存在目标的概率.根据对数据集中吊车尺图5 VTCNet结构图寸的统计，可以发现图像中目标的尺寸大小没有 Fig.5 Structure of VTCNet 大的波动，因此舍弃了特征金字塔结构来减小计算量.经过实验，将图像划分为9×9的网格时模 2.3.3损失函数设计型准确率最高由于TATLNet只需要检测一类目标而不用进 2.3.2 VTCNet结构设计行多类别分类，所以最终的分类损失函数只需要对于由VRGNet经过回归计算得到的可疑区判断单类别的置信度，目标置信度Lcr采用交叉域坐标，将其映射到VRGNet得到的特征图上.由嫡损失函数，具体如公式(1)所示 s2 此VTCNet与VRGNet实现了部分特征共享，所以 Lconf cnc;+1-c)n1-C】 (1) VTCNet对候选区域图像的判别不必从原图开始 i=0 对候选区域进行特征提取，因此VTCNet层数不必其中，S2表示网格单元的总数，C,表示第i个网格太多，由此可以大幅度减少由图像特征提取带来目标检测器所产生的预测结果的置信度，C,表示的计算量.如图5所示，VTCNet根据区域坐标在预测目标框与真实目标之间的交并比.目标坐标特征图上得到候选区域，通过RolPooling以及双线的损失函数Lioe如公式(2)所示，其中pro代表所性插值将候选区域缩放至统一尺寸，经过两个卷有目标，(x,》表示第i个网格所产生的预测结果积层后通过一个全连接层生成固定长度的特征向的中心点坐标，(xny)为真实的中心点坐标.相应量，该向量通过Softmax算法实现对候选区域的地，(wh,)和(w,h)分别代表预测目标和真实目判别. 标的宽、高

检测大型机械是否存在，对目标的个数没有很高的要求，因此每个网格只预测至多一个目标出现的坐标和概率. 由于需要检测的目标只有吊车这一类，所以 VRGNet 并不需要单独的分类器，因而舍弃了目标类别预测的分支，采用置信度来衡量边框中存在目标的概率. 根据对数据集中吊车尺寸的统计，可以发现图像中目标的尺寸大小没有大的波动，因此舍弃了特征金字塔结构[14] 来减小计算量. 经过实验，将图像划分为 9×9 的网格时模型准确率最高. 2.3.2 VTCNet 结构设计对于由 VRGNet 经过回归计算得到的可疑区域坐标，将其映射到 VRGNet 得到的特征图上. 由此 VTCNet 与 VRGNet 实现了部分特征共享，所以 VTCNet 对候选区域图像的判别不必从原图开始对候选区域进行特征提取，因此 VTCNet 层数不必太多，由此可以大幅度减少由图像特征提取带来的计算量. 如图 5 所示，VTCNet 根据区域坐标在特征图上得到候选区域，通过 RoIPooling 以及双线性插值将候选区域缩放至统一尺寸，经过两个卷积层后通过一个全连接层生成固定长度的特征向量，该向量通过 Softmax 算法实现对候选区域的判别. 2.3.3 损失函数设计由于 TATLNet 只需要检测一类目标而不用进行多类别分类，所以最终的分类损失函数只需要判断单类别的置信度，目标置信度 Lconf 采用交叉熵损失函数，具体如公式（1）所示. Lconf = S ∑2 i=0 [ Ci lnC ∗ i +(1−Ci)ln( 1−C ∗ i )] （1）其中，S 2 表示网格单元的总数，Ci 表示第 i 个网格目标检测器所产生的预测结果的置信度，C * i 表示预测目标框与真实目标之间的交并比. 目标坐标的损失函数 Lloc 如公式（2）所示，其中 pro 代表所有目标，(xi , yi ) 表示第 i 个网格所产生的预测结果的中心点坐标，(x * i , y * i ) 为真实的中心点坐标. 相应地，(wi , hi ) 和 (w * i , h * i ) 分别代表预测目标和真实目标的宽、高. Feature extraction Feature sharing layer Regression Confidence Detection result RoI pooling Input image Coordinates Input image Input image 图 3 TATLNet 结构图 Fig.3 Structure of TATLNet 1 024 6 12 512 24 24 256 48 48 192 96 96 3 384 384 1 024 12 6 Conv Fc Fc 6 6 6 6 1 024 4 096 10 Conv Conv Conv Conv Conv 图 4 VRGNet 结构图 Fig.4 Structure of VRGNet Softmax Coordinates Feature map RoI Uniform size RoI feature map Conv Conv Fc 图 5 VTCNet 结构图 Fig.5 Structure of VTCNet · 512 · 工程科学学报，第 42 卷，第 4 期