第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201909005 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20191012.1008.002.html 仿猛禽视顶盖信息中转整合的加油目标跟踪 李晗,段海滨,李淑宇2,丁希仑3 (1.北京航空航天大学自动化科学与电气工程学院,北京100083,2.北京航空航天大学生物与医学工程学院, 北京100083:3.北京航空航天大学机械工程及自动化学院,北京100083) 摘要:无人机自主空中加油是当前作战模式下非常重要的军事能力之一。空中加油对接阶段的视觉辅助导 引是对接阶段导航的研究重点,而加油目标跟踪则是其中的重要一环。本文通过对猛禽优异的视觉系统与视 觉导航能力的研究,发现其视觉通路中视顶盖的信息中转整合能力对于解决跟踪问题具有一定指导作用。通 过对这一信息处理模式的模拟,研究了一种仿猛禽交叉通路的神经网络,并针对空中加油视觉任务中可能出现 的目标丢失与再入问题,引入猛禽双中央凹扩大搜索策略,设计了一种完整的模拟猛禽视顶盖信息中转整合的 目标跟踪网络。仿真实验验证了所提方法的可行性和有效性。 关键词:自主空中加油;猛禽视觉;视顶盖:双凹结构;目标跟踪:神经网络 中图分类号:V249.32文献标志码:A文章编号:1673-4785(2019)06-1084-08 中文引用格式:李晗,段海滨,李淑宇,等.仿猛禽视顶盖信息中转整合的加油目标跟踪小.智能系统学报,2019,14(6): 1084-1091. 英文引用格式:LI Han,DUAN Haibin,LI Shuyu,etal.Aerial refueling target tracking using a falcon visual tectum information in- tegrating like method[Jl.CAAI transactions on intelligent systems,2019,14(6):1084-1091. Aerial refueling target tracking using a falcon visual tectum information integrating like method LI Han',DUAN Haibin',LI Shuyu',DING Xilun' (1.School of Automation Science and Electrical Engineering,Beihang University,Beijing 100083,China;2.School of Biological Science and Medical Engineering,Beihang University,Beijing 100083,China;3.School of Mechanical Engineering and Automation, Beihang University,Beijing 100083,China) Abstract:Autonomous aerial refueling is one of the most important military capabilities under current combat situation In docking phase navigation,visual-aid guidance during the docking phase is a main research focus,of which the track- ing of refueling target is an important part and challenge.During researching on the excellent visual system and visual navigation ability of falcon,it was found that the information transfer and integration ability of the visual tectum could help to solve the tracking problem.By simulating information processing mode,constructing a neural network with cross-pathway,and introducing the target out of view and reentry problem that may occur in the aerial refueling visual task,the raptor bifovea based searching strategy is introduced to construct a complete tracking method.Simulation and experiments are done to verify the feasibility and effectiveness of the proposed method. Keywords:autonomous aerial refueling;falcon visual system;tectum;bifovea;target tracking;neural net work 软式自主空中加油对接阶段的任务包括加/ 受油机到达指定加油区域后,从较远距离的双机 收稿日期:2019-08-25.网络出版日期:2019-10-12 编队到双机逐渐接近直至受油插头插入锥套的全 基金项目:国家自然科学基金项目(91648205):航空科学基金 过程。在这一过程中基于计算机视觉的导引系统 项目(20185851022) 通信作者:段海滨.E-mail:hbduan@buaa.edu.cn 需要准确识别锥套,然后对其进行精细地特征提
DOI: 10.11992/tis.201909005 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20191012.1008.002.html 仿猛禽视顶盖信息中转整合的加油目标跟踪 李晗1,段海滨1,李淑宇2,丁希仑3 (1. 北京航空航天大学 自动化科学与电气工程学院,北京 100083; 2. 北京航空航天大学 生物与医学工程学院, 北京 100083; 3. 北京航空航天大学 机械工程及自动化学院,北京 100083) 摘 要:无人机自主空中加油是当前作战模式下非常重要的军事能力之一。空中加油对接阶段的视觉辅助导 引是对接阶段导航的研究重点,而加油目标跟踪则是其中的重要一环。本文通过对猛禽优异的视觉系统与视 觉导航能力的研究,发现其视觉通路中视顶盖的信息中转整合能力对于解决跟踪问题具有一定指导作用。通 过对这一信息处理模式的模拟,研究了一种仿猛禽交叉通路的神经网络,并针对空中加油视觉任务中可能出现 的目标丢失与再入问题,引入猛禽双中央凹扩大搜索策略,设计了一种完整的模拟猛禽视顶盖信息中转整合的 目标跟踪网络。仿真实验验证了所提方法的可行性和有效性。 关键词:自主空中加油;猛禽视觉;视顶盖;双凹结构;目标跟踪;神经网络 中图分类号:V249.32 文献标志码:A 文章编号:1673−4785(2019)06−1084−08 中文引用格式:李晗, 段海滨, 李淑宇, 等. 仿猛禽视顶盖信息中转整合的加油目标跟踪 [J]. 智能系统学报, 2019, 14(6): 1084–1091. 英文引用格式:LI Han, DUAN Haibin, LI Shuyu, et al. Aerial refueling target tracking using a falcon visual tectum information integrating like method[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1084–1091. Aerial refueling target tracking using a falcon visual tectum information integrating like method LI Han1 ,DUAN Haibin1 ,LI Shuyu2 ,DING Xilun3 (1. School of Automation Science and Electrical Engineering, Beihang University, Beijing 100083, China; 2. School of Biological Science and Medical Engineering, Beihang University, Beijing 100083, China; 3. School of Mechanical Engineering and Automation, Beihang University, Beijing 100083, China) Abstract: Autonomous aerial refueling is one of the most important military capabilities under current combat situation In docking phase navigation, visual-aid guidance during the docking phase is a main research focus, of which the tracking of refueling target is an important part and challenge. During researching on the excellent visual system and visual navigation ability of falcon, it was found that the information transfer and integration ability of the visual tectum could help to solve the tracking problem. By simulating information processing mode, constructing a neural network with cross-pathway, and introducing the target out of view and reentry problem that may occur in the aerial refueling visual task, the raptor bifovea based searching strategy is introduced to construct a complete tracking method. Simulation and experiments are done to verify the feasibility and effectiveness of the proposed method. Keywords: autonomous aerial refueling; falcon visual system; tectum; bifovea; target tracking; neural net work 软式自主空中加油对接阶段的任务包括加/ 受油机到达指定加油区域后,从较远距离的双机 编队到双机逐渐接近直至受油插头插入锥套的全 过程。在这一过程中基于计算机视觉的导引系统 需要准确识别锥套,然后对其进行精细地特征提 收稿日期:2019−08−25. 网络出版日期:2019−10−12. 基金项目:国家自然科学基金项目 (91648205);航空科学基金 项目 (20185851022) 通信作者:段海滨. E-mail:hbduan@buaa.edu.cn. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1085· 取,接着完成位姿估计等任务,从而指导飞行控 制系统和加油对接系统完成精准对接。这一阶段 视觉导航任务重要的一环就是对锥套目标的跟 踪,稳定的目标跟踪是视觉导引加/受油机进行编 正中参考线 队的必要条件,也是后续准确目标识别与精确位 深凹视线角度 姿测量的重要支撑。通过目标跟踪算法在图像中 圈选出目标识别与视觉测量的感兴趣区域,可以 大幅度减少这些视觉任务的计算量,提高计算速 度,从而满足空中编队与加油中计算机视觉实时 处理的需求。 颗侧浅凹 目标跟踪作为计算机视觉领域的经典问题, 一直以来饱受关注川,主要解决方法包括经典的 图1猛禽视网膜中央凹与视线角度示意图 目标跟踪算法,如光流法、粒子滤波等,基于相关 Fig.1 Bifovea structure and line of sight of falcon 滤波的方法,如核相关滤波器(kernel correlation 配合这样特别的双凹结构,猛禽脑内存在着 filter,.KCF)和基于学习的跟踪算法如高效卷积算 复杂的视觉信息处理通路。离顶盖通路是以视网 子跟踪(efficient convolution operators,ECO)及深 膜-视顶盖-圆核-外纹体为主要核团的视觉通 度学习跟踪(deep learning tracker,.DLT)等。但当 路,离丘脑通路是以视网膜-背外侧膝状体-视丘 目标发生姿态、明暗和尺度变化时,现有的许多 为主要核团的视觉通路。这两条通路将视网膜获 跟踪算法会出现目标漂移甚至跟踪失败等情况。 取信息以交叉的方式传递至脑内核团,处理得到 猛禽涵盖了鸟类传统分类系统中隼形目如老鹰、 目标特征的编码信息,并逐步整合传输至大脑同 秃管和鸮形目如猫头鹰的所有种,这一类的鸟多 侧的高级核团,实现视觉信息提取。此外,有研 具有捕杀动物为食的习性,视觉器官发达,飞翔 究结果显示脑内核团间也存在向对侧大脑传递信 能力强。猛禽能够稳定跟踪空中、地面以及水中 息的神经通路,并且在离丘脑通路与离顶盖通路 快速运动的猎物,除了依赖优秀的飞行能力,其 之间也存在特征信息的传递。在这样复杂的信息 视觉系统对目标的准确追踪功不可没。现有的 交互传递的过程中,视顶盖承担了信息传递中转 模拟猛禽视觉系统的硬件装置)与方法也已经 站的任务,以视顶盖为中心,总结离顶盖和离丘 有所成就,但仍存在很多可以进一步研究的方向 脑通路中与其相关的神经通路如图2所示,视觉 和内容。猛禽视觉通路中的视顶盖是其视觉信息 信息从视网膜输入,经由对侧视顶盖处理后向同 处理过程中的重要核团,不仅处理对侧视网膜输 侧和对侧圆核传递,视顶盖同时接收视丘输入的信息。 入的信息,还整合脑内同侧与对侧的圆核与视丘 传递的目标特征信息,这种双侧信息并行处理的 视网膜 视网膜 方式更适合于猛禽视网膜的双中央凹结构,并且 对于目标跟踪过程也具有一定的指导意义。本 文针对自主空中加油对接阶段目标跟踪的需求, 视顶盖 视顶盖 模拟猛禽脑内同侧与对侧信息在视顶盖整合处理 的机制,建立目标跟踪算法,并进行仿真试验与 视丘 视丘 对比分析。 1猛禽视顶盖的信息整合与交互处理 猛禽中隼形目视网膜的鼻侧和颢侧存在两个 圆核 圆核 中央凹,鼻侧凹较深,题侧凹较浅,是其视觉特性 图2视顶盖中心神经通路 尤为出色的重要因素,如图1所示6。由于两个 Fig.2 Tectum centered neural pathway 中央凹的观察方向不同,所以隼形目的视野范围 从图2可见,以视顶盖为中心的神经通路主 非常大,在水平方向上的视野(除盲区以外的区 要包括离顶盖通路的一部分(图中不包括与视顶 域)可以达到260°,在垂直方向上也能够达到80°。 盖无直接信息传递的外纹体)和离丘脑通路中的
取,接着完成位姿估计等任务,从而指导飞行控 制系统和加油对接系统完成精准对接。这一阶段 视觉导航任务重要的一环就是对锥套目标的跟 踪,稳定的目标跟踪是视觉导引加/受油机进行编 队的必要条件,也是后续准确目标识别与精确位 姿测量的重要支撑。通过目标跟踪算法在图像中 圈选出目标识别与视觉测量的感兴趣区域,可以 大幅度减少这些视觉任务的计算量,提高计算速 度,从而满足空中编队与加油中计算机视觉实时 处理的需求。 目标跟踪作为计算机视觉领域的经典问题, 一直以来饱受关注[1] ,主要解决方法包括经典的 目标跟踪算法,如光流法、粒子滤波等,基于相关 滤波的方法,如核相关滤波器 (kernel correlation filter,KCF) 和基于学习的跟踪算法如高效卷积算 子跟踪 (efficient convolution operators, ECO) 及深 度学习跟踪 (deep learning tracker, DLT) 等。但当 目标发生姿态、明暗和尺度变化时,现有的许多 跟踪算法会出现目标漂移甚至跟踪失败等情况。 猛禽涵盖了鸟类传统分类系统中隼形目如老鹰、 秃鹫和鸮形目如猫头鹰的所有种,这一类的鸟多 具有捕杀动物为食的习性,视觉器官发达,飞翔 能力强。猛禽能够稳定跟踪空中、地面以及水中 快速运动的猎物,除了依赖优秀的飞行能力,其 视觉系统对目标的准确追踪功不可没[2]。现有的 模拟猛禽视觉系统的硬件装置[3] 与方法[4] 也已经 有所成就,但仍存在很多可以进一步研究的方向 和内容。猛禽视觉通路中的视顶盖是其视觉信息 处理过程中的重要核团,不仅处理对侧视网膜输 入的信息,还整合脑内同侧与对侧的圆核与视丘 传递的目标特征信息,这种双侧信息并行处理的 方式更适合于猛禽视网膜的双中央凹结构,并且 对于目标跟踪过程也具有一定的指导意义[5]。本 文针对自主空中加油对接阶段目标跟踪的需求, 模拟猛禽脑内同侧与对侧信息在视顶盖整合处理 的机制,建立目标跟踪算法,并进行仿真试验与 对比分析。 1 猛禽视顶盖的信息整合与交互处理 猛禽中隼形目视网膜的鼻侧和颞侧存在两个 中央凹,鼻侧凹较深,颞侧凹较浅,是其视觉特性 尤为出色的重要因素,如图 1 所示[6]。由于两个 中央凹的观察方向不同,所以隼形目的视野范围 非常大,在水平方向上的视野 (除盲区以外的区 域) 可以达到 260°,在垂直方向上也能够达到 80°。 正中参考线 深凹视线角度 颞侧浅凹 图 1 猛禽视网膜中央凹与视线角度示意图 Fig. 1 Bifovea structure and line of sight of falcon 配合这样特别的双凹结构,猛禽脑内存在着 复杂的视觉信息处理通路。离顶盖通路是以视网 膜−视顶盖−圆核−外纹体为主要核团的视觉通 路,离丘脑通路是以视网膜−背外侧膝状体−视丘 为主要核团的视觉通路。这两条通路将视网膜获 取信息以交叉的方式传递至脑内核团,处理得到 目标特征的编码信息,并逐步整合传输至大脑同 侧的高级核团,实现视觉信息提取。此外,有研 究结果显示脑内核团间也存在向对侧大脑传递信 息的神经通路,并且在离丘脑通路与离顶盖通路 之间也存在特征信息的传递。在这样复杂的信息 交互传递的过程中,视顶盖承担了信息传递中转 站的任务,以视顶盖为中心,总结离顶盖和离丘 脑通路中与其相关的神经通路如图 2 所示,视觉 信息从视网膜输入,经由对侧视顶盖处理后向同 侧和对侧圆核传递,视顶盖同时接收视丘输入的信息。 视顶盖 视顶盖 视网膜 视网膜 圆核 圆核 视丘 视丘 图 2 视顶盖中心神经通路 Fig. 2 Tectum centered neural pathway 从图 2 可见,以视顶盖为中心的神经通路主 要包括离顶盖通路的一部分 (图中不包括与视顶 盖无直接信息传递的外纹体) 和离丘脑通路中的 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1085·
·1086· 智能系统学报 第14卷 视丘。研究认为离顶盖通路主要检测获得目标的 传递整合机制,加入不同特征层之间的融合操作 形状、颜色、亮度和空间细节等信息,完成视觉系 (Concat),整合低级形状纹理特征的同时,提取出 统的“模式识别”功能:视丘作为离丘脑通路的中 两者的高级抽象特征:最终在待跟踪图片特征图 枢环节,主要获取目标的运动朝向、背景情况和 上使用目标模板的特征图进行卷积得到卷积响应 视觉定位等信息。由于视丘和视顶盖之间存在 图。响应最大的区域即为目标的跟踪结果,根据 信息传递,认为视顶盖处理的目标运动信息极有 特征图和原图的比例关系,进行等比例放缩完成 可能来源于视丘。猛禽脑内核团中的圆核与哺乳 目标跟踪的任务。整个网络的框架如图3所示。 的丘脑枕后外侧核同源,而丘脑在哺乳动物中的 单通路信息输入 一个任务就是实现前景与背景的分辨。那么以视 顶盖为中心的部分视觉信息脑处理通路的任务可 以总结为:视觉信息经由视网膜输入后,传递向 对侧视顶盖,提取出目标的部分特征后,传递至 单侧信息整合 视丘;视丘接收到离丘脑通路处理得到目标的方 的特征提取 向位置等运动信息,结合从视顶盖收到的特征反 向回传至视顶盖:对侧的视顶盖之间通过顶盖上 联合和顶盖下联合两个半脑间连接,实现信息在 左右半脑之间的传递;视顶盖整合所有浅层特征 与信息后,传递至圆核,由圆核进一步进行目标 视顶盖双侧信息整合 的几何形状、亮度、颜色和精细空间结构的特征 辨识处理。 卷积生成 响应图 这一部分视觉信息传递过程中的一个重要特 点与作用是打破了视觉信息传递过程中交叉传递 的壁垒,实现了双侧脑之间的信息融合,包括双 侧视顶盖之间的信息传递、视丘向同侧视顶盖的 信息传递、视顶盖向对侧视丘的信息传递以及视 顶盖向同侧和对侧圆核的信息传递。经过这种传 递机制,实现了双眼获取视觉信息在对侧半脑处 理后的整合调制。 图3目标跟踪总体框架 Fig.3 Framework of the target tracking method 2仿猛禽交叉通路的神经网络 图3中输入部分的左图为锥套目标模板图 2.1网络的基本结构 像,右图为待跟踪图像,在跟踪算法中以第一帧 目标跟踪的任务是在已知视频序列第一帧中 的目标位置和图像作为标准,两幅图像都经过模 目标位置与尺寸的情况下,预测后续视频序列中 拟猛禽单侧特征提取网络提取特征,主要包括卷 这一目标的大小和位置。通常人为框选初始目 积神经网络常用的卷积层、池化层以及非线性激 标,由跟踪算法在下一帧中计算出多个候选框, 活函数,进而得到两者的特征图。以模板图像的 然后提取候选框内的图像特征,并基于特征对这 特征图作为卷积核,对待跟踪图像的特征图进行 些候选框进行评分,最后选择一个得分最高的候 卷积操作,得到的卷积响应图,即为待跟踪图像 选框作为预测的目标,或者融合多个预测值从而 中各个位置与目标模板的相似度值,卷积响应图 得到更优的预测结果。本文根据视顶盖信息整合 中较亮的部分即为目标跟踪的响应最大位置也即 与交互的特征处理系统,设计了一种模拟交叉通 跟踪结果。 路的神经网络,跳出双通路信息依赖双目视觉分 总体来说,仿猛禽交叉通路卷积网络提取整 别获取的思维框架,将单镜头获取的图像分为两 个待跟踪图像和模板图像的特征,直接卷积计算 路进行处理。首先输入目标模板图像和待跟踪的 两特征图的相似度找到目标位置,相较于传统网 图像,作为交叉通路的两路信息,模拟猛禽视顶 络方法通过遍历的方式生成候选框后对每个候选 盖与视丘的神经网络特征提取层,对两幅图像进 框提取特征再进行比对的方法,减少了计算量, 行特征提取;然后模拟视丘-视顶盖-圆核的特征 节省了计算时间
视丘。研究认为离顶盖通路主要检测获得目标的 形状、颜色、亮度和空间细节等信息,完成视觉系 统的“模式识别”功能;视丘作为离丘脑通路的中 枢环节,主要获取目标的运动朝向、背景情况和 视觉定位等信息[7]。由于视丘和视顶盖之间存在 信息传递,认为视顶盖处理的目标运动信息极有 可能来源于视丘。猛禽脑内核团中的圆核与哺乳 的丘脑枕后外侧核同源,而丘脑在哺乳动物中的 一个任务就是实现前景与背景的分辨。那么以视 顶盖为中心的部分视觉信息脑处理通路的任务可 以总结为:视觉信息经由视网膜输入后,传递向 对侧视顶盖,提取出目标的部分特征后,传递至 视丘;视丘接收到离丘脑通路处理得到目标的方 向位置等运动信息,结合从视顶盖收到的特征反 向回传至视顶盖;对侧的视顶盖之间通过顶盖上 联合和顶盖下联合两个半脑间连接,实现信息在 左右半脑之间的传递;视顶盖整合所有浅层特征 与信息后,传递至圆核,由圆核进一步进行目标 的几何形状、亮度、颜色和精细空间结构的特征 辨识处理[8]。 这一部分视觉信息传递过程中的一个重要特 点与作用是打破了视觉信息传递过程中交叉传递 的壁垒,实现了双侧脑之间的信息融合,包括双 侧视顶盖之间的信息传递、视丘向同侧视顶盖的 信息传递、视顶盖向对侧视丘的信息传递以及视 顶盖向同侧和对侧圆核的信息传递。经过这种传 递机制,实现了双眼获取视觉信息在对侧半脑处 理后的整合调制。 2 仿猛禽交叉通路的神经网络 2.1 网络的基本结构 目标跟踪的任务是在已知视频序列第一帧中 目标位置与尺寸的情况下,预测后续视频序列中 这一目标的大小和位置。通常人为框选初始目 标,由跟踪算法在下一帧中计算出多个候选框, 然后提取候选框内的图像特征,并基于特征对这 些候选框进行评分,最后选择一个得分最高的候 选框作为预测的目标,或者融合多个预测值从而 得到更优的预测结果。本文根据视顶盖信息整合 与交互的特征处理系统,设计了一种模拟交叉通 路的神经网络,跳出双通路信息依赖双目视觉分 别获取的思维框架,将单镜头获取的图像分为两 路进行处理。首先输入目标模板图像和待跟踪的 图像,作为交叉通路的两路信息,模拟猛禽视顶 盖与视丘的神经网络特征提取层,对两幅图像进 行特征提取;然后模拟视丘−视顶盖−圆核的特征 传递整合机制,加入不同特征层之间的融合操作 (Concat),整合低级形状纹理特征的同时,提取出 两者的高级抽象特征;最终在待跟踪图片特征图 上使用目标模板的特征图进行卷积得到卷积响应 图。响应最大的区域即为目标的跟踪结果,根据 特征图和原图的比例关系,进行等比例放缩完成 目标跟踪的任务。整个网络的框架如图 3 所示。 单侧信息整合 的特征提取 卷积生成 响应图 单通路信息输入 视顶盖双侧信息整合 图 3 目标跟踪总体框架 Fig. 3 Framework of the target tracking method 图 3 中输入部分的左图为锥套目标模板图 像,右图为待跟踪图像,在跟踪算法中以第一帧 的目标位置和图像作为标准,两幅图像都经过模 拟猛禽单侧特征提取网络提取特征,主要包括卷 积神经网络常用的卷积层、池化层以及非线性激 活函数,进而得到两者的特征图。以模板图像的 特征图作为卷积核,对待跟踪图像的特征图进行 卷积操作,得到的卷积响应图,即为待跟踪图像 中各个位置与目标模板的相似度值,卷积响应图 中较亮的部分即为目标跟踪的响应最大位置也即 跟踪结果。 总体来说,仿猛禽交叉通路卷积网络提取整 个待跟踪图像和模板图像的特征,直接卷积计算 两特征图的相似度找到目标位置,相较于传统网 络方法通过遍历的方式生成候选框后对每个候选 框提取特征再进行比对的方法,减少了计算量, 节省了计算时间。 ·1086· 智 能 系 统 学 报 第 14 卷
第6期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1087· 目标模板图像和待跟踪图像共用同一特征提 尺寸也不同,具体的卷积层、池化层的参数设置 取网络,由于二者图像尺寸差异,各自的特征图 如表1所示。 表1网络参数设置 Table 1 Parameters of the network 卷积池化层 卷积核尺寸 步长 填充像素 模板图尺寸 跟踪图尺寸 通道数 输入图像 137×137 265×265 Conv1 11×11 2 0 64×64 128×128 64 Pool 2×2 2 0 32×32 64×64 128 Conv2 5x5 1 0 28×28 60×60 128 Pool2 2×2 2 0 14×14 30×30 128 Conv3 3×3 1 14×14 30×30 128 Pools 2×2 2 0 7×7 15x15 128 Conva 3×3 7×7 15×15 128 Convs 3x3 0 5x5 13×13 384 在较低层的特征图中,卷积核的尺寸采用了 2×2的尺寸并且步长为2。在Concat操作中,由 11×11和5×5的卷积大小,这样可以在低层特征 于要对不同特征图统一尺寸进行整合,因此需要 图中取得较大的感受野,保留更多的低级特征, 对较大的特征图进行下采样以获得一致的尺寸, 后面的卷积核采用3×3的常规卷积核大小。池 主要涉及到的特征图为第2、3和4层的特征图, 化层根据需要对特征图降采样的特性,都采用了 具体参数如表2所示。 表2 Concat层参数 Table 2 Table 1 Parameters of the Concat layer Concat层 卷积池化层 卷积核尺寸 步长 模板图尺寸 跟踪图尺寸 通道数 Convz-Conv4 1×1 1 28 60 128 Conv2-Conv4 Poolz-Poola 4×4 > 15 128 ConvConv4 1×1 14 30 128 Conv3Conv4 Pool~Poola 2×2 7 15 128 Concat2-3-4 - > 15 384 Conv2~Conv4指从第2层特征图整合到第 (y,)log(1+exp(-y*v)) (1) 4层特征图之前需要进行卷积以及下采样,同样 式中:v是卷积响应图中每个点真实值;y∈(+1,-1 的,Conv:~Conv,指从第3层特征图整合到第4层 是这个点所对应的标签。式(1)描述的是卷积响 特征图,两者的下采样均采用了1×1卷积核以及 应图中每个点的loss值,卷积响应图的整体loss, 相对应大小的池化层来完成。 使用全部点loss的均值描述,即: 2.2双通路神经网络参数训练与优化 L0y,)= 2.2.1损失函数 之ot (2) 其中u∈D代表卷积响应图中对应点的位置。 在神经网络的训练过程中,通过最小化损失 2.2.2卷积响应相关度函数 函数并不断缩小误差才能获取最优模型。本文算 提取到目标模板和待跟踪图像的特征后,由 法为了构造有效的损失函数,对搜索区域内的位 卷积响应的相关度计算相似度,其中相似度函数 置点进行了正负样本的区分,即认为目标一定范 选用交叉相关函数,如下所示: 围内的点是正样本,认为这一范围外的点是负样 f(3,)=()*p()+lbl1 (3) 本,损失函数为逻辑回归损失,具体的损失函数 式中:z代表输入模板图像;x代表输入待跟踪图 形式如下,最终的卷积响应图中每个点的损失为 像;p是提取特征的网络。将()作为卷积核,在
目标模板图像和待跟踪图像共用同一特征提 取网络,由于二者图像尺寸差异,各自的特征图 尺寸也不同,具体的卷积层、池化层的参数设置 如表 1 所示。 表 1 网络参数设置 Table 1 Parameters of the network 卷积/池化层 卷积核尺寸 步长 填充像素 模板图尺寸 跟踪图尺寸 通道数 输入图像 − − − 137×137 265×265 3 Conv1 11×11 2 0 64×64 128×128 64 Pool1 2×2 2 0 32×32 64×64 128 Conv2 5×5 1 0 28×28 60×60 128 Pool2 2×2 2 0 14×14 30×30 128 Conv3 3×3 1 2 14×14 30×30 128 Pool3 2×2 2 0 7×7 15×15 128 Conv4 3×3 1 2 7×7 15×15 128 Conv5 3×3 1 0 5×5 13×13 384 11×11 5×5 3×3 在较低层的特征图中,卷积核的尺寸采用了 和 的卷积大小,这样可以在低层特征 图中取得较大的感受野,保留更多的低级特征, 后面的卷积核采用 的常规卷积核大小。池 化层根据需要对特征图降采样的特性,都采用了 2×2 的尺寸并且步长为 2。在 Concat 操作中,由 于要对不同特征图统一尺寸进行整合,因此需要 对较大的特征图进行下采样以获得一致的尺寸, 主要涉及到的特征图为第 2、3 和 4 层的特征图, 具体参数如表 2 所示。 表 2 Concat 层参数 Table 2 Table 1 Parameters of the Concat layer Concat层 卷积/池化层 卷积核尺寸 步长 模板图尺寸 跟踪图尺寸 通道数 Conv2~Conv4 Conv2~Conv4 1×1 1 28 60 128 Pool2~Pool4 4×4 4 7 15 128 Conv3~Conv4 Conv3~Conv4 1×1 1 14 30 128 Pool3~Pool4 2×2 2 7 15 128 Concat2-3-4 − − − 7 15 384 1×1 Conv2~Conv4 指从第 2 层特征图整合到第 4 层特征图之前需要进行卷积以及下采样,同样 的,Conv3~Conv4 指从第 3 层特征图整合到第 4 层 特征图,两者的下采样均采用了 卷积核以及 相对应大小的池化层来完成。 2.2 双通路神经网络参数训练与优化 2.2.1 损失函数 在神经网络的训练过程中,通过最小化损失 函数并不断缩小误差才能获取最优模型。本文算 法为了构造有效的损失函数,对搜索区域内的位 置点进行了正负样本的区分,即认为目标一定范 围内的点是正样本,认为这一范围外的点是负样 本,损失函数为逻辑回归损失,具体的损失函数 形式如下,最终的卷积响应图中每个点的损失为 l(y, v) = log(1+exp(−y ∗ v)) (1) 式中: v 是卷积响应图中每个点真实值; y ∈ {+1,−1} 是这个点所对应的标签。式 (1) 描述的是卷积响 应图中每个点的 loss 值,卷积响应图的整体 loss, 使用全部点 loss 的均值描述,即: L(y, v) = 1 |D| ∑ u∈D l(y[u], v[u]) (2) 其中 u ∈ D 代表卷积响应图中对应点的位置。 2.2.2 卷积响应相关度函数 提取到目标模板和待跟踪图像的特征后,由 卷积响应的相关度计算相似度,其中相似度函数 选用交叉相关函数,如下所示: f(z, x) = φ(z) ∗φ(x)+∥b∥1 (3) z x φ φ(z) 式中: 代表输入模板图像; 代表输入待跟踪图 像; 是提取特征的网络。将 作为卷积核,在 第 6 期 李晗,等:仿猛禽视顶盖信息中转整合的加油目标跟踪 ·1087·
·1088· 智能系统学报 第14卷 (x)上进行卷积,相似度大的地方,卷积响应值就 根据猛禽的双凹-眼动特性,设计一种局部 大,对应的就是目标z在x中的位置。 全局的搜索策略,用于长时目标跟踪。图像通过 2.2.3非线性激活层 模拟交叉通路的神经网络得到卷积响应图后,对 神经网络中的非线性激活函数主要是为了给 图像中响应区域求取均值,得到图中个备选目 神经网络加入一些非线性因素,使得神经网络可 标区域。使用非极大值抑制(non-maximum sup- 以更好地解决较为复杂的非线性问题。ReLU pression,NMS)方法,选出当前图像中响应值最 函数实际上是一个分段的线性函数,小于零的输 大的目标,即s,然后选出图像中k个非极大响应 入都会得到零输出,而正值则保持不变,类似于 区域r进行重新排序,得到最终选择的目标备选 单侧抑制。而ReLU的非线性正是通过这种类 序列q有: 似单侧抑制的方法,增加了神经网络参数的稀疏 af(p,Tk) 性。由于ReLU在正数区间为常数形式,在负数 q arg max f(s,r)- (5) 区间为零,所以不存在由于梯度过小而发生梯度 nER 消失的情况.函数形式如下: Relu(x)= x,x>0 式中:f)表示计算两个响应区域之间的相似性, 】0.x≤0 (4) 也即响应大小的差异;R为选择的,个非极大值 式中x为神经元的输出。ReLU非线性激活函数 响应区域的集合;à为控制全部非极大响应区域 相较于需要计算指数的Sigmoid函数来说,实质 对下一帧图像影响的总权重系数;:为控制单个 是一个比较函数,计算量很小,针对神经网络中 非极大响应区域对下一帧图像影响的权重系数。 庞大的神经元计算量来说,大大提高了效率,同 从式(5)可以看出,这一步骤的意义在于当前响 时也避免了梯度消失问题。 应区域和极大响应区域之间计算相似度后,减去 2.3双凹扩大搜索策略的目标跟踪 当前区域与全部备选响应区域相似度的加权和。 在目标跟踪过程中,一个重要的难点就是当 也即,猛禽在利用双凹大视场确定视觉注意区域 目标遇到遮挡或飞出图像后,如何在其再次出现 后,通过快速眼动逐一对比排除非最佳目标的注 或重新进入图像时继续进行跟踪。很多目标跟踪 意区域,并对部分区域进行记忆,用于后续排除 算法为了节省计算时间,提高跟踪帧率,在跟踪 目标。由于每次计算的时间复杂度和空间复杂度 过程中不对跟踪器做在线修改,但是这样就无法 较高,为了降低时间和空间复杂度,根据式(3)可 应对跟踪场景与目标发生剧烈变化的情况。此 将式(5)写为 外,还有一部分跟踪算法在目标丢失时使用局部 Pi 搜索策略,只在最后识别到目标的图像位置附近 q arg max (r) (6) 做搜索,无法应对长时跟踪时难以避免的目标完 nER 全遮挡和离开图像的问题。 O'Rourke对于红尾鹰、库氏鹰和美洲隼这 以学习率B,对目标模板和干扰项进行增量学 3种日行性猛禽的感受野结构的研究结果显示, 习,如式(7): 这些不同物种的日行性猛禽的感受野结构上的差 (s,) Ba an(p.) 异与捕食采用的搜索策略以及在环境中的视觉障 =1 i=1 gr+1 arg max or) 碍角度(例如栖息地的开放程度)相关,而不同物 几E员 种间的眼动角度差异则与觅食策略相关。此外, 22 猛禽双目区域和视觉盲区的大小会由于眼动产生 (7) 巨大差异,物种间的视觉区域和眼动则会影响栖 式(7)通过将现有的相似性矩阵转移到另一 息过程中的搜索和猎物追踪策略。在视场角有 个特定的域内降低计算量,加快了算法的运行速度。 限的情况下,尽量利用双凹的视觉敏锐度可变特 当目标由于遮挡等原因在原位置消失,或脱 性,结合眼动与头动调整最高视觉敏锐度的视野 离图像范围再次进入时,用深凹一浅凹的视觉焦 位置,实现对于目标的搜索”。这种搜索策略不 点转移方式,扩大聚焦范围,重新在浅凹对准的 仅适用于目标不确定情况下的目标分辨,也同样 更大范围内搜索确定目标,也就是目标跟踪过程 适用于目标遮挡或从场景中消失再入的重新搜索 中的再入搜索。在本跟踪方法中,对响应区域的 情况。 得分设定门限值,当图像极大响应区域的得分均
φ(x) z x 上进行卷积,相似度大的地方,卷积响应值就 大,对应的就是目标 在 中的位置。 2.2.3 非线性激活层 神经网络中的非线性激活函数主要是为了给 神经网络加入一些非线性因素,使得神经网络可 以更好地解决较为复杂的非线性问题。ReLU 函数实际上是一个分段的线性函数,小于零的输 入都会得到零输出,而正值则保持不变,类似于 单侧抑制[9]。而 ReLU 的非线性正是通过这种类 似单侧抑制的方法,增加了神经网络参数的稀疏 性。由于 ReLU 在正数区间为常数形式,在负数 区间为零,所以不存在由于梯度过小而发生梯度 消失的情况,函数形式如下: Relu(x) = { x, x > 0 0, x ⩽ 0 (4) 式中 x 为神经元的输出。ReLU 非线性激活函数 相较于需要计算指数的 Sigmoid 函数来说,实质 是一个比较函数,计算量很小,针对神经网络中 庞大的神经元计算量来说,大大提高了效率,同 时也避免了梯度消失问题。 2.3 双凹扩大搜索策略的目标跟踪 在目标跟踪过程中,一个重要的难点就是当 目标遇到遮挡或飞出图像后,如何在其再次出现 或重新进入图像时继续进行跟踪。很多目标跟踪 算法为了节省计算时间,提高跟踪帧率,在跟踪 过程中不对跟踪器做在线修改,但是这样就无法 应对跟踪场景与目标发生剧烈变化的情况。此 外,还有一部分跟踪算法在目标丢失时使用局部 搜索策略,只在最后识别到目标的图像位置附近 做搜索,无法应对长时跟踪时难以避免的目标完 全遮挡和离开图像的问题。 O’Rourke 对于红尾鹰、库氏鹰和美洲隼这 3 种日行性猛禽的感受野结构的研究结果显示, 这些不同物种的日行性猛禽的感受野结构上的差 异与捕食采用的搜索策略以及在环境中的视觉障 碍角度 (例如栖息地的开放程度) 相关,而不同物 种间的眼动角度差异则与觅食策略相关。此外, 猛禽双目区域和视觉盲区的大小会由于眼动产生 巨大差异,物种间的视觉区域和眼动则会影响栖 息过程中的搜索和猎物追踪策略[10]。在视场角有 限的情况下,尽量利用双凹的视觉敏锐度可变特 性,结合眼动与头动调整最高视觉敏锐度的视野 位置,实现对于目标的搜索[11]。这种搜索策略不 仅适用于目标不确定情况下的目标分辨,也同样 适用于目标遮挡或从场景中消失再入的重新搜索 情况。 n st k r q 根据猛禽的双凹−眼动特性,设计一种局部− 全局的搜索策略,用于长时目标跟踪。图像通过 模拟交叉通路的神经网络得到卷积响应图后,对 图像中响应区域求取均值,得到图中 个备选目 标区域。使用非极大值抑制 (non-maximum suppression,NMS)[12] 方法,选出当前图像中响应值最 大的目标,即 ,然后选出图像中 个非极大响应 区域 进行重新排序,得到最终选择的目标备选 序列 有: q = argmax rk∈R f(s,rk)− αˆ ∑n i=1 αi f(pi ,rk) ∑n i=1 αi (5) f(·) R r αˆ αi 式中: 表示计算两个响应区域之间的相似性, 也即响应大小的差异; 为选择的 个非极大值 响应区域的集合; 为控制全部非极大响应区域 对下一帧图像影响的总权重系数; 为控制单个 非极大响应区域对下一帧图像影响的权重系数。 从式 (5) 可以看出,这一步骤的意义在于当前响 应区域和极大响应区域之间计算相似度后,减去 当前区域与全部备选响应区域相似度的加权和。 也即,猛禽在利用双凹大视场确定视觉注意区域 后,通过快速眼动逐一对比排除非最佳目标的注 意区域,并对部分区域进行记忆,用于后续排除 目标。由于每次计算的时间复杂度和空间复杂度 较高,为了降低时间和空间复杂度,根据式 (3) 可 将式 (5) 写为 q = argmax rk∈R φ(s)− αˆ ∑n i=1 αiφ(pi) ∑n i=1 αi ∗φ(rk) (6) 以学习率 βt 对目标模板和干扰项进行增量学 习,如式 (7): qT+1 = argmax rk∈R ∑T t=1 βtφ(st) ∑T t=1 βt − ∑T t=1 βtαˆ ∑n i=1 αiφ(pi ,t) ∑T t=1 βt ∑n i=1 αi ∗φ(rk) (7) 式 (7) 通过将现有的相似性矩阵转移到另一 个特定的域内降低计算量,加快了算法的运行速度。 当目标由于遮挡等原因在原位置消失,或脱 离图像范围再次进入时,用深凹−浅凹的视觉焦 点转移方式,扩大聚焦范围,重新在浅凹对准的 更大范围内搜索确定目标,也就是目标跟踪过程 中的再入搜索。在本跟踪方法中,对响应区域的 得分设定门限值,当图像极大响应区域的得分均 ·1088· 智 能 系 统 学 报 第 14 卷