《工程科学学报》录用稿,htps:/doi.org/10.13374/i,issn2095-9389.2021.01.11.005©北京科技大学2020 工程科学学报DO: 基于改进YOLACT实例分割网络的人耳关键生 理曲线提取 袁立,夏桐,张晓爽 北京科技大学自动化学院,北京100083 ☒通信作者,E-mail:yuan@ustb.edu.cn 版稿 摘要在人耳形状聚类、3D人耳建模、个人定制耳机等相关工作中,获取耳的一些关键生理曲线和关键点的准确 位置非常重要。传统的边缘提取方法对光照和姿势变化非常敏感。本文提出了一种基于ResNeSt和筛选模板策略的改 进YOLACT实例分割网络,分别从定位和分割两方面对原始YOLACT 算法进行改进,通过标注人耳数据集,训练 改进的YOLACT模型,并在预测阶段使用改进的筛选模板策略 可以准确地分割人耳的不同区域并提取关键的生 理曲线。相较于其他方法,本文方法在测试图像集上显示出更 份割精度,且对人耳姿态变化时具有一定的鲁棒 性。 关键词人耳:生理曲线提取:实例分割:改进YO esNeSt 分类号TP391.41 Physiological Curves Extraction of Human Ear Based on Improved YOLACT YUAN Li,XIA Tong ZHANG Xiaoshuang School of Automation.University of Science and Technology Beijing,Beijing 100083,China Corresponding author,Email:lyuan@ustb.edu.cn ABSTRACT In related work such as human ear shape clustering.3D human ear modeling,and personal customized headphones,it is very important to obtain some key physiological curves of the human ear and the accurate positions of key points.Moreover,as an important biological feature,the morphological analysis and classification of the human ear is also of great value for medical work related to the human ear.However,due to the complex morphological structure of the human ear,it is difficult to generate a general standard for the morphological structure of the ear.This paper divides the morphological structure of the human ear into three regions:helix,antihelix and concha,for instance segmentation and key physiological curve extraction.Traditional edge extraction methods are very sensitive to illumination and posture variations. 收稿日期: 基金项目:国家自然科学基金资助项目(61472031)
工程科学学报 DOI: 基于改进 YOLACT 实例分割网络的人耳关键生 理曲线提取 袁 立,夏 桐,张晓爽 北京科技大学自动化学院,北京 100083 通信作者,E-mail: lyuan@ustb.edu.cn 摘 要 在人耳形状聚类、3D 人耳建模、个人定制耳机等相关工作中,获取人耳的一些关键生理曲线和关键点的准确 位置非常重要。传统的边缘提取方法对光照和姿势变化非常敏感。本文提出了一种基于 ResNeSt 和筛选模板策略的改 进 YOLACT 实例分割网络,分别从定位和分割两方面对原始 YOLACT 算法进行改进,通过标注人耳数据集,训练 改进的 YOLACT 模型,并在预测阶段使用改进的筛选模板策略,可以准确地分割人耳的不同区域并提取关键的生 理曲线。相较于其他方法,本文方法在测试图像集上显示出更好的分割精度,且对人耳姿态变化时具有一定的鲁棒 性。 关键词 人耳;生理曲线提取;实例分割;改进 YOLACT;ResNeSt 分类号 TP391.41 Physiological Curves Extraction of Human Ear Based on Improved YOLACT YUAN Li , XIA Tong, ZHANG Xiaoshuang School of Automation, University of Science and Technology Beijing, Beijing 100083, China Corresponding author, E-mail: lyuan@ustb.edu.cn ABSTRACT In related work such as human ear shape clustering, 3D human ear modeling, and personal customized headphones, it is very important to obtain some key physiological curves of the human ear and the accurate positions of key points. Moreover, as an important biological feature, the morphological analysis and classification of the human ear is also of great value for medical work related to the human ear. However, due to the complex morphological structure of the human ear, it is difficult to generate a general standard for the morphological structure of the ear. This paper divides the morphological structure of the human ear into three regions: helix, antihelix and concha, for instance segmentation and key physiological curve extraction. Traditional edge extraction methods are very sensitive to illumination and posture variations. 收稿日期: 基金项目:国家自然科学基金资助项目(61472031) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.01.11.005 ©北京科技大学 2020 录用稿件,非最终出版稿
Also,the color distribution of one human ear image is relatively consistent,so the transition among the three regions maybe not obvious,which will cause poor adaptability for traditional edge extraction methods when extracting key physiological curves of human ears.To address this problem,this paper proposes an improved YOLACT instance segmentation model based on ResNeSt backbone and "the screening mask"strategy,which improve the original YOLACT model from two aspects:localization and segmentation.Our ResNeSt based YOLACT model is trained with labeled ear images from the USTB-Helloear image set.In the prediction stage,the original cropping mask strategy is discarded and replaced with our proposed screening mask strategy to ensure the integrity of the edges of the segmentation area.These improvements enhance the accuracy of curve detection and extraction,and can accurately segment different regions of the human ear and extract key physiological curves.Compared with other methods,our proposed method in this paper shows better segmentation accuracy on the test image set,and shows robustness to posture variation of human ear KEY WORDS Human Ear;Physiological Curves Extraction;Instance Segmentation:Improved YOLACT;ResNeSt 人耳作为一种重要的生物特征,对人耳的形态分析和归类对与人耳相关的医疗等工作有着重要 的价值。但是由于人耳形态结构复杂,外耳形态结构分型的研究至今难有个统一标准的分类方法。 杨月如等山从医学角度提出外耳形态分型,依据外耳轮的形态特征以及耳轮结节的形态,将外耳分 为六种形态。齐娜等四从声学角度分析,主要依据耳甲艇和耳甲腔的莲通状态把耳廓分为四大类。耳 垂在整个外耳形态中具有非常重要的作用,耳垂形状的不同可以升起视觉上明显的差别感,Azaria 则根据耳垂与面颊交叉点角度对耳垂进行的归类)。上述研究者分别通过人耳的其中一块关键区域 进行分类,这些区域都是人耳结构的重要组成部分,通过提取出耳轮、对耳轮和耳甲等关键区域的 轮廓作为人耳的关键曲线,就能能够实现对这些关键区域的精细划分,并且描述出它们的形状特征。 提取出高精度的人耳的关键曲线进而能够有效的帮助完成对人耳的形态分析和聚类工作,同时也有 助于实现人耳外轮廓提取和重要区域的分割。但是,年图像在颜色分布上较为一致,部分人耳在 重要区域之间的过渡不明显,采集图像时还能存在光照差异,这些因素都会导致传统边缘提取的 方法在提取人耳关键曲线上话应性较差。 在图像分割领域中,语义分割4任务旨在实现对图像中的每个像素都划分出对应的类别,而实 例分割9不但要进行像素级别的分类,还需在具体的类别基础上区分该像素属于该类别中的具体 实例。Daniel Bolya在2019年提出X实时实例分割网络YOLACTI,类比Mask R-CNNU31之于Faster R-CNN4,YOLACT是在目标检测分支上添加一个语义分割分支来达到实例分割的目的,但没有 使用区域建议网络。 驴语义分割会对像素属性相似的像素点划为同一类别,而人耳区域像素 值很相似,部分人耳在重要区域之间的过渡不明显,故语义分割方法不适用于人耳上关键生理曲线 区域的分割。 因此,本文提母种改进YOLACT算法来进行人耳关键区域分割,并提取耳轮、对耳轮和耳甲 的关键曲线。为了提高定位和分割精度,将主干网络由ResNet101更换为ResNeSt101us1,并在预 测阶段摒弃原有的裁剪模板的处理,设计了新的筛选模板的结构,保证了分割区域边缘的完整性, 提高了曲线检测提取精度。 1基于ResNeSt和筛选模板策略的改进YOLACT算法 本文提出的改进YOLACT模型用来提取人耳的耳轮、对耳轮和耳甲区域的关键生理曲线,系统 框图如图1所示。首先使用主干网络ResNeSt-.l0l结合特征金字塔网络(Feature Pyramid Networks,FPN)I获取不同尺寸下的特征图,接下来特征金字塔提取的特征图传输进两个并行分 支。第一个分支接收特征金字塔生成的所有尺寸的特征图作为输入,用来完成目标检测任务预测目 标位置、类别,同时也完成对模板叠加系数的预测:第二个分支接收特征金字塔获取的感受野为91 的特征图(对应图1中的P3)作为输入,用来生成一系列原型模板,实现对背景和前景的分离,对
Also, the color distribution of one human ear image is relatively consistent, so the transition among the three regions maybe not obvious, which will cause poor adaptability for traditional edge extraction methods when extracting key physiological curves of human ears. To address this problem, this paper proposes an improved YOLACT instance segmentation model based on ResNeSt backbone and “the screening mask” strategy, which improve the original YOLACT model from two aspects: localization and segmentation. Our ResNeSt based YOLACT model is trained with labeled ear images from the USTB-Helloear image set. In the prediction stage, the original cropping mask strategy is discarded and replaced with our proposed screening mask strategy to ensure the integrity of the edges of the segmentation area. These improvements enhance the accuracy of curve detection and extraction, and can accurately segment different regions of the human ear and extract key physiological curves. Compared with other methods, our proposed method in this paper shows better segmentation accuracy on the test image set, and shows robustness to posture variation of human ear. KEY WORDS Human Ear; Physiological Curves Extraction; Instance Segmentation; Improved YOLACT; ResNeSt 人耳作为一种重要的生物特征,对人耳的形态分析和归类对与人耳相关的医疗等工作有着重要 的价值。但是由于人耳形态结构复杂,外耳形态结构分型的研究至今难有一个统一标准的分类方法。 杨月如等[1]从医学角度提出外耳形态分型,依据外耳轮的形态特征以及耳轮结节的形态,将外耳分 为六种形态。齐娜等[2]从声学角度分析,主要依据耳甲艇和耳甲腔的连通状态把耳廓分为四大类。耳 垂在整个外耳形态中具有非常重要的作用,耳垂形状的不同可以引起视觉上明显的差别感, Azaria 则根据耳垂与面颊交叉点角度对耳垂进行的归类[3]。上述研究者分别通过人耳的其中一块关键区域 进行分类,这些区域都是人耳结构的重要组成部分,通过提取出耳轮、对耳轮和耳甲等关键区域的 轮廓作为人耳的关键曲线,就能能够实现对这些关键区域的精细划分,并且描述出它们的形状特征 。 提取出高精度的人耳的关键曲线进而能够有效的帮助完成对人耳的形态分析和聚类工作,同时也有 助于实现人耳外轮廓提取和重要区域的分割。但是,人耳图像在颜色分布上较为一致,部分人耳在 重要区域之间的过渡不明显,采集图像时还可能存在光照差异,这些因素都会导致传统边缘提取的 方法在提取人耳关键曲线上适应性较差。 在图像分割领域中,语义分割[4-8]任务旨在实现对图像中的每个像素都划分出对应的类别,而实 例分割[9-11]不但要进行像素级别的分类,还需在具体的类别基础上区分该像素属于该类别中的具体 实例。Daniel Bolya 在 2019 年提出了实时实例分割网络 YOLACT[12],类比 Mask R-CNN[13]之于 Faster R-CNN[14],YOLACT 是在目标检测分支上添加一个语义分割分支来达到实例分割的目的,但没有 使用区域建议网络[15-16]。由于语义分割会对像素属性相似的像素点划为同一类别,而人耳区域像素 值很相似,部分人耳在重要区域之间的过渡不明显,故语义分割方法不适用于人耳上关键生理曲线 区域的分割。 因此,本文提出一种改进 YOLACT 算法来进行人耳关键区域分割,并提取耳轮、对耳轮和耳甲 的关键曲线。为了提高定位和分割精度,将主干网络由 ResNet101[17]更换为 ResNeSt101[18],并在预 测阶段摒弃原有的裁剪模板的处理,设计了新的筛选模板的结构,保证了分割区域边缘的完整性, 提高了曲线检测提取精度。 1 基于 ResNeSt 和筛选模板策略的改进 YOLACT 算法 本文提出的改进 YOLACT 模型用来提取人耳的耳轮、对耳轮和耳甲区域的关键生理曲线,系统 框 图 如 图 1 所 示 。 首 先 使 用 主 干 网 络 ResNeSt-101 结 合 特 征 金 字 塔 网 络 ( Feature Pyramid Networks,FPN)[19]获取不同尺寸下的特征图,接下来特征金字塔提取的特征图传输进两个并行分 支。第一个分支接收特征金字塔生成的所有尺寸的特征图作为输入,用来完成目标检测任务预测目 标位置、类别,同时也完成对模板叠加系数的预测;第二个分支接收特征金字塔获取的感受野为 91 的特征图(对应图 1 中的 P3)作为输入,用来生成一系列原型模板,实现对背景和前景的分离,对 录用稿件,非最终出版稿
应第一个分支里的模板系数。通过YOLACT提出的快速非极大值抑制去掉多余的目标后,对原型模 板和模板系数进行线性组合,得到每个实例对应的分割模板。上述组合得到的实例模板的过程可描 述为: Mask=aPCT (1) 其中,P是分支一产生的一系列模板,维度为h*w*k,分别代表模板的高、宽和数量:C是分 支二产生的模板系数,维度为n*k,n为经过快速的非极大值和分数阈值后的实例数量。为了简化网 络结构和加快检测过程,使用线性组合的方式得到实例模板。最终得到模板的尺寸为h*w*,也就 是预测出的个实例模板。在阈值化之后,使用本文提出的模板筛选策略排除实例模板中的误检。对 得到的最终实例模板提取其外轮廓即可得到人耳的关键生理曲线,进而可以实现关键区域分割。以 下针对系统中的关键模块ResNeSt主干网络、原型模板生成模块、目标检测模块、筛选模板策略等进 行详细论述。 Feature Pyramic ResNeSt101 Backbone Object 非最终出 Prototype mask generation modul 图1改进YOLACT模型提取人耳关键生理曲线系统框图 Fig.1 System block diagram of the improved YOLACT model for extracting the key physiological curve of human ear L.1 ResNeSt:主干网络 原始YOLACT中的主干网络是ResNet,ResNet是为了完成图像分类任务,缺少针对目标检测、 语义分割和实例分割等计算机视觉任务的相应结构设计,为此ResNeSt在ResNet的基础上设计了 拆分注意力模块,而利用RSt作为主干网络的模型能够在图像分类、目标检测、语义分割以及实 例分割等任务上达到更高的精度 ResNet Biock 仇原对 w.c) (a) (b) 图2拆分注意力模块结构I剧.(a)整体结构:(b)Cardinal内部结构 Fig.2 Split attention module structurelsl:(a)the whole frame:(b)Cardinal internal structure
应第一个分支里的模板系数。通过 YOLACT 提出的快速非极大值抑制去掉多余的目标后,对原型模 板和模板系数进行线性组合,得到每个实例对应的分割模板。上述组合得到的实例模板的过程可描 述为: Mask PC (1) 其中, P 是分支一产生的一系列模板,维度为 h*w*k,分别代表模板的高、宽和数量;C 是分 支二产生的模板系数,维度为 n*k,n 为经过快速的非极大值和分数阈值后的实例数量。为了简化网 络结构和加快检测过程,使用线性组合的方式得到实例模板。最终得到模板的尺寸为 h*w*n,也就 是预测出的 n 个实例模板。在阈值化之后,使用本文提出的模板筛选策略排除实例模板中的误检。对 得到的最终实例模板提取其外轮廓即可得到人耳的关键生理曲线,进而可以实现关键区域分割。以 下针对系统中的关键模块 ResNeSt 主干网络、原型模板生成模块、目标检测模块、筛选模板策略等进 行详细论述。 C1 C2 C3 C5 C4 P3 P5 P4 P6 P7 Object detection module NMS Prototype mask generation module + + Threshold Screening mask strategy Contour extraction ResNeSt101 Backbone Feature Pyramid 图 1 改进 YOLACT 模型提取人耳关键生理曲线系统框图 Fig.1 System block diagram of the improved YOLACT model for extracting the key physiological curve of human ear 1.1 ResNeSt 主干网络 原始 YOLACT 中的主干网络是 ResNet,ResNet 是为了完成图像分类任务,缺少针对目标检测、 语义分割和实例分割等计算机视觉任务的相应结构设计,为此 ResNeSt 在 ResNet 的基础上设计了 拆分注意力模块,而利用 ResNeSt 作为主干网络的模型能够在图像分类、目标检测、语义分割以及实 例分割等任务上达到更高的精度[18]。 (a) (b) 图 2 拆分注意力模块结构[18] . (a) 整体结构; (b) Cardinal 内部结构 Fig.2 Split attention module structure[18]: (a) the whole frame; (b) Cardinal internal structure 录用稿件,非最终出版稿
ResNeSt模块在外层设计上保留了ResNet的跳跃映射连接,延续ResNeXt!2o分组卷积的思想, 使用了基数的概念,按照基数的设置,将ResNeSt模块输入按通道拆分成k份输送到k个相同的网 络结构,每个网络结构被称作一个是Cardinal。分组卷积的显著优势就是使用少量的参数量和运算 量生成更多的特征图,更多的特征图就可以编码更多的特征信息。所以ResNeSt模块外层设计使得 ResNeSt相比于其他ResNet变体22,能够在不明显增加参数量级的情况下提升了模型的准确率。 每个Cardinal的内部结构如图2(b)所示,结构设计主要借鉴了SENetP2中的基于通道注意力机 制的思想和SKNt2四中的基于特征图注意力机制思想,能够学习出不同特征图之间重要程度以及特 征图不同通道之间的重要程度,利于获取更加有效的信息。ResNeSt模块每个Cardinal的大致结构类 似于SKNt注意力机制模块,不同之处在于每个分支使用相同尺寸的卷积核,便于外层分组卷积的 模块化。 故本文利用ResNeSt对原始YOLCAT网络中的主干网络进行改进,使用ResNeSt101代替 ResNet11Ol嵌入到YOLACT网络,并与YOLACT的特征金字塔结构进行对援提取出ResNeSt101 每个阶段的最后一个ResNeSt模块的输出,选中感受野分别为91、811、97个般 是特征图(分别对 应图1中的C3、C4、C5)输送到特征金字塔结构参与后续运算。 1.2原型模板生成模块 原型模板生成模块分支是YOLACT生成语义分割模板的分支,用来实现像素级别的分类任务, 原型模板生成模块分支的作用并不是直接生成最终的像素分类模板而是生成一系列原型模板,在 后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的闷络结构基于FCN4设计,以 550*550的输入图像为例的原型模板生成模块网络结构如图所示,接收主干网络获取的感受野为 91的特征图作为输入,首先不改变特征图尺寸和通道数莲续使用了3个3*3步长为1的卷积层,然 后利用双线性插值的方式进行了上采样,使得特征尺纣达到原图尺寸的1/4,这样做提高了后续 生成原型模板的分辨率,也就提高了分割模板整体的质量以及对于小目标的分割精度,保持当前尺 寸紧接着通过两个卷积层获得一个k通道的输出,输出中的每一个通道就是一个原型模板。 用稿德 图3原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块 目标检测分支以主干网络生成的所有尺寸的特征图作为输入,每个尺寸的特征图都通过相同的 网络结构进行处理,图4以感受野为91的特征图为例展示了目标检测分支的网络结构。首先通过一 个公共的步长为1的3*3卷积层,公共卷积层的存在使得网络结构利用更高效,运算速度更快,接 下来分成三个分支,分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5,1,2]三种比例的锚框来检测位置,并且针对特征金字塔生成的5种不同尺寸的特征图设置5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测4 个表示位置的参数,C个代表目标类别的参数以及与原型模板个数相对应的k个组合系数。在模板加 权组合系数的分支上,补充了一个tanh激活函数,tanh的值域覆盖了正负值,保证在输出的加权系 数中存在正负值
ResNeSt 模块在外层设计上保留了 ResNet 的跳跃映射连接,延续 ResNeXt[20]分组卷积的思想, 使用了基数的概念,按照基数的设置,将 ResNeSt 模块输入按通道拆分成 k 份输送到 k 个相同的网 络结构,每个网络结构被称作一个是 Cardinal。分组卷积的显著优势就是使用少量的参数量和运算 量生成更多的特征图,更多的特征图就可以编码更多的特征信息。所以 ResNeSt 模块外层设计使得 ResNeSt 相比于其他 ResNet 变体[21-23],能够在不明显增加参数量级的情况下提升了模型的准确率。 每个 Cardinal 的内部结构如图 2(b)所示,结构设计主要借鉴了 SENet[21]中的基于通道注意力机 制的思想和 SKNet[22]中的基于特征图注意力机制思想,能够学习出不同特征图之间重要程度以及特 征图不同通道之间的重要程度,利于获取更加有效的信息。ResNeSt 模块每个 Cardinal 的大致结构类 似于 SKNet 注意力机制模块,不同之处在于每个分支使用相同尺寸的卷积核,便于外层分组卷积的 模块化。 故本文利用 ResNeSt 对原始 YOLCAT 网络中的主干网络进行改进,使用 ResNeSt101 代替 ResNet101 嵌入到 YOLACT 网络,并与 YOLACT 的特征金字塔结构进行对接,提取出 ResNeSt101 每个阶段的最后一个 ResNeSt 模块的输出,选中感受野分别为 91、811、971 的三层特征图(分别对 应图 1 中的 C3、C4、C5)输送到特征金字塔结构参与后续运算。 1.2 原型模板生成模块 原型模板生成模块分支是 YOLACT 生成语义分割模板的分支,用来实现像素级别的分类任务, 原型模板生成模块分支的作用并不是直接生成最终的像素分类模板,而是生成一系列原型模板,在 后续阶段用于组合生成整幅图最终的分割模板。原型模板生成模块的网络结构基于 FCN[24]设计,以 550*550 的输入图像为例的原型模板生成模块网络结构如图 3 所示,接收主干网络获取的感受野为 91 的特征图作为输入,首先不改变特征图尺寸和通道数连续使用了 3 个 3*3 步长为 1 的卷积层,然 后利用双线性插值的方式进行了上采样,使得特征图尺寸达到原图尺寸的 1/4,这样做提高了后续 生成原型模板的分辨率,也就提高了分割模板整体的质量以及对于小目标的分割精度,保持当前尺 寸紧接着通过两个卷积层获得一个 k 通道的输出,输出中的每一个通道就是一个原型模板。 69*69 *256 69*69 *256 69*69 *256 138*138 *256 69*69 *256 138*138 *256 138*138 *k 图 3 原型模板生成模块 Fig.3 Prototype mask generation module 1.3 目标检测模块 目标检测分支以主干网络生成的所有尺寸的特征图作为输入,每个尺寸的特征图都通过相同的 网络结构进行处理,图 4 以感受野为 91 的特征图为例展示了目标检测分支的网络结构。首先通过一 个公共的步长为 1 的 3*3 卷积层,公共卷积层的存在使得网络结构利用更高效,运算速度更快,接 下来分成三个分支,分别通过一个卷积层预测目标的位置、类别和分割模板。网络在每个位置上设置 [0.5,1,2]三种比例的锚框来检测位置,并且针对特征金字塔生成的 5 种不同尺寸的特征图设置 5 种不同的尺寸的锚框。最终目标检测分支针对特征金字塔生成的特征图上每个位置的锚框都预测 4 个表示位置的参数,c 个代表目标类别的参数以及与原型模板个数相对应的 k 个组合系数。在模板加 权组合系数的分支上,补充了一个 tanh 激活函数,tanh 的值域覆盖了正负值,保证在输出的加权系 数中存在正负值。 录用稿件,非最终出版稿
63对 图4目标检测模块 Fig.4 Object detection module 1.4“筛选模板”策略 YOLACT为了改善小目标的分割效果,在预测时使用目标预测框对加权组合产生的模板进行 裁剪,在训练时对真实的边界框进行裁剪,仅保留目标预测框内的份割结果,且并未对输出的结果 进行去噪。这样一来,当目标预测框准确的时候,没有什么影响,但是当目标预测框不准确的时候, 噪声将会被带入实例模板,造成一些“泄露”(意即目标预测框内含洧其他实例的一部分,但这部 分被识别为当前实例的情况)。当两个目标离得很远的时候也会发生“泄露”的情况,因为裁剪的 过程会将当前实例模板的学习内容限定在预测边界框内,裁剪相当于告诉网络远处的目标已经被排 除在外了,不用网络去学习。但是假如目标预测框很么那么该预测模板将包括那些离得很远的实 例的一部分模板,这部分模板对于网络来讲就是噪网路并不知道应该将这部分模板与当前实例 预测模板分开,就造成了“泄露”。在目标预测框比实际边界框偏小的情况下,使用目标预测框对 合成模板裁剪就会破坏原有合成模板边缘的完整性部分分割区域被切割掉之后分割出的模板会出 现直线边缘,使模板的质量下降,如图5(c)所示。 针对这一问题,本文在使用YOLACT进行推理时,去掉了原网络中的“裁剪模板”结构,但 是去掉裁剪模板结构后,在推理分割模板中会出现多余的误检区域。YOLACT预测的检测框和模板 是一一对应的,并且在检测框检测准确的情况下,模板中对应该实例的分割区域应该在检测框内, 基于这一特点,为去掉误检区域, 本文提出了“筛选模板”策略,表达式为: mask area, (2) IOU(pred box area_box)=max(IOU(pred_box,area_box))Vi (3) 其中,aea,表示预测模板中第)个独立分割区域,area_box,表示第j个独立分割区域形成的外接 矩形框。筛选模板策略中首先对于预测模板中的每个独立区域i都生成外接矩形如图5()所示,然后 依次计算预测模板对应的预测边界框与每个独立区域外接矩形amea_box之间的交并比值,利用算 出的最大的交并此对应的独立区域生成一个新的模板代替原来的模板如图5()所示,这样得到的模 板边缘完整精确、并且没有误检区域。 (a)b)(c)(d(e) 图5模板处理.()原图:(b)边框和模板预测结果:(c)裁剪模板结果:(d)各区域外接矩形,(e)筛选模板结果
69*69 *256 69*69 *256 69*69 *3*4 69*69 *3*c 69*69 *3*k (69*69*3, 4) (69*69*3, c) (69*69*3, k) Change shape Class Mask Change shape Change shape Box (69*69*3, k) tanh 图 4 目标检测模块 Fig.4 Object detection module 1.4 “筛选模板”策略 YOLACT 为了改善小目标的分割效果,在预测时使用目标预测框对加权组合产生的模板进行 裁剪,在训练时对真实的边界框进行裁剪,仅保留目标预测框内的分割结果,且并未对输出的结果 进行去噪。这样一来,当目标预测框准确的时候,没有什么影响,但是当目标预测框不准确的时候, 噪声将会被带入实例模板,造成一些“泄露”(意即目标预测框内含有其他实例的一部分,但这部 分被识别为当前实例的情况)。当两个目标离得很远的时候也会发生“泄露”的情况,因为裁剪的 过程会将当前实例模板的学习内容限定在预测边界框内,裁剪相当于告诉网络远处的目标已经被排 除在外了,不用网络去学习。但是假如目标预测框很大,那么该预测模板将包括那些离得很远的实 例的一部分模板,这部分模板对于网络来讲就是噪声,网络并不知道应该将这部分模板与当前实例 预测模板分开,就造成了“泄露”。在目标预测框比实际边界框偏小的情况下,使用目标预测框对 合成模板裁剪就会破坏原有合成模板边缘的完整性,部分分割区域被切割掉之后分割出的模板会出 现直线边缘,使模板的质量下降,如图 5(c)所示。 针对这一问题,本文在使用 YOLACT 进行推理时,去掉了原网络中的“裁剪模板”结构,但 是去掉裁剪模板结构后,在推理分割模板中会出现多余的误检区域。YOLACT 预测的检测框和模板 是一一对应的,并且在检测框检测准确的情况下,模板中对应该实例的分割区域应该在检测框内, 基于这一特点,为去掉误检区域,本文提出了“筛选模板”策略,表达式为: mask area j (2) IOU( _ , _ ) max(IOU( _ , _ )) j i pred box area box pred box area box i (3) 其中, j area 表示预测模板中第 j 个独立分割区域, area box _ j 表示第 j 个独立分割区域形成的外接 矩形框。筛选模板策略中首先对于预测模板中的每个独立区域i 都生成外接矩形如图 5(d)所示,然后 依次计算预测模板对应的预测边界框与每个独立区域外接矩形 _ i area box 之间的交并比值,利用算 出的最大的交并比对应的独立区域生成一个新的模板代替原来的模板如图 5(e)所示,这样得到的模 板边缘完整精确,并且没有误检区域。 (a) (b) (c) (d) (e) 图 5 模板处理. (a) 原图; (b) 边框和模板预测结果; (c) 裁剪模板结果; (d) 各区域外接矩形; (e) 筛选模板结果 录用稿件,非最终出版稿