第17卷第1期 智能系统学报 Vol.17 No.1 2022年1月 CAAI Transactions on Intelligent Systems Jan.2022 D0:10.11992/tis.202107019 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20211217.1715.006html 基于背景建模的VideoSAR动目标阴影检测方法 王鑫',田甜2,田金文2 (1.华中科技大学人工智能与自动化学院,湖北武汉430074;2.华中科技大学多谱信息处理技术国家级重点 实验室,湖北武汉430074) 摘要:针对视频合成孔径雷达(video synthetic aperture radar,.VideoSAR)数据进行地面运动目标检测的问题,本 文提出了一种基于单高斯背景模型的VideoSAR动目标阴影检测方法。该方法使用一个时间维度的滑窗对视 频序列进行处理:首先使用RED20深度神经网络模型抑制VideoSAR图像的斑点噪声,随后使用帧间配准算法 快速配准窗口内的图像序列,然后对序列进行建模和差分得到窗口末帧的二值化前景,最后通过连通区域筛选 和区域生长剔除虚假目标。采用美国Sandia国家实验室公布的VideoSAR视频对本文算法进行了验证,实验表 明,该算法能实现对动目标阴影的准确检测。 关键词:视频合成孔径雷达;动目标检测;卷积神经网络:乘性噪声;去噪;图像配准;单高斯模型:区域生长 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2022)01-0059-10 中文引用格式:王鑫,田甜,田金文.基于背景建模的VideoSAR动目标阴影检测方法J.智能系统学报,2022,17(1):59-68.。 英文引用格式:WANG Xin,TIAN Tian,,TIAN Jinwen.Moving target shadow detection in VideoS..AR based on background model- ingJ CAAI transactions on intelligent systems,2022,17(1):59-68. Moving target shadow detection in VideoSAR based on background modeling WANG Xin',TIAN Tian2,TIAN Jinwen'2 (1.School of Artificial Intelligence and Automation,Huazhong University of Science and Technology,Wuhan 430074,China;2.Na- tional Key Laboratory of Science and Technology on Multi-spectral Information Processing.Huangzhong University of Science and Technology,Wuhan 430074,China) Abstract:Aiming at the problem of ground moving target detection based on Video Synthetic Aperture Radar(Video- SAR)data,a VideoSAR moving target shadow detection method based on single Gaussian background model is pro- posed in this paper,which uses a time-dimensional sliding window to process the video sequence:The RED20 deep neural network model is first used to suppress the speckle noise of VideoSAR image,and then the interframe registra- tion algorithm is applied to quickly register the image sequence of the window.After that,the binary foreground of the last frame of the window is obtained by sequence modeling and background subtraction.Finally,false targets are elimin- ated by connected region screening and region growing.The proposed approach is validated on the VideoSAR video published by Sandia National Laboratory,and experimental results show that the algorithm can accurately detect the shadow of moving targets. Keywords:VideoSAR;moving target detection;convolutional neural network;multiplicative noise;denoising;image registration;single Gaussian model;region growing 针对传统合成孔径雷达(synthetic aperture radar,.SAR)成像帧率较低且最小可检测速度较大 的问题,美国Sandia国家实验室2003年提出了 收稿日期:2021-07-12.网络出版日期:2021-12-21. 基金项目:国家自然科学基金项目(42071339). VideoSAR成像模式,该模式的成像结果类似于 通信作者:田甜.E-mail:tian@hust.edu..cn 视频,能够实现对地面场景的高帧率、高分辨率
DOI: 10.11992/tis.202107019 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20211217.1715.006.html. 基于背景建模的 VideoSAR 动目标阴影检测方法 王鑫1 ,田甜1,2,田金文1,2 (1. 华中科技大学 人工智能与自动化学院,湖北 武汉 430074; 2. 华中科技大学 多谱信息处理技术国家级重点 实验室,湖北 武汉 430074) 摘 要:针对视频合成孔径雷达 (video synthetic aperture radar,VideoSAR) 数据进行地面运动目标检测的问题,本 文提出了一种基于单高斯背景模型的 VideoSAR 动目标阴影检测方法。该方法使用一个时间维度的滑窗对视 频序列进行处理:首先使用 RED20 深度神经网络模型抑制 VideoSAR 图像的斑点噪声,随后使用帧间配准算法 快速配准窗口内的图像序列,然后对序列进行建模和差分得到窗口末帧的二值化前景,最后通过连通区域筛选 和区域生长剔除虚假目标。采用美国 Sandia 国家实验室公布的 VideoSAR 视频对本文算法进行了验证,实验表 明,该算法能实现对动目标阴影的准确检测。 关键词:视频合成孔径雷达;动目标检测;卷积神经网络;乘性噪声;去噪;图像配准;单高斯模型;区域生长 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)01−0059−10 中文引用格式:王鑫, 田甜, 田金文. 基于背景建模的 VideoSAR 动目标阴影检测方法 [J]. 智能系统学报, 2022, 17(1): 59–68. 英文引用格式:WANG Xin, TIAN Tian, TIAN Jinwen. Moving target shadow detection in VideoSAR based on background modeling[J]. CAAI transactions on intelligent systems, 2022, 17(1): 59–68. Moving target shadow detection in VideoSAR based on background modeling WANG Xin1 ,TIAN Tian1,2 ,TIAN Jinwen1,2 (1. School of Artificial Intelligence and Automation, Huazhong University of Science and Technology, Wuhan 430074, China; 2. National Key Laboratory of Science and Technology on Multi-spectral Information Processing, Huangzhong University of Science and Technology, Wuhan 430074, China) Abstract: Aiming at the problem of ground moving target detection based on Video Synthetic Aperture Radar (VideoSAR) data, a VideoSAR moving target shadow detection method based on single Gaussian background model is proposed in this paper, which uses a time-dimensional sliding window to process the video sequence: The RED20 deep neural network model is first used to suppress the speckle noise of VideoSAR image, and then the interframe registration algorithm is applied to quickly register the image sequence of the window. After that, the binary foreground of the last frame of the window is obtained by sequence modeling and background subtraction. Finally, false targets are eliminated by connected region screening and region growing. The proposed approach is validated on the VideoSAR video published by Sandia National Laboratory, and experimental results show that the algorithm can accurately detect the shadow of moving targets. Keywords: VideoSAR; moving target detection; convolutional neural network; multiplicative noise; denoising; image registration; single Gaussian model; region growing 针对传统合成孔径雷达 (synthetic aperture radar, SAR) 成像帧率较低且最小可检测速度较大 的问题,美国 Sandia 国家实验室 2003 年提出了 VideoSAR[1] 成像模式,该模式的成像结果类似于 视频,能够实现对地面场景的高帧率、高分辨率 收稿日期:2021−07−12. 网络出版日期:2021−12−21. 基金项目:国家自然科学基金项目 (42071339). 通信作者:田甜. E-mail: ttian@hust.edu.cn. 第 17 卷第 1 期 智 能 系 统 学 报 Vol.17 No.1 2022 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2022
第17卷 智能系统学报 。60· 成像,显著提升了对观测场景的动态感知能力, 频数据较少,深度神经网络的训练及其泛化能力 随后学者们对VideoSAR成像算法进行了较多的 测试也是困难的问题。此外,单帧算法没有利用 研究B-12。然而,在VideoSAR成像结果中,运动 VideoSAR的高帧率成像优势和动目标阴影的运 目标方位向速度分量会使它的像产生方位向的散 动特性:而当前的多帧检测算法后处理普遍过于 焦,距离向速度分量会使它的像产生方位向的频 简单,难以有效地消除虚警。为此,本文提出了 移。但是,在合成孔径成像时间内,部分时段或 一种基于单高斯模型的VideoSAR动目标阴影检 者全程被目标遮挡的区域由于回波信号弱,在图 测方法,使用一个时间维度的滑窗对视频序列进 像中呈现为黑色区域,也就是目标遮挡地物而产 行处理,它主要包括深度神经网络去噪、窗口序 生的阴影。图像中的阴影反映了真实目标的存在 列快速配准、建模差分提取前景、后处理消除虚 性,因此可以通过检测运动目标阴影实现对观测 警四个部分,该算法结合多帧图像的信息实现对 场景中运动目标的检测。 动目标阴影的有效检测。 当前的VideoSAR动目标阴影检测算法主要 分为单帧检测算法和多帧检测算法。单帧检测算 1动目标阴影检测算法 法基于动目标阴影的灰度特性来进行检测,又可 本文算法单个时间窗口的处理流程如图1 分为传统方法和深度学习的方法。文献[13]提出 所示,对于窗口内的所有图像,首先使用RED20 了一种基于动目标阴影局部特征的检测方法。该 深度神经网络模型抑制图像中的斑点噪声,然 方法先用改进的OT$U算法对图像进行阈值分 后使用帧间配准20的方式,快速配准当前窗口中 割,然后使用形态学操作和连通域分析别除明显 的所有图像;接着使用单高斯模型对窗口中的图 的虚警,最后根据检测结果的局部信杂比大小别 像序列进行背景建模和差分,得到窗口中最后 除和目标近似、但与背景特征不一样的虚警。文 帧的前景;最后是后处理,先剔除前景中明显不 献[14提出一种基于改进Faster-R-CNN的动目 是阴影的较亮部分,再使用连通区域筛选和区域 标检测方法。该方法先用K-means确定anchor box 生长消除虚警,得到当前窗口中最后一帧的动目 的长宽和长宽比,然后训练以FPN和Resnet-IO1 标阴影检测结果。窗口每往后移动一帧便使用上 作为特征提取器的Faster-R-CNN对目标进行检 述方法检测窗口末帧的运动目标阴影,以此实现 测。多帧检测算法使用相邻的多帧图像对背景进 对VideoSAR图像每一帧的处理。 行建模,然后使用背景差分的方式提取出前景, 即运动目标阴影。文献[15]提出使用单高斯模型 第 第2帧 第n帧 提取动目标阴影,该方法包括SIFT+RANSAC配 准、单高斯背景建模获取前景、连通区域筛选、形 RED20 RED20 RED20 RED20 去噪 去噪 去噪 去噪 态学操作几个步骤。文献[16)]提出使用中值背景 建模和三帧差分提取动目标阴影,该方法包括 配准 SIFT+RANSAC配准、CattePM降噪、Tsallis灰度 嫡最大化阈值分割、中值背景建模和三帧差分提 配准后 配准后 直方图 第1帧 第2帧 均衡化 取前景、形态学操作、连通区域标记等步骤。文 献[17]提出使用检测前跟踪的方式检测Video- 初始化单 与背景差分 OTSU SAR视频序列中的运动目标。文献[18]提出了 更新模型 高斯模型 得到二值前景 调值分 -种VideoSAR视频序列的配准方法,该方法先 使用一个网络估计刚性变换参数,并使用这些参 标记检测 区域生长 连通区域 前景减去分割 数进行双线性插值进行初步配准,然后将初步配 结果 剔除虚警 结果消除亮 筛选 背景干扰 准结果输入到另一个网络,估计出每个像素的位 移矩阵,再次应用双线性插值得到配准结果。 图1算法流程 VideoSAR图像中动目标阴影是典型的弱目 Fig.1 Flowchart of the proposed algorithm 标,其特征较为简单,与其他的弱反射区域没有 1.1 RED20网络去噪 明显的区别,因此基于传统方法的单帧检测算法 斑点噪声是VideoSAR成像系统中固有的一 较难取得较好的效果。基于深度学习的单帧检测 种噪声,它表现为相同区域的像素值在某一平均 算法具有很强的学习能力,但由于VideoSAR视 值附近随机波动,造成相同区域不同像素点亮度
成像,显著提升了对观测场景的动态感知能力, 随后学者们对 VideoSAR 成像算法进行了较多的 研究[2-12]。然而,在 VideoSAR 成像结果中,运动 目标方位向速度分量会使它的像产生方位向的散 焦,距离向速度分量会使它的像产生方位向的频 移。但是,在合成孔径成像时间内,部分时段或 者全程被目标遮挡的区域由于回波信号弱,在图 像中呈现为黑色区域,也就是目标遮挡地物而产 生的阴影。图像中的阴影反映了真实目标的存在 性,因此可以通过检测运动目标阴影实现对观测 场景中运动目标的检测。 当前的 VideoSAR 动目标阴影检测算法主要 分为单帧检测算法和多帧检测算法。单帧检测算 法基于动目标阴影的灰度特性来进行检测,又可 分为传统方法和深度学习的方法。文献 [13] 提出 了一种基于动目标阴影局部特征的检测方法。该 方法先用改进的 OTSU 算法对图像进行阈值分 割,然后使用形态学操作和连通域分析剔除明显 的虚警,最后根据检测结果的局部信杂比大小剔 除和目标近似、但与背景特征不一样的虚警。文 献 [14] 提出一种基于改进 Faster-R-CNN 的动目 标检测方法。该方法先用 K-means 确定 anchor box 的长宽和长宽比,然后训练以 FPN 和 Resnet-101 作为特征提取器的 Faster-R-CNN 对目标进行检 测。多帧检测算法使用相邻的多帧图像对背景进 行建模,然后使用背景差分的方式提取出前景, 即运动目标阴影。文献 [15] 提出使用单高斯模型 提取动目标阴影,该方法包括 SIFT+RANSAC 配 准、单高斯背景建模获取前景、连通区域筛选、形 态学操作几个步骤。文献 [16] 提出使用中值背景 建模和三帧差分提取动目标阴影,该方法包括 SIFT+RANSAC 配准、CattePM 降噪、Tsallis 灰度 熵最大化阈值分割、中值背景建模和三帧差分提 取前景、形态学操作、连通区域标记等步骤。文 献 [17] 提出使用检测前跟踪的方式检测 VideoSAR 视频序列中的运动目标。文献 [18] 提出了 一种 VideoSAR 视频序列的配准方法,该方法先 使用一个网络估计刚性变换参数,并使用这些参 数进行双线性插值进行初步配准,然后将初步配 准结果输入到另一个网络,估计出每个像素的位 移矩阵,再次应用双线性插值得到配准结果。 VideoSAR 图像中动目标阴影是典型的弱目 标,其特征较为简单,与其他的弱反射区域没有 明显的区别,因此基于传统方法的单帧检测算法 较难取得较好的效果。基于深度学习的单帧检测 算法具有很强的学习能力,但由于 VideoSAR 视 频数据较少,深度神经网络的训练及其泛化能力 测试也是困难的问题。此外,单帧算法没有利用 VideoSAR 的高帧率成像优势和动目标阴影的运 动特性;而当前的多帧检测算法后处理普遍过于 简单,难以有效地消除虚警。为此,本文提出了 一种基于单高斯模型的 VideoSAR 动目标阴影检 测方法,使用一个时间维度的滑窗对视频序列进 行处理,它主要包括深度神经网络去噪、窗口序 列快速配准、建模差分提取前景、后处理消除虚 警四个部分,该算法结合多帧图像的信息实现对 动目标阴影的有效检测。 1 动目标阴影检测算法 本文算法单个时间窗口的处理流程如图 1 所示,对于窗口内的所有图像,首先使用 RED20 深度神经网络模型[19] 抑制图像中的斑点噪声,然 后使用帧间配准[20] 的方式,快速配准当前窗口中 的所有图像;接着使用单高斯模型对窗口中的图 像序列进行背景建模和差分,得到窗口中最后一 帧的前景;最后是后处理,先剔除前景中明显不 是阴影的较亮部分,再使用连通区域筛选和区域 生长消除虚警,得到当前窗口中最后一帧的动目 标阴影检测结果。窗口每往后移动一帧便使用上 述方法检测窗口末帧的运动目标阴影,以此实现 对 VideoSAR 图像每一帧的处理。 配准 ... ... 更新模型 第 n 帧 第 n 帧 第 1 帧 第 2 帧 RED20 去噪 RED20 去噪 RED20 去噪 RED20 去噪 配准后 第 2 帧 配准后 第 1 帧 初始化单 高斯模型 与背景差分 得到二值前景 OTSU 阈值分割 直方图 均衡化 前景减去分割 结果消除亮 背景干扰 连通区域 筛选 区域生长 剔除虚警 标记检测 结果 图 1 算法流程 Fig. 1 Flowchart of the proposed algorithm 1.1 RED20 网络去噪 斑点噪声是 VideoSAR 成像系统中固有的一 种噪声,它表现为相同区域的像素值在某一平均 值附近随机波动,造成相同区域不同像素点亮度 第 17 卷 智 能 系 统 学 报 ·60·
·61· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 不一样,使得原本平滑的区域产生许多的亮点或 分别表示含有噪声的图像及其对应的无噪声真值图。 者暗点。如图2所示,上面的红框中动目标阴影 周围的道路区域和下面的红框中的区域都很不光 滑,斑点噪声的存在严重影响了图像质量,继而 hiil Hihh 影响了检测、识别等任务。 ×3卷积+ 3×3反卷积+ 相加+ReLU ReLU ReLU 图3 RED20网络结构 Fig.3 Structure of RED20 VideoSAR视频资源少,且没有不含噪声的真 值图,因此无法构建数据集。考虑到VideoSAR 图像与可见光灰度图具有一定的相似性,理论上 来说,可以通过向可见光灰度图中添加乘性噪声 来构建训练集,只要添加的乘性噪声分布涵盖了 图2 VideoSAR图像中的斑点噪声 VideoSAR中的噪声分布,就可以将使用该数据集 Fig.2 Speckle noises in VideoSAR image 训练的模型迁移到VideoSAR去噪任务当中,所 目前VideoSAR图像去噪大多是基于一定的 以需要估计一下VideoSAR视频序列中的乘性噪 假设或者先验知识设计的算法:文献[16]使用了 声的分布。对于每一个滑动窗口,具体步骤为: cattePM2模型抑制斑点噪声,文献[22]采用的是 使用1.2节中的帧间配准思想,配准该窗口中的 小波分析去噪232。上述传统方法在进行自适应 图像序列;计算配准后序列的均值,作为不含噪 滤波时,对噪声的感知能力有限,无法精确地获 声的真值图:对所有配准后的图片,计算有效区 得噪声的分布情况,且对于噪声的处理方式比较 域每个像素点的噪声,即“像素点的值/该像素点 单一,难以应对复杂的噪声。 的均值”,将该噪声值保存下来。最后利用保存的 为了更好地抑制斑点噪声、提高图像质量, 噪声数据计算噪声的均值和方差。在Sandia实验 本文率先将深度学习应用到VideoSAR图像去噪 室公布的视频上使用该方法计算出来的乘性噪声 当中。RED20网络9原本是设计用来对可见光 均值为1.052,标准差为0.096。考虑到噪声估计 图像进行去噪处理的,该网络的结构如图3所示, 存在一定的误差,仿真数据集中添加的是均值为 网络前10层为卷积层,后10层为反卷积层,卷积 1,标注差为0.2的服从高斯分布的乘性噪声,即 层和反卷积层的核的尺寸都是3×3,后面连接 使实际噪声分布和估计的噪声相似,那在强噪声 R©LU作为激活函数。因为池化层会丢失掉图像 数据集上训练好的模型也能较好地处理更弱的实 中一些有用的细节信息,因此网络中没有使用池 际噪声;反之如果仿真数据集中添加的是估计出 化层。网络中卷积层用于提取特征消除噪声,反 的噪声分布,一旦噪声被低估,模型的泛化能力 卷积用于恢复图像细节。在卷积层中,每隔一层 就存疑了。 就将该层连接到对称的反卷积层,因此可以直接 VOC2012数据集作为基准数据之一,常被用 进行正向和反向传播。卷积层与反卷积层的连 于对象检测、图像分割网络对比实验与模型效果 接,一方面允许信号直接反向传播到底层,能解 评估中,该数据集包含了丰富的场景,因此从 决梯度消失问题,使得深度网络更加容易实现, V0C2012数据集(共17125张)的每张图片中各 另一方面将图像细节从卷积层传到反卷积层,有 随机裁剪出50×50的图像块,转成灰度图,并逐像 利于恢复原始图像。而隔层连接的方式使得网络 素加入均值为1,标准差为0.2的乘性噪声构成数 收敛更快。 据集,然后以6:2:2的比例划分为训练集、验证集 RED20使用MSE作为损失,其计算方式如 和测试集,来训练RED20模型。随后应用该模型 式(1)所示: 抑制VideoSAR图像中斑点噪声,第二部分的对 4=N∑IFX:0-Y6 1 N (1) 比实验数据表明该方法是可行的。 12基于帧间配准的序列配准 式中:O表示模型参数;N表示样本对数量;X和Y VideoSAR系统的成像方式分为圆迹式、聚束
不一样,使得原本平滑的区域产生许多的亮点或 者暗点。如图 2 所示,上面的红框中动目标阴影 周围的道路区域和下面的红框中的区域都很不光 滑,斑点噪声的存在严重影响了图像质量,继而 影响了检测、识别等任务。 图 2 VideoSAR 图像中的斑点噪声 Fig. 2 Speckle noises in VideoSAR image 目前 VideoSAR 图像去噪大多是基于一定的 假设或者先验知识设计的算法:文献 [16] 使用了 cattePM[21] 模型抑制斑点噪声,文献 [22] 采用的是 小波分析去噪[23-25]。上述传统方法在进行自适应 滤波时,对噪声的感知能力有限,无法精确地获 得噪声的分布情况,且对于噪声的处理方式比较 单一,难以应对复杂的噪声。 为了更好地抑制斑点噪声、提高图像质量, 本文率先将深度学习应用到 VideoSAR 图像去噪 当中。RED20 网络[19] 原本是设计用来对可见光 图像进行去噪处理的,该网络的结构如图 3 所示, 网络前 10 层为卷积层,后 10 层为反卷积层,卷积 层和反卷积层的核的尺寸都是 3×3,后面连接 ReLU 作为激活函数。因为池化层会丢失掉图像 中一些有用的细节信息,因此网络中没有使用池 化层。网络中卷积层用于提取特征消除噪声,反 卷积用于恢复图像细节。在卷积层中,每隔一层 就将该层连接到对称的反卷积层,因此可以直接 进行正向和反向传播。卷积层与反卷积层的连 接,一方面允许信号直接反向传播到底层,能解 决梯度消失问题,使得深度网络更加容易实现, 另一方面将图像细节从卷积层传到反卷积层,有 利于恢复原始图像。而隔层连接的方式使得网络 收敛更快。 RED20 使用 MSE 作为损失,其计算方式如 式 (1) 所示: L(θ) = 1 N ∑N i=1 ||F(Xi ; θ)−Yi ||2 2 (1) 式中:θ 表示模型参数;N 表示样本对数量; Xi和 Yi 分别表示含有噪声的图像及其对应的无噪声真值图。 层号 1 2 3 4 17 18 19 20 … 相加+ReLU 3×3反卷积+ ReLU 3×3卷积+ ReLU 图 3 RED20 网络结构 Fig. 3 Structure of RED20 VideoSAR 视频资源少,且没有不含噪声的真 值图,因此无法构建数据集。考虑到 VideoSAR 图像与可见光灰度图具有一定的相似性,理论上 来说,可以通过向可见光灰度图中添加乘性噪声 来构建训练集,只要添加的乘性噪声分布涵盖了 VideoSAR 中的噪声分布,就可以将使用该数据集 训练的模型迁移到 VideoSAR 去噪任务当中,所 以需要估计一下 VideoSAR 视频序列中的乘性噪 声的分布。对于每一个滑动窗口,具体步骤为: 使用 1.2 节中的帧间配准思想,配准该窗口中的 图像序列;计算配准后序列的均值,作为不含噪 声的真值图;对所有配准后的图片,计算有效区 域每个像素点的噪声,即“像素点的值/该像素点 的均值”,将该噪声值保存下来。最后利用保存的 噪声数据计算噪声的均值和方差。在 Sandia 实验 室公布的视频上使用该方法计算出来的乘性噪声 均值为 1.052,标准差为 0.096。考虑到噪声估计 存在一定的误差,仿真数据集中添加的是均值为 1,标注差为 0.2 的服从高斯分布的乘性噪声,即 使实际噪声分布和估计的噪声相似,那在强噪声 数据集上训练好的模型也能较好地处理更弱的实 际噪声;反之如果仿真数据集中添加的是估计出 的噪声分布,一旦噪声被低估,模型的泛化能力 就存疑了。 VOC2012 数据集作为基准数据之一,常被用 于对象检测、图像分割网络对比实验与模型效果 评估中,该数据集包含了丰富的场景,因此从 VOC2012 数据集 (共 17 125 张) 的每张图片中各 随机裁剪出 50×50 的图像块,转成灰度图,并逐像 素加入均值为 1,标准差为 0.2 的乘性噪声构成数 据集,然后以 6:2:2 的比例划分为训练集、验证集 和测试集,来训练 RED20 模型。随后应用该模型 抑制 VideoSAR 图像中斑点噪声,第二部分的对 比实验数据表明该方法是可行的。 1.2 基于帧间配准的序列配准 VideoSAR 系统的成像方式分为圆迹式、聚束 ·61· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期
第17卷 智能系统学报 ·62· 式和条带式,不管是哪种模式,都会使得雷达对 此外,配准结果的部分区域没有像素值,如 场景的观测角度和观测距离发生变化,体现在图 图6红框标出的区域所示,这些区域无法用于模 像上就是序列之间会发生平移、旋转、缩放、透视 型初始化和更新。因此,窗口中每一帧与末帧配 等几何畸变。因此在进行像素级背景建模之前, 准时都需要计算出一个有效区域的掩码,将窗口 需要通过配准将同一窗口中的所有图像的背景进 中所有掩码求与,得到窗口掩码,模型初始化、更 行对齐。 新、背景差分均只对窗口掩码区域进行。 配准一组图像的传统方法是直接计算所有图 像相对于参考帧的配准矩阵,假设滑动窗口的总 数是n,长度是s,则每个窗口需要计算s-1次配 准矩阵,一共需要计算n×(s-1)次配准矩阵,计 算量随着窗口长度的线性增加。 因此这里采用文献[2O]提出的一种VideoSAR 图像序列帧间配准方式:对于所有帧,只计算其 与下一帧配准的透视变换矩阵,任意不相邻的 两帧的配准矩阵通过累乘它们之间的所有的配 图6配准产生的无效区域 准矩阵得到。如图4所示,H。~H为图像序列的 Fig.6 Invalid region generated by registration 帧间配准矩阵,当窗口滑动到红色框所示位置 1.3背景建模 时,imgo、img2与img3的配准矩阵分别为 窗口中图像序列进行背景对齐后,使用单高 H×H,×H2、H1×H2、H2,同理当窗口滑动到蓝色框 斯模型进行背景建模,背景像素ⅰ的均值和方差 位置时配准矩阵分别为H1×H2×H3、H2×H、H3。 分别用4和σ表示,初始方差用σ表示,学习率 该方法只需要计算+s-1次配准矩阵,远少于直 用α表示,更新阈值和前景阈值分别用1和2表示, 接配准的n×(s-l)次。 窗口中第1帧中像素点i的值用Ix,y,)表示。本 文中σm2=100,t=1.35,=3,a=0.1,滑动窗口长 度n=20。 首先用窗口中第一帧图像初始化背景,即 img2 img3 1m2 山=I(x,,1),并初始化方差c2=0m2。 然后用第2~n-1帧更新背景和方差,对于 图4帧间快速配准示意图 Fig.4 Schematic diagram of fast inter frame registration I(x,),1e[2,n-1],如果满足: 如图5红框标出区域所示,VideoSAR是对三 (I(,)-4)2<(σ)月 则对和σ进行如下更新,否则不更新: 维场景进行二维成像,对于具有一定高度的物 体,不同的观测角度会得到不同的像,且观测角 02=a(I(x,t)-02+(1-a)c2 4=a(I(x,y,t)-4)+(1-am)4 度差别越大,像的差别越大。理论上两张图像帧 号间隔越小,计算配准矩阵受到干扰越小,因此 最后用第n帧与模型均值进行差分,如果像 素点I(x,y,n)满足: 帧间配准会比直接配准具有更高的精度,第2部 分的实验数据证明确实如此。 (I(,y,n)-4)2>(t2)月 I(xy,n)<4 则判断为前景,否则判断为背景。至此,初步 得到了窗口最后一帧中的动目标阴影。 1.4后处理 1)去除前景中过亮的部分 因为观测角度的变化,静止场景在不同帧之 间的回波强度也会有所不同。图7展示了一个窗 口中的两帧图像,右侧是末帧图像,它既是配准 的参考图,也是需要提取前景的帧;左侧是首帧 图5不同观测角度的成像结果差异 Fig.5 Difference of imaging results from different obser- 图像,它已经和右图配准并用于初始化模型的均 vation angles 值。红框标出了两个同名点,它们在两帧中的灰
式和条带式,不管是哪种模式,都会使得雷达对 场景的观测角度和观测距离发生变化,体现在图 像上就是序列之间会发生平移、旋转、缩放、透视 等几何畸变。因此在进行像素级背景建模之前, 需要通过配准将同一窗口中的所有图像的背景进 行对齐。 配准一组图像的传统方法是直接计算所有图 像相对于参考帧的配准矩阵,假设滑动窗口的总 数是 n,长度是 s,则每个窗口需要计算 s-1 次配 准矩阵,一共需要计算 n×(s-1) 次配准矩阵,计 算量随着窗口长度的线性增加。 因此这里采用文献 [20] 提出的一种 VideoSAR 图像序列帧间配准方式:对于所有帧,只计算其 与下一帧配准的透视变换矩阵,任意不相邻的 两帧的配准矩阵通过累乘它们之间的所有的配 准矩阵得到。如图 4 所示,H0~H3 为图像序列的 帧间配准矩阵,当窗口滑动到红色框所示位置 时 , img 0 、 img 2 与 img 3 的配准矩阵分别 为 H0×H1×H2、H1×H2、H2,同理当窗口滑动到蓝色框 位置时配准矩阵分别为 H1×H2×H3、H2×H、H3。 该方法只需要计算 n+s−1 次配准矩阵,远少于直 接配准的 n×(s−1) 次。 H0 H1 H2 H3 img0 img1 img2 img3 img4 图 4 帧间快速配准示意图 Fig. 4 Schematic diagram of fast inter frame registration 如图 5 红框标出区域所示,VideoSAR 是对三 维场景进行二维成像,对于具有一定高度的物 体,不同的观测角度会得到不同的像,且观测角 度差别越大,像的差别越大。理论上两张图像帧 号间隔越小,计算配准矩阵受到干扰越小,因此 帧间配准会比直接配准具有更高的精度,第 2 部 分的实验数据证明确实如此。 图 5 不同观测角度的成像结果差异 Fig. 5 Difference of imaging results from different observation angles 此外,配准结果的部分区域没有像素值,如 图 6 红框标出的区域所示,这些区域无法用于模 型初始化和更新。因此,窗口中每一帧与末帧配 准时都需要计算出一个有效区域的掩码,将窗口 中所有掩码求与,得到窗口掩码,模型初始化、更 新、背景差分均只对窗口掩码区域进行。 图 6 配准产生的无效区域 Fig. 6 Invalid region generated by registration 1.3 背景建模 µi σi 2 σinit 2 α t1 t2 I(xi , yi ,t) σinit 2 = 100 t1 = 1.35 t2 = 3 α = 0.1 窗口中图像序列进行背景对齐后,使用单高 斯模型进行背景建模,背景像素 i 的均值和方差 分别用 和 表示,初始方差用 表示,学习率 用 表示,更新阈值和前景阈值分别用 和 表示, 窗口中第 t 帧中像素点 i 的值用 表示。本 文中 , , , ,滑动窗口长 度 n=20。 µi = I(xi , yi ,1) σi 2 = σinit 2 首先用窗口中第一帧图像初始化背景,即 ,并初始化方差 。 I(xi , yi ,t) 然后用第 2~n-1 帧更新背景和方差,对于 ,t∈[2,n-1],如果满足: (I(xi , yi ,t)-µi) 2 < (t1σi) 2 µi σi 则对 和 2进行如下更新,否则不更新: { σi 2=α(I(xi , yi ,t)−µ) 2 +(1−α)σi 2 µi = α(I(xi , yi ,t)−µi)+(1−α)µi I(xi , yi ,n) 最后用第 n 帧与模型均值进行差分,如果像 素点 满足: { (I(xi , yi ,n)−µi) 2 > (t2σi) 2 I(xi , yi ,n) < µi 则判断为前景,否则判断为背景。至此,初步 得到了窗口最后一帧中的动目标阴影。 1.4 后处理 1) 去除前景中过亮的部分 因为观测角度的变化,静止场景在不同帧之 间的回波强度也会有所不同。图 7 展示了一个窗 口中的两帧图像,右侧是末帧图像,它既是配准 的参考图,也是需要提取前景的帧;左侧是首帧 图像,它已经和右图配准并用于初始化模型的均 值。红框标出了两个同名点,它们在两帧中的灰 第 17 卷 智 能 系 统 学 报 ·62·
·63· 王鑫,等:基于背景建模的VideoSAR动目标阴影检测方法 第1期 度差别较大,如果左图中两个同名点在背景更新 标阴影的面积范围,并据此对连通区域进行筛 后灰度值变化不大,那么背景差分时,右图比左 选,以消除部分虚警。 图暗的部分(虚线围起的部分)很有可能会被判 3)区域生长剔除假前景 定为动目标阴影。 前面解释了亮背景带来的干扰,并提出了消 除此类干扰的方法,同理暗背景也会产生干扰, 且这种干扰无法用消除亮背景干扰的方式去除。 考虑到动目标阴影与周围区域的对比度较大,而 暗背景干扰与周围区域的对比度通常较小,甚至 多数情况下它们与周围区域是一体的,因此我们 采用区域生长的方式来消除暗背景干扰。 对于前一步得到的每一个连通区域,选择它 图7容易被误分为前景的背景 里面灰度接近该区域灰度均值的点作为种子点。 Fig.7 Background areas that are likely to be mistakenly divided as foreground 接下来是确定生长的上下限,首先计算连通区域 为了消除这种干扰,先将窗口末帧进行直方 的最小包围矩形,并适当扩大该矩形,计算矩形 图均衡化,然后再进行OTSU阈值分割,以得到场 范围内的标准差,该标准差乘以一个常系数,得 景中亮背景的掩码,最后用前景减去该掩码,即 到区域生长的上下生长范围。对于暗背景,该方 式计算到的标准差比较接近其真实标准差,因此 可消除亮背景区域的干扰。图8给出了图7右侧 区域生长会将其与周围背景连成一片,而动目标 图像的亮背景掩码获取过程,虚线围起的区域即 阴影因为与背景对比度较大就不会。剔除区域生 使在差分的时候被视为动目标阴影提取了出来, 长前后面积差值过大和生长结果不符合动目标阴 减去该掩码后即可消除此类干扰。 影尺寸的连通区域,可以一定程度上消除暗背景 的干扰,不过此方法对于那种孤立的暗背景干扰 则效果不佳。本文采样矩形区域尺寸是连通区域 的最小包围矩形尺寸的两倍,标准差系数为5。 2实验结果和讨论 2.1RED20去噪效果 网络训练的学习率为0.0001,batch size设为 l6,采用的优化算法为自适应矩估计(adaptive mo- ment estimation,ADAM),共训l练了110代,第100 代的时候在验证集中的损失最小,且第100代的 模型在测试集上测试时去噪效果良好,为此将第 100代得到的模型应用到VideoSAR图像去噪中, 并与文献[16]使用的cattePM2模型、文献22] 采用小波分析去噪32进行客观指标和视觉质量 的对比。cattePM模型采用和文献[16]一样的参 图8获取亮背景区域掩码示意 数,小波分析去噪的分解层数为3,小波函数为 Fig.8 Schematic diagram of getting the mask of the bright rbiol.1。 background area 本文分别使用3种方法对Sandia实验室公布 2)连通区域筛选 的VideoSAR视频的899帧图像进行了去噪处理, 单高斯模型是像素级的背景建模,尽管前面 因为没有不含噪声的真值图,所以不能采用峰值 已经进行了去噪、配准、滤除亮背景干扰的处理, 信噪比(peak signal-to-noise ratio.,PSNR)和结构相 得到的前景中仍然会存在一些离散噪点和非动目 似度(structural similarity,SSIM)作为评价指标,因 标阴影的小面积连通区域。为此对上一步得到的 此采用等效视数(equivalent number of looks, 前景进行连通区域标记,然后根据待检测目标的 ENL)作为评价标准,ENL值越大,代表图像越平 尺寸、速度范围、雷达分辨率等参数,计算出动目 滑。表1是3种方法的ENL值对比,从数据可以
度差别较大,如果左图中两个同名点在背景更新 后灰度值变化不大,那么背景差分时,右图比左 图暗的部分 (虚线围起的部分) 很有可能会被判 定为动目标阴影。 图 7 容易被误分为前景的背景 Fig. 7 Background areas that are likely to be mistakenly divided as foreground 为了消除这种干扰,先将窗口末帧进行直方 图均衡化,然后再进行 OTSU 阈值分割,以得到场 景中亮背景的掩码,最后用前景减去该掩码,即 可消除亮背景区域的干扰。图 8 给出了图 7 右侧 图像的亮背景掩码获取过程,虚线围起的区域即 使在差分的时候被视为动目标阴影提取了出来, 减去该掩码后即可消除此类干扰。 图 8 获取亮背景区域掩码示意 Fig. 8 Schematic diagram of getting the mask of the bright background area 2) 连通区域筛选 单高斯模型是像素级的背景建模,尽管前面 已经进行了去噪、配准、滤除亮背景干扰的处理, 得到的前景中仍然会存在一些离散噪点和非动目 标阴影的小面积连通区域。为此对上一步得到的 前景进行连通区域标记,然后根据待检测目标的 尺寸、速度范围、雷达分辨率等参数,计算出动目 标阴影的面积范围,并据此对连通区域进行筛 选,以消除部分虚警。 3) 区域生长剔除假前景 前面解释了亮背景带来的干扰,并提出了消 除此类干扰的方法,同理暗背景也会产生干扰, 且这种干扰无法用消除亮背景干扰的方式去除。 考虑到动目标阴影与周围区域的对比度较大,而 暗背景干扰与周围区域的对比度通常较小,甚至 多数情况下它们与周围区域是一体的,因此我们 采用区域生长的方式来消除暗背景干扰。 对于前一步得到的每一个连通区域,选择它 里面灰度接近该区域灰度均值的点作为种子点。 接下来是确定生长的上下限,首先计算连通区域 的最小包围矩形,并适当扩大该矩形,计算矩形 范围内的标准差,该标准差乘以一个常系数,得 到区域生长的上下生长范围。对于暗背景,该方 式计算到的标准差比较接近其真实标准差,因此 区域生长会将其与周围背景连成一片,而动目标 阴影因为与背景对比度较大就不会。剔除区域生 长前后面积差值过大和生长结果不符合动目标阴 影尺寸的连通区域,可以一定程度上消除暗背景 的干扰,不过此方法对于那种孤立的暗背景干扰 则效果不佳。本文采样矩形区域尺寸是连通区域 的最小包围矩形尺寸的两倍,标准差系数为 5。 2 实验结果和讨论 2.1 RED20 去噪效果 网络训练的学习率为 0.000 1,batch_size 设为 16,采用的优化算法为自适应矩估计 (adaptive moment estimation, ADAM),共训练了 110 代,第 100 代的时候在验证集中的损失最小,且第 100 代的 模型在测试集上测试时去噪效果良好,为此将第 100 代得到的模型应用到 VideoSAR 图像去噪中, 并与文献 [16] 使用的 cattePM[21] 模型、文献 [22] 采用小波分析去噪[23-25] 进行客观指标和视觉质量 的对比。cattePM 模型采用和文献 [16] 一样的参 数,小波分析去噪的分解层数为 3,小波函数为 rbio1.1。 本文分别使用 3 种方法对 Sandia 实验室公布 的 VideoSAR 视频的 899 帧图像进行了去噪处理, 因为没有不含噪声的真值图,所以不能采用峰值 信噪比 (peak signal-to-noise ratio, PSNR) 和结构相 似度 (structural similarity, SSIM) 作为评价指标,因 此采用等效视数 (equivalent number of looks, ENL) 作为评价标准,ENL 值越大,代表图像越平 滑。表 1 是 3 种方法的 ENL 值对比,从数据可以 ·63· 王鑫,等:基于背景建模的 VideoSAR 动目标阴影检测方法 第 1 期