第16卷第4期 智能系统学报 Vol.16 No.4 2021年7月 CAAI Transactions on Intelligent Systems Jul.2021 D0:10.11992/tis.202007007 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210412.1346.010.html 基于二进制生成对抗网络的视觉回环检测研究 杨慧,张婷,金晟,陈良,孙荣川,孙立宁 (苏州大学机电工程学院,江苏苏州215021) 摘要:针对现有的回环检测模型大多基于有监督学习进行训练,需要大量标注数据的问题,提出一种视觉回 环检测新方法,利用生成对抗思想设计一个深度网络,以无监督学习的方式训练该网络并提取高区分度和低维 度的二进制特征。将距离传播损失函数和二值化表示嫡损失函数引入神经网络,将高维特征空间的海明距离 关系传播到低维特征空间并增加低维特征表示的多样性,进而利用B0VW模型将提取的局部特征融合为全局 特征用于回环检测。实验结果表明:相比SFT和OB等特征提取方法,所述方法在具有强烈视角变化和外观 变化的复杂场景下具有更好的性能,可以与AlexNet和AMOSNet等有监督深度网络相媲美。但采用无监督学 习,从根本上避免了费时费力的数据标注过程,特别适用于大规模开放场景的回环检测,同时二进制特征描述 符极大地节约了存储空间和计算资源。 关键词:回环检测;无监督学习;二进制描述符;BoVW;视觉SLAM:生成对抗:特征提取:深度学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)04-0673-10 中文引用格式:杨慧,张婷,金晟,等.基于二进制生成对抗网络的视觉回环检测研究.智能系统学报,2021,16(4): 673-682. 英文引用格式:YANG Hui,ZHANG Ting,JIN Sheng,.et al.Visual loop closure detection based on binary generative adversarial networkJ.CAAI transactions on intelligent systems,2021,16(4):673-682. Visual loop closure detection based on binary generative adversarial network YANG Hui,ZHANG Ting,JIN Sheng,CHEN Liang,SUN Rongchuan,SUN Lining (School of Mechanical and Electric Engineering,Soochow University,Suzhou 215021,China) Abstract:In view of the problem that the existing loop closure detection models are mostly trained based on supervised learning and require a large amount of labeled data,this paper proposes a new method for visual loop closure detection. The idea of the generative adversarial network is adopted,and thus,a deep neural network is designed and trained through unsupervised learning methods to extract more discriminative binary feature descriptors with low dimensions. The distance propagation loss function and a binarized representation entropy loss function are introduced into the neur- al network.The first loss function can help spread the Hamming distance relationship of the high-dimensional feature space to the low-dimensional feature space,and the second one increases the diversity of the low-dimensional feature representation.The extracted local features are fused into global features by using the BovW model for further loop closure detection.Experimental results show that the proposed method has better performance than feature extraction al- gorithms such as SIFT and ORB in complex scenes that have a strong viewpoint and appearance changes,and its per- formance is comparable with that of supervised deep networks such as AlexNet and AMOSNet.It is especially suitable for loop closure detection in large-scale open scenes because the time-consuming and tedious process of supervised data annotation is completely avoided with the use of unsupervised learning.Moreover,the binary feature descriptors can greatly save storage space and computing resources. Keywords:loop closure detection;unsupervised learning;binary descriptor;BoVW;visual SLAM;generative ad- versarial;feature extraction;deep learning 收稿日期:2020-07-08.网络出版日期:2021-04-12 基金项目:国家自然科学基金面上项目(61673288). 利用三维空间中的信息进行避障、定位以及 通信作者:陈良.E-mail:chenl@suda.edu.cn. 和三维空间中的物体进行交互对于移动机器人等
DOI: 10.11992/tis.202007007 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210412.1346.010.html 基于二进制生成对抗网络的视觉回环检测研究 杨慧,张婷,金晟,陈良,孙荣川,孙立宁 (苏州大学 机电工程学院,江苏 苏州 215021) 摘 要:针对现有的回环检测模型大多基于有监督学习进行训练,需要大量标注数据的问题,提出一种视觉回 环检测新方法,利用生成对抗思想设计一个深度网络,以无监督学习的方式训练该网络并提取高区分度和低维 度的二进制特征。将距离传播损失函数和二值化表示熵损失函数引入神经网络,将高维特征空间的海明距离 关系传播到低维特征空间并增加低维特征表示的多样性,进而利用 BoVW 模型将提取的局部特征融合为全局 特征用于回环检测。实验结果表明:相比 SIFT 和 ORB 等特征提取方法,所述方法在具有强烈视角变化和外观 变化的复杂场景下具有更好的性能,可以与 AlexNet 和 AMOSNet 等有监督深度网络相媲美。但采用无监督学 习,从根本上避免了费时费力的数据标注过程,特别适用于大规模开放场景的回环检测,同时二进制特征描述 符极大地节约了存储空间和计算资源。 关键词:回环检测;无监督学习;二进制描述符;BoVW;视觉 SLAM;生成对抗;特征提取;深度学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)04−0673−10 中文引用格式:杨慧, 张婷, 金晟, 等. 基于二进制生成对抗网络的视觉回环检测研究 [J]. 智能系统学报, 2021, 16(4): 673–682. 英文引用格式:YANG Hui, ZHANG Ting, JIN Sheng, et al. Visual loop closure detection based on binary generative adversarial network[J]. CAAI transactions on intelligent systems, 2021, 16(4): 673–682. Visual loop closure detection based on binary generative adversarial network YANG Hui,ZHANG Ting,JIN Sheng,CHEN Liang,SUN Rongchuan,SUN Lining (School of Mechanical and Electric Engineering, Soochow University, Suzhou 215021, China) Abstract: In view of the problem that the existing loop closure detection models are mostly trained based on supervised learning and require a large amount of labeled data, this paper proposes a new method for visual loop closure detection. The idea of the generative adversarial network is adopted, and thus, a deep neural network is designed and trained through unsupervised learning methods to extract more discriminative binary feature descriptors with low dimensions. The distance propagation loss function and a binarized representation entropy loss function are introduced into the neural network. The first loss function can help spread the Hamming distance relationship of the high-dimensional feature space to the low-dimensional feature space, and the second one increases the diversity of the low-dimensional feature representation. The extracted local features are fused into global features by using the BoVW model for further loop closure detection. Experimental results show that the proposed method has better performance than feature extraction algorithms such as SIFT and ORB in complex scenes that have a strong viewpoint and appearance changes, and its performance is comparable with that of supervised deep networks such as AlexNet and AMOSNet. It is especially suitable for loop closure detection in large-scale open scenes because the time-consuming and tedious process of supervised data annotation is completely avoided with the use of unsupervised learning. Moreover, the binary feature descriptors can greatly save storage space and computing resources. Keywords: loop closure detection; unsupervised learning; binary descriptor; BoVW; visual SLAM; generative adversarial; feature extraction; deep learning 利用三维空间中的信息进行避障、定位以及 和三维空间中的物体进行交互对于移动机器人等 收稿日期:2020−07−08. 网络出版日期:2021−04−12. 基金项目:国家自然科学基金面上项目 (61673288). 通信作者:陈良. E-mail:chenl@suda.edu.cn. 第 16 卷第 4 期 智 能 系 统 学 报 Vol.16 No.4 2021 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2021
·674· 智能系统学 报 第16卷 自主无人系统来说是必不可少的能力。通常,三 场景识别系统,通过将CNN中高层和中层提取的 维感知能力由定位和建图两部分组成。当前主流 特征相结合,实现了较为鲁棒的大规模场景识别。 的方法支持同步定位与建图,即SLAM(simultan- 上述特征提取方法都存在一定的局限性。 eous localization and mapping)。在SLAM系统中, SURF、SIFT等人工特征描述符无法自动提取图 机器人需要对自身所处的环境进行建图并同时估 片深层特征,需要人为设计特征描述符,随着大 计自己的位姿。视觉SLAM系统主要包括3个 规模开放场景下数据集规模的不断增加,手工设 部分:前端视觉里程计、后端优化、回环检测。 计全面且准确的特征描述符越来越困难。而基 其中,回环检测的目的在于判断机器人所在区域 于CNN等深度学习的方法虽然可以自动提取图 是否处于以前访问过的区域,以便消除机器人在 片的深度特征,但在模型训练时大多使用有监督 长时间导航与定位中产生的累计误差,对于机器 学习,需要大量的有标签数据,而数据的标注过 人进行准确定位以及地图构建起着至关重要的作 程费时费力。 用)。但是,机器人在利用视觉SLAM进行导航 因此,研究基于无监督学习的特征表达,是当 时不可避免地会面临光照变化、季节更替、视角 前机器视觉领域的研究热点和难点。Gao等使 改变、动态场景等情况,这些因素都会导致回环 用堆栈去噪自编码器(stacked denoising auto-en- 检测的性能大大降低,从而影响机器人定位的准 coder,SDA)模型进行无监督回环检测。然而,该 确性以及地图构建的可靠性,因此需要更加鲁棒 方法需要离线训练,且训练集和测试集相同,因 以及稳定的回环检测方法。 此实用性不强。最近,生成对抗网络(generative 针对视觉回环检测问题,目前主流的方法主 adversarial network,GAN)l)作为一种新的无监督 要分为传统方法以及基于深度学习的方法。 学习方法受到越来越多的关注,成为新的研究热 SIFTS(scale invariant feature transform)SURF 点。GAN作为一种优秀的生成模型,与其他生成 (speeded up robust feature)等是目前使用较为广泛 模型,如自编码器(auto-encoder,AE)a、受限玻尔 的传统特征提取方法。前者对尺度及光照都具有 兹曼机(restricted Boltzmann machine,RBM)I)相 一定的鲁棒性,但在提取特征时十分耗时,运行 比,无需大量的先验知识,也无需显式地对生成 效率较为低下。SURF相比于SIFT计算效率有所 数据的分布进行建模。由于GAN独特的对抗式 提高,但对旋转以及尺度变换的鲁棒性却远远低 训练方法,在训练过程中可以从大量的无标签数 于SIFT。SURF和SIFT描述符都属于局部描述 据中无监督地学习数据的特征表达,同时生成高 符,为了让基于局部描述符的方法应用于视觉 质量的样本,相比于传统机器学习算法具有更强 SLAM系统,应用于自然语言处理及检索领域的 大的特征学习以及特征表达能力。因此,GAN被 词袋模型被引入视觉领域,形成了视觉词袋模型 广泛应用于机器视觉等领域。也有学者将GAN BoVW(bag of visual word)。该方法主要分为提 应用于回环检测任务中。该方法从鉴别器的高 取视觉词汇、构建视觉词典、计算相似度3个部 维特征空间中提取特征描述子。但是,该方法提 分。提取视觉词汇即利用SURF或者SIFT提取 取的特征描述子维度较高,会占用大量的存储空 图片的局部特征,形成不同的视觉单词向量。将 间以及计算资源。 所有特征向量进行聚类,构建包含若干视觉词汇 受Shin等的启发,本文以无监督学习的方 的词典。测试时,将输入图片与视觉词典进行对 式训练GAN来进行回环检测。考虑到低维二进 比得到该图片在视觉词典中的直方图,计算两张 制描述子能够降低存储资源的消耗,同时加速回 图片直方图之间的距离即可完成相似度计算。 环检测的决策过程。因此,本文在鉴别器中加入 BoVW模型对于环境变化,例如尺度变化、旋转 激活函数,将传统的非二进制描述子转换成二进 以及视角变化具有鲁棒性,但研究表明该方法在 制描述子。同时为了弥补低维特征所带来的信息 光照变化严重的情况下表现不佳。 损失,提高二进制特征描述符的区分度,使其在 近年来,随着深度学习的迅速发展,越来越多 复杂场景外观变化下具有鲁棒性,本文将距离传 基于深度学习的特征提取方法被提出。Chen等圆 播损失函数Lpr(distance propagating)和二值化表 率先利用ImageNet的预训练卷积神经网络(con- 示嫡损失函数LBRE(binarized representation volutional neural network,CNN)模型提取图片的深 entropy)引入鉴别器中,将高维特征空间的海明距 度特征并与空间和序列滤波器相结合应用于场景 离关系传播到低维特征空间中,并利用BoVW模 识别,实验表明该方法在场景识别中精度较高。 型将提取的局部特征融合为全局特征用于回环检 文献[9]第一次提出了基于卷积神经网络的 测。实验结果表明,该描述符可以解决复杂场景
自主无人系统来说是必不可少的能力。通常,三 维感知能力由定位和建图两部分组成。当前主流 的方法支持同步定位与建图,即 SLAM(simultaneous localization and mapping)。在 SLAM 系统中, 机器人需要对自身所处的环境进行建图并同时估 计自己的位姿[1]。视觉 SLAM 系统主要包括 3 个 部分:前端视觉里程计、后端优化、回环检测[2]。 其中,回环检测的目的在于判断机器人所在区域 是否处于以前访问过的区域,以便消除机器人在 长时间导航与定位中产生的累计误差,对于机器 人进行准确定位以及地图构建起着至关重要的作 用 [3]。但是,机器人在利用视觉 SLAM 进行导航 时不可避免地会面临光照变化、季节更替、视角 改变、动态场景等情况,这些因素都会导致回环 检测的性能大大降低,从而影响机器人定位的准 确性以及地图构建的可靠性,因此需要更加鲁棒 以及稳定的回环检测方法。 针对视觉回环检测问题,目前主流的方法主 要分为传统方法以及基于深度学习的方法[ 4 ]。 SIFT[5] (scale invariant feature transform) 及 SURF[6] (speeded up robust feature) 等是目前使用较为广泛 的传统特征提取方法。前者对尺度及光照都具有 一定的鲁棒性,但在提取特征时十分耗时,运行 效率较为低下。SURF 相比于 SIFT 计算效率有所 提高,但对旋转以及尺度变换的鲁棒性却远远低 于 SIFT。SURF 和 SIFT 描述符都属于局部描述 符,为了让基于局部描述符的方法应用于视觉 SLAM 系统,应用于自然语言处理及检索领域的 词袋模型被引入视觉领域,形成了视觉词袋模型 BoVW[7] (bag of visual word)。该方法主要分为提 取视觉词汇、构建视觉词典、计算相似度 3 个部 分。提取视觉词汇即利用 SURF 或者 SIFT 提取 图片的局部特征,形成不同的视觉单词向量。将 所有特征向量进行聚类,构建包含若干视觉词汇 的词典。测试时,将输入图片与视觉词典进行对 比得到该图片在视觉词典中的直方图,计算两张 图片直方图之间的距离即可完成相似度计算。 BoVW 模型对于环境变化,例如尺度变化、旋转 以及视角变化具有鲁棒性,但研究表明该方法在 光照变化严重的情况下表现不佳。 近年来,随着深度学习的迅速发展,越来越多 基于深度学习的特征提取方法被提出。Chen 等 [8] 率先利用 ImageNet 的预训练卷积神经网络 (convolutional neural network, CNN) 模型提取图片的深 度特征并与空间和序列滤波器相结合应用于场景 识别,实验表明该方法在场景识别中精度较高。 文 献 [ 9 ] 第一次提出了基于卷积神经网络的 场景识别系统,通过将 CNN 中高层和中层提取的 特征相结合,实现了较为鲁棒的大规模场景识别。 上述特征提取方法都存在一定的局限性。 SURF、SIFT 等人工特征描述符无法自动提取图 片深层特征,需要人为设计特征描述符,随着大 规模开放场景下数据集规模的不断增加,手工设 计全面且准确的特征描述符越来越困难。而基 于 CNN 等深度学习的方法虽然可以自动提取图 片的深度特征,但在模型训练时大多使用有监督 学习,需要大量的有标签数据,而数据的标注过 程费时费力。 因此,研究基于无监督学习的特征表达,是当 前机器视觉领域的研究热点和难点。Gao 等 [10] 使 用堆栈去噪自编码器 (stacked denoising auto-encoder, SDA) 模型进行无监督回环检测。然而,该 方法需要离线训练,且训练集和测试集相同,因 此实用性不强。最近,生成对抗网络 (generative adversarial network, GAN)[11] 作为一种新的无监督 学习方法受到越来越多的关注,成为新的研究热 点。GAN 作为一种优秀的生成模型,与其他生成 模型,如自编码器 (auto-encoder,AE)[12] 、受限玻尔 兹曼机 (restricted Boltzmann machine,RBM)[13] 相 比,无需大量的先验知识,也无需显式地对生成 数据的分布进行建模。由于 GAN 独特的对抗式 训练方法,在训练过程中可以从大量的无标签数 据中无监督地学习数据的特征表达,同时生成高 质量的样本,相比于传统机器学习算法具有更强 大的特征学习以及特征表达能力。因此,GAN 被 广泛应用于机器视觉等领域。也有学者将 GAN 应用于回环检测任务中[14]。该方法从鉴别器的高 维特征空间中提取特征描述子。但是,该方法提 取的特征描述子维度较高,会占用大量的存储空 间以及计算资源。 受 Shin 等 [14] 的启发,本文以无监督学习的方 式训练 GAN 来进行回环检测。考虑到低维二进 制描述子能够降低存储资源的消耗,同时加速回 环检测的决策过程。因此,本文在鉴别器中加入 激活函数,将传统的非二进制描述子转换成二进 制描述子。同时为了弥补低维特征所带来的信息 损失,提高二进制特征描述符的区分度,使其在 复杂场景外观变化下具有鲁棒性,本文将距离传 播损失函数 LDP(distance propagating) 和二值化表 示熵损失函数 L BRE (binarized representation entropy) 引入鉴别器中,将高维特征空间的海明距 离关系传播到低维特征空间中,并利用 BoVW 模 型将提取的局部特征融合为全局特征用于回环检 测。实验结果表明,该描述符可以解决复杂场景 ·674· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·675· 下的回环检测问题,对于视角及环境变化具有较 特征。因此,本文利用GAN的鉴别器D作为视 强的鲁棒性,用生成对抗的方式开展无监督回环 觉回环检测任务的特征提取器,其优势在于可以 检测不但是可行的,而且以该方法生成的二进制 充分利用生成对抗的思想进行特征的无监督学 特征描述符具有较高的区分度,减少了低维特征 习,不需要额外的标签数据,也不需要人工干预, 的信息损失。 就可以自动获得区分度高的特征描述符。 综上所述,本文创新点总结如下:1)提出一 文献[16]表明,从鉴别器D的高维中间层中 种视觉回环检测新方法,该方法利用生成对抗的 提取的特征具有更高的区分度,但是高维特征需 思想设计一个深度网络以无监督的方式训练该网 要更多的存储空间以及消耗更多的计算资源。因 络,并利用该网络提取高区分度和低维度的二进 此,大多数研究中都会将高维特征进行降维以减 制特征;2)将距离传播损失函数引入神经网络, 少其对存储空间的占用,提高回环检测的运行速 将高维空间之间的海明距离关系传播到低维空 度。但是降维操作会不可避免地导致特征描述符 间,使高维空间特征与低维空间特征具有相似的 损失信息。因此,本文将距离传播损失函数LD 距离关系;3)将二值化表示熵损失函数引入神经 和二值化表示熵损失函数LBE引入生成对抗网络 网络,提高了低维特征空间二进制描述符的多样 的无监督学习过程,将高维特征空间的海明距离 性,进一步弥补低维特征所带来的信息损失; 关系传播到低维特征空间中并增加低维特征表示 4)利用BoVW模型将提取的局部特征融合为全 局特征,有助于大规模开放场景下的回环检测。 的多样性,获得更紧凑的二进制特征描述符。 综上所述,本文将改进后的生成对抗网络称 1无监督二进制描述符的提出 为二进制生成对抗网络,基于无监督学习从二进 制生成对抗网络的鉴别器D中提取的二进制特 1.1生成对抗思想 征向量称为无监督二进制描述符。 GAN由生成器G(Generator)和鉴别器DDis- criminator)组成,二者在训练时相互对抗,相互进 2无监督视觉回环检测方法 化。在训练时,生成器G的主要目标是学习潜在 样本的数据分布,并生成尽可能真实的新样本以 2.1方法总体框架 骗过鉴别器D,而鉴别器D则要判断出输入数据 本文基于所提出的基于二进制生成对抗网络 的真实性,即输入数据是来自真实数据还是来自 进行视觉回环检测的新方法的总体框架如图1 由生成器G生成的虚假数据。根据上述思想, 所示。 Goodfellow等]给出了GAN的损失函数: 模型训练阶段 回环检测阶段 min max V(D,G)=E [log(D(x)]+ (1) E:-p.(2 [log(1-D(G()))] 输入训练图片 输入当前帧 式中:x表示真实数据;D(x)为鉴别器判断x为真 图片 实数据的可能性;z代表输入生成器的随机变量; G)为生成器G生成的尽量服从真实数据分布的 SURF检测/ SURF检测/ 构造局部图片 构造局部图片 虚假样本;D(G()表示鉴别器D判断G()为虚 假数据的概率。鉴别器D的目标是对输入数据 结构和参数 进行正确的二分类,而生成器G的目标则是让其 无监督模型 共享 已训练的模型 生成的虚假数据Ge)在鉴别器D上的表现DG(e) 训练 和真实数据x在鉴别器D上的表现D(x)尽可能 一致。 提取无监督 更新 提取当前顿图片无 二进制描述符 监督二进制描述符 1.2无监督二进制描述符的定义 GAN不仅具有强大的生成能力,而且研究表 明可将GAN的鉴别器D作为特征提取器,其表 构建词汇树 词汇树 回环检测 现同样令人满意s16。原因在于GAN在进行对 抗训练的过程中,生成器G会生成质量不断提高 图1无监督视觉回环检测总体框架 的虚假图像,而鉴别器为了提高判断准确性,不 Fig.1 Overall framework of unsupervised visual loop clos- 断提升自身的特征表达能力以提取更有区分度的 ure detection
下的回环检测问题,对于视角及环境变化具有较 强的鲁棒性,用生成对抗的方式开展无监督回环 检测不但是可行的,而且以该方法生成的二进制 特征描述符具有较高的区分度,减少了低维特征 的信息损失。 综上所述,本文创新点总结如下:1) 提出一 种视觉回环检测新方法,该方法利用生成对抗的 思想设计一个深度网络以无监督的方式训练该网 络,并利用该网络提取高区分度和低维度的二进 制特征;2) 将距离传播损失函数引入神经网络, 将高维空间之间的海明距离关系传播到低维空 间,使高维空间特征与低维空间特征具有相似的 距离关系;3) 将二值化表示熵损失函数引入神经 网络,提高了低维特征空间二进制描述符的多样 性,进一步弥补低维特征所带来的信息损失; 4) 利用 BoVW 模型将提取的局部特征融合为全 局特征,有助于大规模开放场景下的回环检测。 1 无监督二进制描述符的提出 1.1 生成对抗思想 GAN 由生成器 G(Generator) 和鉴别器 D(Discriminator) 组成,二者在训练时相互对抗,相互进 化。在训练时,生成器 G 的主要目标是学习潜在 样本的数据分布,并生成尽可能真实的新样本以 骗过鉴别器 D,而鉴别器 D 则要判断出输入数据 的真实性,即输入数据是来自真实数据还是来自 由生成器 G 生成的虚假数据。根据上述思想, Goodfellow 等 [13] 给出了 GAN 的损失函数: min G max D V (D,G) = Ex∼pdata (x) [ log(D(x))] + Ez∼pz(z) [ log(1− D(G(z)))] (1) 式中:x 表示真实数据;D(x) 为鉴别器判断 x 为真 实数据的可能性;z 代表输入生成器的随机变量; G(z) 为生成器 G 生成的尽量服从真实数据分布的 虚假样本;D(G(z)) 表示鉴别器 D 判断 G(z) 为虚 假数据的概率。鉴别器 D 的目标是对输入数据 进行正确的二分类,而生成器 G 的目标则是让其 生成的虚假数据 G(z) 在鉴别器 D 上的表现 D(G(z)) 和真实数据 x 在鉴别器 D 上的表现 D(x) 尽可能 一致。 1.2 无监督二进制描述符的定义 GAN 不仅具有强大的生成能力,而且研究表 明可将 GAN 的鉴别器 D 作为特征提取器,其表 现同样令人满意[15-16]。原因在于 GAN 在进行对 抗训练的过程中,生成器 G 会生成质量不断提高 的虚假图像,而鉴别器为了提高判断准确性,不 断提升自身的特征表达能力以提取更有区分度的 特征。因此,本文利用 GAN 的鉴别器 D 作为视 觉回环检测任务的特征提取器,其优势在于可以 充分利用生成对抗的思想进行特征的无监督学 习,不需要额外的标签数据,也不需要人工干预, 就可以自动获得区分度高的特征描述符。 文献 [16] 表明,从鉴别器 D 的高维中间层中 提取的特征具有更高的区分度,但是高维特征需 要更多的存储空间以及消耗更多的计算资源。因 此,大多数研究中都会将高维特征进行降维以减 少其对存储空间的占用,提高回环检测的运行速 度。但是降维操作会不可避免地导致特征描述符 损失信息。因此,本文将距离传播损失函数 LDP 和二值化表示熵损失函数 LBRE 引入生成对抗网络 的无监督学习过程,将高维特征空间的海明距离 关系传播到低维特征空间中并增加低维特征表示 的多样性,获得更紧凑的二进制特征描述符。 综上所述,本文将改进后的生成对抗网络称 为二进制生成对抗网络,基于无监督学习从二进 制生成对抗网络的鉴别器 D 中提取的二进制特 征向量称为无监督二进制描述符。 2 无监督视觉回环检测方法 2.1 方法总体框架 本文基于所提出的基于二进制生成对抗网络 进行视觉回环检测的新方法的总体框架如图 1 所示。 结构和参数 共享 模型训练阶段 输入训练图片 SURF 检测/ 构造局部图片 SURF 检测/ 构造局部图片 无监督模型 训练 提取无监督 二进制描述符 构建词汇树 更新 词汇树 回环检测阶段 输入当前帧 图片 已训练的模型 提取当前帧图片无 监督二进制描述符 回环检测 图 1 无监督视觉回环检测总体框架 Fig. 1 Overall framework of unsupervised visual loop closure detection 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·675·
·676· 智能系统学报 第16卷 在模型训练阶段,首先利用SURF进行关键 为二进制特征向量。 点检测并构造局部图片,基于下文所述的距离传 两个二进制向量之间的海明距离可以用下式 播损失函数以及二值化表示熵损失函数交替训练 进行计算: 鉴别器D及生成器G,利用训练好的二进制生成 dH(b,b)=A-(b,Tb+(b,-1)(b-1) (3) 对抗网络的鉴别器D提取无监督二进制描述符, 式中:A是二进制特征向量的维度,因此可以用点 并基于BoVW方法构建词汇树。在回环检测阶 积反映两个二进制特征向量之间的距离关系,令: 段,将实时获取的图像帧进行同样的关键点检测 并构造局部图片,利用已训练好的模型提取当前 Dotb,=b:'b,+(b-1)T(b,-1) (4) 帧图片的无监督二进制描述符,与现有词汇树进 Dotb,越大,则二进制向量b,、b,之间距离越 行比较以判断是否存在回环;当系统在大规模开 相近,反之亦然。因此本文将提出的用于回环检 放场景下运行,可以根据需要更新词汇树,以提 测问题的距离传播损失函数定义为 高所述方法的适应性。 Do 2.2构造局部图片 N(N-1) M 本研究属于基于局部特征的回环检测方法。 式中:N是一个batch的大小;Dot为高维特征空 为获取图像的局部特征,首先将数据集中的全局 间中二进制特征表示b,与b,之间的点积值,同理 图片进行分割以获取所需的局部图片。对于数据 Do,则表示低维特征空间二进制特征表示之间 集中的每一张图片,本文利用SURF描述符检测 的点积值。同时,为了使高维特征空间与低维特 关键点,将接近图片边缘的关键点丢弃后,以剩 征空间中二进制特征表示之间的海明距离具有可 余每个关键点为中心构建尺寸为32×32的局部图 比性,需要对点积值进行归一化处理。 片。图2为SURF关键点的检测和构造局部图片 在利用深度学习进行特征提取时,为了获得 的示意图。下文将介绍如何利用这些局部图片对 好的特征表达,一般会提取高维空间的特征描述 模型进行无监督训练。 子,虽然这样得到的特征向量表现较好,但是其 维度过大,会占用过多的存储空间及计算资源。 ■■里 通过使用距离传播损失函数LD,可以得到低维且 32×32 区分度高的二进制特征向量,就可以在好的特征 全局图片 提取特征点 剔除边缘点 局部图片 表达和高效的计算效率之间求取平衡。 图2局部图片的构造 2.4二值化表示熵损失函数 Fig.2 Local image patch construction 相比于高维特征描述子,低维特征描述子不 2.3距离传播损失函数 可避免地会面临信息的损失,因此为了进一步提 为了获得低维且区分度高的无监督二进制描 高低维特征空间中二进制特征表示的信息多样 述符,本文在GAN的鉴别器中加入了距离传播 性,本文利用了二值化表示熵损失函数LE,这一 损失函数LDP。该损失函数的作用在于将高维特 损失函数在文献[18]中被提出,它由边缘嫡 征空间中的关系映射到低维空间,也就是说,在 LMe(marginal entropy)及激话相关Lac(activation 鉴别器D的高维特征空间和低维特征空间之间 correlation)两部分组成: 传播海明距离,使这两层之间具有相似的距离关 LBRE LME LAC (6) 系。为了达到这个目标,需要迫使鉴别器D的高 LBRE通过最大化联合熵降低低维特征空间中 维特征空间和低维特征空间的输出具有相似的归 特征向量之间的联系,以增加其多样性。利用二 化点积结果。 值化表示熵损失函数LBE可以提高特征描述符的 假设L(x)表示鉴别器D中神经元个数为 区分度,从而增强鉴别器对于真实数据以及虚假 K的低维中间层,H(x)表示神经元个数为M的高 数据的区分能力。如此一来,利用连接鉴别器与 维中间层。为了将特征空间中连续的特征向量转 生成器的损失函数则可以提高生成器对于潜在样 化为相应的二进制特征向量b、b,本文使用以下 本分布的估计能力。对视觉回环检测而言,使用 激活函数叨: 二值化表示熵损失函数LE不仅可以使得鉴别器 BAF(x)=E(s(x)-0.5) (2) 输出高区分度的二进制描述符提高模型在回环检 式中:s()为阶跃函数,s(x)为sigmoid函数。利用 测阶段的性能,而且可以加快无监督学习进程使 该激活函数可将处于[0,1]的连续特征向量转换 得模型收敛更快
在模型训练阶段,首先利用 SURF 进行关键 点检测并构造局部图片,基于下文所述的距离传 播损失函数以及二值化表示熵损失函数交替训练 鉴别器 D 及生成器 G,利用训练好的二进制生成 对抗网络的鉴别器 D 提取无监督二进制描述符, 并基于 BoVW 方法构建词汇树。在回环检测阶 段,将实时获取的图像帧进行同样的关键点检测 并构造局部图片,利用已训练好的模型提取当前 帧图片的无监督二进制描述符,与现有词汇树进 行比较以判断是否存在回环;当系统在大规模开 放场景下运行,可以根据需要更新词汇树,以提 高所述方法的适应性。 2.2 构造局部图片 本研究属于基于局部特征的回环检测方法。 为获取图像的局部特征,首先将数据集中的全局 图片进行分割以获取所需的局部图片。对于数据 集中的每一张图片,本文利用 SURF 描述符检测 关键点,将接近图片边缘的关键点丢弃后,以剩 余每个关键点为中心构建尺寸为 32×32 的局部图 片。图 2 为 SURF 关键点的检测和构造局部图片 的示意图。下文将介绍如何利用这些局部图片对 模型进行无监督训练。 全局图片 提取特征点 剔除边缘点 局部图片 32×32 图 2 局部图片的构造 Fig. 2 Local image patch construction 2.3 距离传播损失函数 为了获得低维且区分度高的无监督二进制描 述符,本文在 GAN 的鉴别器中加入了距离传播 损失函数 LDP。该损失函数的作用在于将高维特 征空间中的关系映射到低维空间,也就是说,在 鉴别器 D 的高维特征空间和低维特征空间之间 传播海明距离,使这两层之间具有相似的距离关 系。为了达到这个目标,需要迫使鉴别器 D 的高 维特征空间和低维特征空间的输出具有相似的归 一化点积结果。 假设 L( x ) 表示鉴别器 D 中神经元个数为 K 的低维中间层, H(x) 表示神经元个数为 M 的高 维中间层。为了将特征空间中连续的特征向量转 化为相应的二进制特征向量 bL、bH,本文使用以下 激活函数[17] : BAF(x) = ε(s(x)−0.5) (2) 式中:ε(·) 为阶跃函数, s(x) 为 sigmoid 函数。利用 该激活函数可将处于 [0,1] 的连续特征向量转换 为二进制特征向量。 两个二进制向量之间的海明距离可以用下式 进行计算: dH ( bi , bj ) = A− ( bi T bj +(bi −1) T ( bj −1 ) ) (3) 式中:A 是二进制特征向量的维度,因此可以用点 积反映两个二进制特征向量之间的距离关系,令: Dotbi,bj = bi T bj +(bi −1) T ( bj −1 ) (4) Dotbi,bj 越大,则二进制向量 bi、bj 之间距离越 相近,反之亦然。因此本文将提出的用于回环检 测问题的距离传播损失函数定义为 LDP = 1 N (N −1) ∑N i, j=1,i,j DotH i, j M − DotL i, j K (5) DotH i, j DotL i, j 式中:N 是一个 batch 的大小; 为高维特征空 间中二进制特征表示 bi 与 bj 之间的点积值,同理 则表示低维特征空间二进制特征表示之间 的点积值。同时,为了使高维特征空间与低维特 征空间中二进制特征表示之间的海明距离具有可 比性,需要对点积值进行归一化处理。 在利用深度学习进行特征提取时,为了获得 好的特征表达,一般会提取高维空间的特征描述 子,虽然这样得到的特征向量表现较好,但是其 维度过大,会占用过多的存储空间及计算资源。 通过使用距离传播损失函数 LDP,可以得到低维且 区分度高的二进制特征向量,就可以在好的特征 表达和高效的计算效率之间求取平衡。 2.4 二值化表示熵损失函数 相比于高维特征描述子,低维特征描述子不 可避免地会面临信息的损失,因此为了进一步提 高低维特征空间中二进制特征表示的信息多样 性,本文利用了二值化表示熵损失函数 LBRE,这一 损失函数在文 献 [ 1 8 ] 中被提出,它由边缘 熵 LME(marginal entropy) 及激活相关 LAC(activation correlation) 两部分组成: LBRE = LME + LAC (6) LBRE 通过最大化联合熵降低低维特征空间中 特征向量之间的联系,以增加其多样性。利用二 值化表示熵损失函数 LBRE 可以提高特征描述符的 区分度,从而增强鉴别器对于真实数据以及虚假 数据的区分能力。如此一来,利用连接鉴别器与 生成器的损失函数则可以提高生成器对于潜在样 本分布的估计能力。对视觉回环检测而言,使用 二值化表示熵损失函数 LBRE 不仅可以使得鉴别器 输出高区分度的二进制描述符提高模型在回环检 测阶段的性能,而且可以加快无监督学习进程使 得模型收敛更快。 ·676· 智 能 系 统 学 报 第 16 卷
第4期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·677· 2.5网络设计 从该层提取高维特征描述子,将包含256个神经 所设计的用于视觉回环检测的二进制生成对 元的NN层作为低维特征空间,提取低维特征描 抗网络模型如图3所示。鉴别器D包含7个卷积 述子。生成器G包含一个全连接层及3个反卷积 层,其中卷积核大小为3×3,通道数分别为{96, 层,其中卷积核大小为5×5,通道数分别为{256, 96,96,128,128,128,128},stride为{1,1,2,1,1, 128,3}。生成器的输入为维度100的随机噪声, 2,I},两个NN(network-in-network)结构(神经元 输出为尺寸为32×32的虚假图像,并将该虚假图 个数分别为256、128)以及一个全连接层。本文 像作为输入与真实图像同时输入鉴别器中,而鉴 将最后一个卷积层CONV7作为高维特征空间, 别器的输出则为输入图像为真的概率。 44444444444444=4444444444 ECONV3 输人可 DECONVIDECONV2 投 生成 随机 图片 噪声已 100512@4×4256@8×8128@16×163@32×32 ONVI CONV2 CONV3 生成器 真实 图片 3@32×3296@32×3296@32×32 g×16 CONV4 CONV CONV7 CONV6 N 128a 128a 128@ 128a 8×8 16×16 鉴别器 图3用于视觉回环检测的网络模型 Fig.3 Network model for visual loop closure detection 2.6模型训练 表1参数设置表 本文使用无监督的方法对模型进行训练,交 Table 1 Parameter setting 替训练鉴别器D及生成器G。GAN训练的总目 参数 大小 参数 大小 标函数、生成器G的损失函数与文献[11]相同。 batch-size 25 局部图片长 32 根据前文所述,鉴别器D训练时的损失函数可以 epoch 100 局部图片宽 32 表示为 learning-rate 0.0003 ApP 0.5 L=LD+dDP·LDP+BRE·LBRE (7) momentum 0.5 ABRE 0.1 其中Lp是Goodfellow等给出原始损失函数,即 Lo =-E-p(c[log(D(x))]- 3 实验 (8) E:-p.([log(1-D(G(2))] 3.1实验数据集 Dp与BRE为超参数,加入这两个超参数的目 本文选择的训练集为Places365-Standard 的在于调节距离传播损失函数以及二值化表示嫡 该数据集包含365个互不相关的场景类别,且无 损失函数对于鉴别器目标函数的影响。在实验部 任何的标签数据。在本实验中,为了加快模型训 分将通过改变D与BE的值验证距离传播损失 练速度,减少训练时间,只选取了该数据集前 函数以及二值化表示熵损失函数对整个模型性能 2000张图片作为训练集(也可以增加训练样本), 以及训练过程的影响。 并将训练集中的图片进行分割后,最终获得 2.7参数设置 140000张局部图片。 本文所述模型和训练算法共有8个超参数, 本文选取3个数据集作为测试集进行验证, 实验中设置的具体值如表1所示。所述参数值并 分别是NC(new college)数据集、CC(city centre)数 非唯一值,可以根据具体情况进行调整以加速训 据集以及KAIST(korea advanced institute of science 练过程。图像分割后的局部图片大小为32×32, and technology)数据集。NC数据集和CC数据集 为默认值。众所周知,GAN的训练相对困难, 是由英国牛津大学移动机器人小组发布的数据 Dp与BRE与特征提取能力相关,同时,合适的数 集2o。其中CC数据集由左右两边搭载相机的移 值可以加快模型的训练过程,使得模型收敛速度 动设备沿着2km的城市路段所收集,包含行人、 更快,表中数值为优选值。 移动的汽车等动态物体,而且视角及外观变化较
2.5 网络设计 所设计的用于视觉回环检测的二进制生成对 抗网络模型如图 3 所示。鉴别器 D 包含 7 个卷积 层,其中卷积核大小为 3×3,通道数分别为{96, 96,96,128,128,128,128},stride 为{1,1,2,1,1, 2,1},两个 NIN(network-in-network) 结构 (神经元 个数分别为 256、128) 以及一个全连接层。本文 将最后一个卷积层 CONV7 作为高维特征空间, 从该层提取高维特征描述子,将包含 256 个神经 元的 NIN 层作为低维特征空间,提取低维特征描 述子。生成器 G 包含一个全连接层及 3 个反卷积 层,其中卷积核大小为 5×5,通道数分别为{256, 128,3}。生成器的输入为维度 100 的随机噪声, 输出为尺寸为 32×32 的虚假图像,并将该虚假图 像作为输入与真实图像同时输入鉴别器中,而鉴 别器的输出则为输入图像为真的概率。 . . . . . . 生成器 输入 随机 噪声 生成 图片 真实 图片 LG LD LBRE LDP 鉴别器 投影 100 512@4×4 256@8×8 128@16×16 3@32×32 3@32×32 96@32×32 128@ 6×6 128@ 8×8 128@ 16×16 128@ 16×16 96@32×32 96@16×16 DECONV1DECONV2 DECONV3 2 128 256 FC NIN2 NIN1 CONV1 CONV2 CONV3 CONV4 CONV5 CONV6 CONV7 图 3 用于视觉回环检测的网络模型 Fig. 3 Network model for visual loop closure detection 2.6 模型训练 本文使用无监督的方法对模型进行训练,交 替训练鉴别器 D 及生成器 G。GAN 训练的总目 标函数、生成器 G 的损失函数与文献 [11] 相同。 根据前文所述,鉴别器 D 训练时的损失函数可以 表示为 L = LD +λDP · LDP +λBRE · LBRE (7) 其中 LD 是 Goodfellow 等 [11] 给出原始损失函数,即 LD = −Ex∼pdata (x) [ log(D(x))] − Ez∼pz(z) [ log(1− D(G(z)))] (8) λDP 与 λBRE 为超参数,加入这两个超参数的目 的在于调节距离传播损失函数以及二值化表示熵 损失函数对于鉴别器目标函数的影响。在实验部 分将通过改变 λDP 与 λBRE 的值验证距离传播损失 函数以及二值化表示熵损失函数对整个模型性能 以及训练过程的影响。 2.7 参数设置 本文所述模型和训练算法共有 8 个超参数, 实验中设置的具体值如表 1 所示。所述参数值并 非唯一值,可以根据具体情况进行调整以加速训 练过程。图像分割后的局部图片大小为 32×32, 为默认值。众所周知,GAN 的训练相对困难, λDP 与 λBRE 与特征提取能力相关,同时,合适的数 值可以加快模型的训练过程,使得模型收敛速度 更快,表中数值为优选值。 表 1 参数设置表 Table 1 Parameter setting 参数 大小 参数 大小 batch-size 25 局部图片长 32 epoch 100 局部图片宽 32 learning-rate 0.0003 λDP 0.5 momentum 0.5 λBRE 0.1 3 实验 3.1 实验数据集 本文选择的训练集为 Places365-Standard[19] , 该数据集包含 365 个互不相关的场景类别,且无 任何的标签数据。在本实验中,为了加快模型训 练速度,减少训练时间,只选取了该数据集前 2 000 张图片作为训练集 (也可以增加训练样本), 并将训练集中的图片进行分割后,最终获得 140000 张局部图片。 本文选取 3 个数据集作为测试集进行验证, 分别是 NC(new college) 数据集、CC(city centre) 数 据集以及 KAIST(korea advanced institute of science and technology) 数据集。NC 数据集和 CC 数据集 是由英国牛津大学移动机器人小组发布的数据 集 [20]。其中 CC 数据集由左右两边搭载相机的移 动设备沿着 2 km 的城市路段所收集,包含行人、 移动的汽车等动态物体,而且视角及外观变化较 第 4 期 杨慧,等:基于二进制生成对抗网络的视觉回环检测研究 ·677·