工程科学学报 Chinese Journal of Engineering 基于环境语义信息的同步定位与地图构建方法综述 李小侍何伟朱世强李月华谢天 Survey of simultaneous localization and mapping based on environmental semantic information LI Xiao-qian,HE Wei,ZHU Shi-qiang,LI Yue-hua,XIE Tian 引用本文: 李小倩,何伟,朱世强,李月华,谢天.基于环境语义信息的同步定位与地图构建方法综述.工程科学学报,2021,43(6): 754-767.doi:10.13374j.issn2095-9389.2020.11.09.006 LI Xiao-qian,HE Wei.ZHU Shi-qiang,LI Yue-hua,XIE Tian.Survey of simultaneous localization and mapping based on environmental semantic information [J].Chinese Journal of Engineering,2021,43(6):754-767.doi:10.13374/j.issn2095- 9389.2020.11.09.006 在线阅读View online:https::/doi.org10.13374.issn2095-9389.2020.11.09.006 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020,42(5):557 https:1doi.org/10.13374.issn2095-9389.2019.03.21.003 基于UWB的地下定位算法和拓扑优化 An underground localization algorithm and topology optimization based on ultra-wideband 工程科学学报.2018.40(6):743 https::/1doi.org/10.13374斩.issn2095-9389.2018.06.013 视线追踪中一种新的由粗及精的瞳孔定位方法 A new pupil localization method from rough to precise in gaze tracking 工程科学学报.2019,41(11):1484 https:oi.org/10.13374.issn2095-9389.2017.09.06.005 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020,42(11:1525htps:/1doi.org10.13374.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6:817htps:/oi.org10.13374.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10,:1229htps:/oi.org10.13374.issn2095-9389.2019.03.27.002
基于环境语义信息的同步定位与地图构建方法综述 李小倩 何伟 朱世强 李月华 谢天 Survey of simultaneous localization and mapping based on environmental semantic information LI Xiao-qian, HE Wei, ZHU Shi-qiang, LI Yue-hua, XIE Tian 引用本文: 李小倩, 何伟, 朱世强, 李月华, 谢天. 基于环境语义信息的同步定位与地图构建方法综述[J]. 工程科学学报, 2021, 43(6): 754-767. doi: 10.13374/j.issn2095-9389.2020.11.09.006 LI Xiao-qian, HE Wei, ZHU Shi-qiang, LI Yue-hua, XIE Tian. Survey of simultaneous localization and mapping based on environmental semantic information [J]. Chinese Journal of Engineering, 2021, 43(6): 754-767. doi: 10.13374/j.issn2095- 9389.2020.11.09.006 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.11.09.006 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 基于UWB的地下定位算法和拓扑优化 An underground localization algorithm and topology optimization based on ultra-wideband 工程科学学报. 2018, 40(6): 743 https://doi.org/10.13374/j.issn2095-9389.2018.06.013 视线追踪中一种新的由粗及精的瞳孔定位方法 A new pupil localization method from rough to precise in gaze tracking 工程科学学报. 2019, 41(11): 1484 https://doi.org/10.13374/j.issn2095-9389.2017.09.06.005 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002
工程科学学报.第43卷.第6期:754-767.2021年6月 Chinese Journal of Engineering,Vol.43,No.6:754-767,June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.11.09.006;http://cje.ustb.edu.cn 基于环境语义信息的同步定位与地图构建方法综述 李小倩,何伟,朱世强,李月华四,谢天 之江实验室,杭州311100 ☒通信作者,E-mail:liyh@zhejianglab.com 摘要同步定位与地图构建技术(SLAM)是当前机器人领域的重要研究热点,传统的SLAM技术虽然在实时性方面已经达 到较高的水平,但在定位精度和鲁棒性等方面还存在较大缺陷,所构建的环境地图虽然一定程度上满足了机器人的定位需 要,但不足以支撑机器人自主完成导航、避障等任务,交互性能不足.随着深度学习技术的发展,利用深度学习方法提取环境 语义信息,并与SLAM技术结合,越来越受到学者的关注.本文综述了环境语义信息应用到同步定位与地图构建领域的最新 研究进展,重点介绍和总结了语义信息与传统视觉SLAM在系统定位和地图构建方面结合的突出研究成果,并对传统视觉 SLAM算法与语义SLAM算法做了深入的对比研究.最后,展望了语义SLAM研究的发展方向. 关键词视觉同步定位与地图构建技术:深度学习:系统定位;地图构建:语义同步定位与地图构建技术 分类号TP24 Survey of simultaneous localization and mapping based on environmental semantic information LI Xiao-gian,HE Wei.ZHU Shi-giang,LI Yue-hud.XIE Tian Zhejiang Lab,Hangzhou 311100,China Corresponding author,E-mail:liyh@zhejianglab.com ABSTRACT The simultaneous localization and mapping(SLAM)technique is an important research direction in robotics.Although the traditional SLAM has reached a high level of real-time performance,major shortcomings still remain in its positioning accuracy and robustness.Using traditional SLAM,a geometric environment map can be constructed that can satisfy the pose estimation of robots. However,the interactive performance of this map is insufficient to support a robot in completing self-navigation and obstacle avoidance. One popular practical application of SLAM is to add semantic information by combining deep learning methods with SLAM.Systems that introduce environmental semantic information belong to semantic SLAM systems.Introduction of semantic information is of great significance for improving the positioning performance of a robot,optimizing the robustness of the robot system,and improving the scene-understanding ability of the robot.Semantic information improves recognition accuracy in complex scenes,which brings more optimization conditions for an odometer,pose estimation,and loop detection,etc.Therefore,positioning accuracy and robustness is improved.Moreover,semantic information aids in the promotion of data association from the traditional pixel level to the object level so that the perceived geometric environmental information can be assigned with semantic tags to obtain a high-level semantic map.This then aids a robot in understanding an autonomous environment and human-computer interaction.This paper summarized the latest researches that apply semantic information to SLAM.The prominent achievements of semantics combined with the traditional visual SLAM of localization and mapping were also discussed.In addition,the semantic SLAM was compared with the traditional SLAM in 收稿日期:2020-11-09 基金项目:国家重点研发计划资助项目(2018AAA0102703):科工局稳定支持项目(HTKJ2019KL502005):第67批中国博士后科学基金面 上资助项目(HTKJ2019KL502005)
基于环境语义信息的同步定位与地图构建方法综述 李小倩,何 伟,朱世强,李月华苣,谢 天 之江实验室,杭州 311100 苣通信作者,E-mail: liyh@zhejianglab.com 摘 要 同步定位与地图构建技术(SLAM)是当前机器人领域的重要研究热点,传统的 SLAM 技术虽然在实时性方面已经达 到较高的水平,但在定位精度和鲁棒性等方面还存在较大缺陷,所构建的环境地图虽然一定程度上满足了机器人的定位需 要,但不足以支撑机器人自主完成导航、避障等任务,交互性能不足. 随着深度学习技术的发展,利用深度学习方法提取环境 语义信息,并与 SLAM 技术结合,越来越受到学者的关注. 本文综述了环境语义信息应用到同步定位与地图构建领域的最新 研究进展,重点介绍和总结了语义信息与传统视觉 SLAM 在系统定位和地图构建方面结合的突出研究成果,并对传统视觉 SLAM 算法与语义 SLAM 算法做了深入的对比研究. 最后,展望了语义 SLAM 研究的发展方向. 关键词 视觉同步定位与地图构建技术;深度学习;系统定位;地图构建;语义同步定位与地图构建技术 分类号 TP24 Survey of simultaneous localization and mapping based on environmental semantic information LI Xiao-qian,HE Wei,ZHU Shi-qiang,LI Yue-hua苣 ,XIE Tian Zhejiang Lab, Hangzhou 311100, China 苣 Corresponding author, E-mail: liyh@zhejianglab.com ABSTRACT The simultaneous localization and mapping (SLAM) technique is an important research direction in robotics. Although the traditional SLAM has reached a high level of real-time performance, major shortcomings still remain in its positioning accuracy and robustness. Using traditional SLAM, a geometric environment map can be constructed that can satisfy the pose estimation of robots. However, the interactive performance of this map is insufficient to support a robot in completing self-navigation and obstacle avoidance. One popular practical application of SLAM is to add semantic information by combining deep learning methods with SLAM. Systems that introduce environmental semantic information belong to semantic SLAM systems. Introduction of semantic information is of great significance for improving the positioning performance of a robot, optimizing the robustness of the robot system, and improving the scene-understanding ability of the robot. Semantic information improves recognition accuracy in complex scenes, which brings more optimization conditions for an odometer, pose estimation, and loop detection, etc. Therefore, positioning accuracy and robustness is improved. Moreover, semantic information aids in the promotion of data association from the traditional pixel level to the object level so that the perceived geometric environmental information can be assigned with semantic tags to obtain a high-level semantic map. This then aids a robot in understanding an autonomous environment and human –computer interaction. This paper summarized the latest researches that apply semantic information to SLAM. The prominent achievements of semantics combined with the traditional visual SLAM of localization and mapping were also discussed. In addition, the semantic SLAM was compared with the traditional SLAM in 收稿日期: 2020−11−09 基金项目: 国家重点研发计划资助项目(2018AAA0102703);科工局稳定支持项目(HTKJ2019KL502005);第 67 批中国博士后科学基金面 上资助项目(HTKJ2019KL502005) 工程科学学报,第 43 卷,第 6 期:754−767,2021 年 6 月 Chinese Journal of Engineering, Vol. 43, No. 6: 754−767, June 2021 https://doi.org/10.13374/j.issn2095-9389.2020.11.09.006; http://cje.ustb.edu.cn
李小倩等:基于环境语义信息的同步定位与地图构建方法综述 755· detail.Finally,future research topics of advanced semantic SLAM were explored.This study aims to serve as a guide for future researchers in applying semantic information to tackle localization and mapping problems KEY WORDS visual simultaneous localization and mapping:deep learning;localization;mapping;semantic simultaneous localization and mapping 同步定位和建图(Simultaneous localization and 的研究进展,并将语义SLAM技术与传统V-SLAM mapping,.SLAM)是机器人利用自身携带的视觉、 技术进行分析和比较.最后,讨论了语义SLAM技 激光等传感器,在完成自身定位的同时构建环境 术最新的研究热点和发展方向,进行总结和展望 地图的过程,是提高机器人智能性、自主性的核心 1语义SLAM系统概述 环节,也是机器人相关研究中的一个基本问题- 通过相机采集图像信息作为环境感知信息源的 同步定位与建图的核心研究内容是机器人对 SLAM系统称为视觉SLAM-(Visual SLAM,V- 自身的状态估计和对环境的感知描述,其中定位 SLAM),与其他SLAM系统(如激光SLAM-)相 可以看作机器人对自身当前状态的估计,而地图 比,V-SLAM可感知更加丰富的色彩、纹理等环境 可以认为是机器人对环境认识、描述的集合.从 信息-剧 应用层面分析,机器人对于“定位”的需求是相似 V-SLAM系统大多将估计相机位姿作为主要 的,即实现对自身位姿的状态估计:而对于地图构 任务,通过多视几何理论构建三维地图.随着机器 建来说,其需求是广泛的 人的应用范围越来越广,使用者对于机器人的智 现代V-SLAM系统主要包括传感器信息读取、 能程度提出了更高的要求,传统利用环境中点、 前端视觉里程计、后端优化和建图4个部分叫,如 线、面等低级别几何特征信息的V-SLAM系统在 图1所示.视觉里程计2(Visual odometry,VO)模 系统定位精度和鲁棒性等方面已表现出明显不 块接收传感器所提供的数据,其任务包括特征 足,特别在应对弱纹理环境、光照变化和动态目标 提取,SLAM初始化,特征跟踪,估计相邻图像间 等方面依然有很多挑战随着深度学习技术的迅 相机的运动,构建局部地图,并根据图像间的多 速发展,其在计算机视觉(Computer vision,CV)的 视几何关系确定机器人位姿,又可称为V-SLAM 各个领域都有着非常成功的应用,在此背景下,近 的前端.后端优化包括位姿优化均和场景重定 年来,越来越多的SLAM研究者使用基于深度学 位),其任务为接收多个时刻视觉里程计估计的 习的方法提取环境语义信息,以获取高层次的场 相机位姿,并结合回环检测信息,进行优化,从而 景感知和理解,并应用在V-SLAM系统中o,辅助 得到全局一致的轨迹和地图.回环检测通过计算 视觉SLAM系统提升定位性能、地图可视化,从而 图像间的相似性判定当前场景与历史某个场景是 赋予机器人更高效的人机交互能力 否一致,并将检测结果输入后端优化,从而解决位 本文专注于对语义SLAM方法进行分析和讨 置估计随时间漂移的问题.最后,机器人根据优化 论,首先系统地介绍和分析环境语义信息与SLAM 后的运动轨迹和三维点云,建立满足任务要求的 系统结合在定位精度、鲁棒性和地图形式等方面 地图 Sensor data Front-end Back-end Mapping Feature extraction Pose optimization Motion trajectory Image Data association Relocalization Environmental map Loop closure detection 图1V-SLAM系统框架 Fig.I Architecture of the V-SLAM system 对SLAM系统而言,引入环境语义信息的SLAM 于提升机器人的定位性能、优化机器人系统的鲁 系统,均属于语义SLAM系统.语义信息的引入,对 棒性、提高机器人的场景理解能力等方面具有重
detail. Finally, future research topics of advanced semantic SLAM were explored. This study aims to serve as a guide for future researchers in applying semantic information to tackle localization and mapping problems. KEY WORDS visual simultaneous localization and mapping;deep learning;localization;mapping;semantic simultaneous localization and mapping 同步定位和建图(Simultaneous localization and mapping, SLAM)是机器人利用自身携带的视觉、 激光等传感器,在完成自身定位的同时构建环境 地图的过程,是提高机器人智能性、自主性的核心 环节,也是机器人相关研究中的一个基本问题[1−2] . 通过相机采集图像信息作为环境感知信息源的 SLAM 系统称为视觉 SLAM[3−4] ( Visual SLAM, VSLAM),与其他 SLAM 系统(如激光 SLAM[5−6] )相 比,V-SLAM 可感知更加丰富的色彩、纹理等环境 信息[7−8] . V-SLAM 系统大多将估计相机位姿作为主要 任务,通过多视几何理论构建三维地图. 随着机器 人的应用范围越来越广,使用者对于机器人的智 能程度提出了更高的要求,传统利用环境中点、 线、面等低级别几何特征信息的 V-SLAM 系统在 系统定位精度和鲁棒性等方面已表现出明显不 足,特别在应对弱纹理环境、光照变化和动态目标 等方面依然有很多挑战[9] . 随着深度学习技术的迅 速发展,其在计算机视觉(Computer vision,CV)的 各个领域都有着非常成功的应用. 在此背景下,近 年来,越来越多的 SLAM 研究者使用基于深度学 习的方法提取环境语义信息,以获取高层次的场 景感知和理解,并应用在 V-SLAM 系统中[10] ,辅助 视觉 SLAM 系统提升定位性能、地图可视化,从而 赋予机器人更高效的人机交互能力. 本文专注于对语义 SLAM 方法进行分析和讨 论,首先系统地介绍和分析环境语义信息与 SLAM 系统结合在定位精度、鲁棒性和地图形式等方面 的研究进展,并将语义 SLAM 技术与传统 V-SLAM 技术进行分析和比较. 最后,讨论了语义 SLAM 技 术最新的研究热点和发展方向,进行总结和展望. 1 语义 SLAM 系统概述 同步定位与建图的核心研究内容是机器人对 自身的状态估计和对环境的感知描述,其中定位 可以看作机器人对自身当前状态的估计,而地图 可以认为是机器人对环境认识、描述的集合. 从 应用层面分析,机器人对于“定位”的需求是相似 的,即实现对自身位姿的状态估计;而对于地图构 建来说,其需求是广泛的. 现代 V-SLAM 系统主要包括传感器信息读取、 前端视觉里程计、后端优化和建图 4 个部分[11] ,如 图 1 所示. 视觉里程计[12] (Visual odometry, VO)模 块接收传感器所提供的数据,其任务包括特征 提取,SLAM 初始化,特征跟踪,估计相邻图像间 相机的运动,构建局部地图,并根据图像间的多 视几何关系确定机器人位姿,又可称为 V-SLAM 的前端. 后端优化包括位姿优化[13−14] 和场景重定 位[15] ,其任务为接收多个时刻视觉里程计估计的 相机位姿,并结合回环检测信息,进行优化,从而 得到全局一致的轨迹和地图. 回环检测通过计算 图像间的相似性判定当前场景与历史某个场景是 否一致,并将检测结果输入后端优化,从而解决位 置估计随时间漂移的问题. 最后,机器人根据优化 后的运动轨迹和三维点云,建立满足任务要求的 地图. Image Feature extraction Sensor data Data association Pose optimization Relocalization Loop closure detection Front-end Back-end Mapping Motion trajectory Environmental map 图 1 V-SLAM 系统框架 Fig.1 Architecture of the V-SLAM system 对 SLAM 系统而言,引入环境语义信息的 SLAM 系统,均属于语义 SLAM 系统. 语义信息的引入,对 于提升机器人的定位性能、优化机器人系统的鲁 棒性、提高机器人的场景理解能力等方面具有重 李小倩等: 基于环境语义信息的同步定位与地图构建方法综述 · 755 ·
.756 工程科学学报,第43卷,第6期 要意义.一方面,借助语义信息提升了复杂场景下 义信息,充分考虑目标对象的大小,使得单目尺度 的识别精度,为视觉里程计、位姿估计、回环检测 初始化处理更加高效和简洁,基于公开数据集的 等带来更多的优化条件,提高了定位精度和鲁棒 实验结果验证了其在各种场景应用中的有效性. 性:另一方面,借助语义信息将数据关联从传统的 (2)面向数据关联 像素级别提升到物体级别,将感知的几何环境信 在V-SLAM框架中,根据更新频率,数据关联 息赋以语义标签,进而得到高层次的语义地图,可 可以被分为两类:短期关联(如特征匹配)和长期关 帮助机器人进行自主环境理解和人机交互 联(如回环检测).基于环境语义信息的SLAM研 2语义与SLAM系统定位 究提出了一种基于中期数据关联机制的新思路. Bowman等Po1利用目标检测,整合尺度信息与 移动机器人对系统定位的性能要求主要包括 语义信息,用于SLAM系统的位姿估计.作者在应 3个方面:定位实时性、定位精度和定位鲁棒性 用时发现,目标对象的不合理数据关联,会严重影 目前SLAM的实时性已达到较高的水平,因此对 响定位与建图的结果.因此提出了概率数据关联 于SLAM技术真实应用于机器人领域,亟需提高 机制,在处理数据关联过程中充分考虑语义信息 SLAM系统的定位精度和鲁棒性.本节针对SLAM 的不确定性.通过引入最大期望估计(Expectation 系统结合环境语义信息提高系统定位的这两项重 maximization,.EM),根据语义分类结果计算数据关 要性能展开介绍. 联的概率,成功地将语义SLAM转换成概率问题, 2.1语义与定位精度 获得了ICRA2017年的最佳论文 定位是确定机器人在其工作环境中所处位置 Lianos等2四在此基础上,提出了全新的视觉 的过程,定位精度是SLAM系统中最为基本也是 语义里程计框架(Visual semantic odometry,VSO), 最重要的考核指标,是移动机器人开展导航和路 利用重投影前后语义标签具有的一致性来实现中 径规划任务的先决条件.利用语义分割和目标检 期(Medium-term)连续点跟踪.使用距离变换将分 测等技术将物体划分为更加具体的目标,非常适 割结果的边缘作为约束,利用重投影误差构造约 合SLAM这种需要精确几何约束问题的系统.结 束条件,整合语义约束到姿态和地图优化中,以 合环境语义信息,可有效改善单目视觉定位过程 改善系统的平移漂移问题.所提算法可以直接融 中的尺度不确定性问题和累积漂移等问题,进而 合进已有的直接法或间接法视觉里程计框架中, 提高系统定位精度 并分别在ORB-SLAM222(间接法VO代表)和 (1)面向单目初始化 PhotoBundle!2(直接法VO代表)系统中对语义信 由于单目相机存在尺度不确定性问题,单目视 息引入的效果进行实验对比,结果表明,添加语义 觉SLAM系统不可避免地出现尺度模糊和随时间 约束后有效减少了系统的平移漂移现象 漂移等现象,无法准确估计移动机器人的位姿6 (3)面向位姿优化 因此,如何修正尺度模糊和漂移是单目视觉SLAM 在V-SLAM系统中,需要解决的主要问题是 系统初始化中的关键问题 机器人的状态估计问题,常见的优化算法为基于 Frost等1刀提出基于混合多尺度可变模型的目 粒子滤波的优化算法和基于非线性优化的算法. 标检测系统I劉检测物体,并与SLAM系统中的关 在基于粒子滤波的优化算法中,可利用环境 键帧进行数据关联,然后对物体尺寸进行估计,生 语义信息更新粒子状态,进而更精准地进行位姿 成地图地标,最后地标与相机位姿共同参与局部 估计.Bavle等P提出了一种基于双目视觉里程计 优化,以解决尺度模糊和漂移的问题,保证了全局 和室内环境语义信息的粒子滤波优化方法,粒子 地图的一致性.Sucar与Hayet在贝叶斯框架内, 滤波器的预测阶段使用双目视觉里程计估计机器 通过基于深度学习的目标检测算法观测物体,确 人的三维姿态,并使用惯性和语义信息更新三维 定其先验高度,然后将局部地图中3D点投影到目 姿势,进而对机器人进行无漂移的姿态估计 标检测的2D图像上,确定目标检测区域的边界点 在基于非线性优化的算法中,可借助目标检 并投影回3D空间,进而确定物体的实际高度,最 测算法,将物体作为路标,融合到一个优化算法 后将先验高度与实际高度之比设置为尺度因子, 中,以提高系统定位精度.Nicholson等提出了 用于单目SLAM系统中的尺度矫正,从而准确估 面向对象的语义SLAM系统QuadricSLAM,利用 计移动机器人位姿.两项研究共同引入了环境语 椭圆体(对偶双曲面)对物体进行三维建模,紧凑
要意义. 一方面,借助语义信息提升了复杂场景下 的识别精度,为视觉里程计、位姿估计、回环检测 等带来更多的优化条件,提高了定位精度和鲁棒 性;另一方面,借助语义信息将数据关联从传统的 像素级别提升到物体级别,将感知的几何环境信 息赋以语义标签,进而得到高层次的语义地图,可 帮助机器人进行自主环境理解和人机交互. 2 语义与 SLAM 系统定位 移动机器人对系统定位的性能要求主要包括 3 个方面:定位实时性、定位精度和定位鲁棒性. 目前 SLAM 的实时性已达到较高的水平,因此对 于 SLAM 技术真实应用于机器人领域,亟需提高 SLAM 系统的定位精度和鲁棒性. 本节针对 SLAM 系统结合环境语义信息提高系统定位的这两项重 要性能展开介绍. 2.1 语义与定位精度 定位是确定机器人在其工作环境中所处位置 的过程,定位精度是 SLAM 系统中最为基本也是 最重要的考核指标,是移动机器人开展导航和路 径规划任务的先决条件. 利用语义分割和目标检 测等技术将物体划分为更加具体的目标,非常适 合 SLAM 这种需要精确几何约束问题的系统. 结 合环境语义信息,可有效改善单目视觉定位过程 中的尺度不确定性问题和累积漂移等问题,进而 提高系统定位精度. (1)面向单目初始化. 由于单目相机存在尺度不确定性问题,单目视 觉 SLAM 系统不可避免地出现尺度模糊和随时间 漂移等现象,无法准确估计移动机器人的位姿[16] . 因此,如何修正尺度模糊和漂移是单目视觉 SLAM 系统初始化中的关键问题. Frost 等[17] 提出基于混合多尺度可变模型的目 标检测系统[18] 检测物体,并与 SLAM 系统中的关 键帧进行数据关联,然后对物体尺寸进行估计,生 成地图地标,最后地标与相机位姿共同参与局部 优化,以解决尺度模糊和漂移的问题,保证了全局 地图的一致性. Sucar 与 Hayet[19] 在贝叶斯框架内, 通过基于深度学习的目标检测算法观测物体,确 定其先验高度,然后将局部地图中 3D 点投影到目 标检测的 2D 图像上,确定目标检测区域的边界点 并投影回 3D 空间,进而确定物体的实际高度,最 后将先验高度与实际高度之比设置为尺度因子, 用于单目 SLAM 系统中的尺度矫正,从而准确估 计移动机器人位姿. 两项研究共同引入了环境语 义信息,充分考虑目标对象的大小,使得单目尺度 初始化处理更加高效和简洁. 基于公开数据集的 实验结果验证了其在各种场景应用中的有效性. (2)面向数据关联. 在 V-SLAM 框架中,根据更新频率,数据关联 可以被分为两类:短期关联(如特征匹配)和长期关 联(如回环检测). 基于环境语义信息的 SLAM 研 究提出了一种基于中期数据关联机制的新思路. Bowman 等[20] 利用目标检测,整合尺度信息与 语义信息,用于 SLAM 系统的位姿估计. 作者在应 用时发现,目标对象的不合理数据关联,会严重影 响定位与建图的结果. 因此提出了概率数据关联 机制,在处理数据关联过程中充分考虑语义信息 的不确定性. 通过引入最大期望估计(Expectation maximization,EM),根据语义分类结果计算数据关 联的概率,成功地将语义 SLAM 转换成概率问题, 获得了 ICRA2017 年的最佳论文. Lianos 等[21] 在此基础上,提出了全新的视觉 语义里程计框架(Visual semantic odometry,VSO), 利用重投影前后语义标签具有的一致性来实现中 期(Medium-term)连续点跟踪. 使用距离变换将分 割结果的边缘作为约束,利用重投影误差构造约 束条件,整合语义约束到姿态和地图优化中,以 改善系统的平移漂移问题. 所提算法可以直接融 合进已有的直接法或间接法视觉里程计框架中, 并 分 别 在 ORB-SLAM2[22] ( 间 接 法 VO 代 表 ) 和 PhotoBundle[23] (直接法 VO 代表)系统中对语义信 息引入的效果进行实验对比,结果表明,添加语义 约束后有效减少了系统的平移漂移现象. (3)面向位姿优化. 在 V-SLAM 系统中,需要解决的主要问题是 机器人的状态估计问题,常见的优化算法为基于 粒子滤波的优化算法和基于非线性优化的算法. 在基于粒子滤波的优化算法中,可利用环境 语义信息更新粒子状态,进而更精准地进行位姿 估计. Bavle 等[24] 提出了一种基于双目视觉里程计 和室内环境语义信息的粒子滤波优化方法. 粒子 滤波器的预测阶段使用双目视觉里程计估计机器 人的三维姿态,并使用惯性和语义信息更新三维 姿势,进而对机器人进行无漂移的姿态估计. 在基于非线性优化的算法中,可借助目标检 测算法,将物体作为路标,融合到一个优化算法 中,以提高系统定位精度. Nicholson 等[25] 提出了 面向对象的语义 SLAM 系统 QuadricSLAM,利用 椭圆体(对偶双曲面)对物体进行三维建模,紧凑 · 756 · 工程科学学报,第 43 卷,第 6 期
李小倩等:基于环境语义信息的同步定位与地图构建方法综述 .757· 地表示物体的大小、位置和方向,并作为路标添加 回率上有很好的表现.此外,所提算法仅通过将查 到优化公式中,联合估计相机位姿和对偶二次曲 询图像的局部描述子转换为词典的视觉词,就能 面,以提高系统的定位精度 判断已访问过的地点,不需要任何预训练的步骤, 类似的,卡内基梅隆大学机器人研究所Yang 能够满足很好的实时性要求 与Scherer提出了CubeSLAM系统,用单目相机 张括嘉等利用YOLOv:3目标检测算法获 实现了对象级的定位与建图.作者利用目标检测 取环境中关键目标的语义信息,建立目标检测结 算法生成2D边界框,通过消失点法(Vanishing 果之间的相对位置关系,根据连续关键帧的相似 points,.VP)生成物体三维立方体,并将物体作为路 度变化情况进行回环判断.所提算法在公开数据 标,结合物体约束信息与几何信息,融合到一个 集上取得了较好的效果,与单纯利用传统视觉特 最小二乘公式中,改善相机位姿估计,提高了 征的算法相比,环境语义信息的应用有效提高了 SLAM的定位精度.与基于特征点的SLAM系统 室内场景下的闭环检测准确性 相比,对象级SLAM系统可以提供更多的几何约 2.2语义与定位鲁棒性 束和尺度一致性,所提算法在公开数据集上得到 定位鲁棒性是机器人安全运行的保证,是移 了较好的位姿估计精度,同时还提高了3D物体的 动机器人系统重要的考量指标.传统的V-SLAM 检测精度.同时,Yang与Scherert7在此基础上,结 系统在纹理特征缺失、光照变化较大和高速动态 合Pop-up SLAM2的思想,提出了一个无需先验 等场景下,非常容易出现定位信息丢失的情况,尤 物体和模型的联合物体和平面估计的单目SLAM 其是在自动驾驶这种对安全性要求较高的应用领 系统.首先,利用高阶图形模型,结合语义和遮挡 域,一旦定位信息丢失,后果将不堪设想.利用环 等约束推断单张图像中的三维物体和平面,然 境语义信息可有效改善传统V-SLAM系统面临的 后将提取的物体和平面,结合相机和特征点位姿, 这些问题,有效提升系统定位的鲁棒性 放在统一的框架中进行优化.实验结果表明,所提 (1)面向弱纹理环境 算法在ICL NUIM和TUM mono数据集中定位精 传统V-SLAM方案中采用的图像特征语义级 度准确,并可以在结构化环境中生成稠密地图. 别低,造成特征的可区别性较弱,在弱纹理等缺少 (4)面向重定位与回环检测 显著特征的环境中,传统基于特征点的方法难以 重定位和回环检测的目的不同,但通常可以 进行准确的运动估计.借助深度学习的方法提取 采用相同的技术.重定位主要是跟踪丢失时重新 环境中的立体特征,并用于优化位姿估计,可提升 找回当前姿态,恢复相机姿态估计;回环检测是识 系统定位鲁棒性 别机器人曾经到过的场景,得到几何一致的映射, Yang等28提出的Pop-up SLAM系统,验证了 从而解决漂移问题,提高全局精度.传统的SLAM 场景理解对弱纹理环境下机器人状态估计改善的 算法大都依赖于低级别的几何特征,使得重定位 有效性.利用深度学习的方法提取环境中墙-地的 和回环检测通常依赖于相机的视角,在特征不明 边界信息,并根据单幅图像生成立体平面模型,同 显或重复性的纹理环境中容易检测失败.语义 时利用平面法线间的差、平面间的距离和平面间 SLAM系统利用目标识别推测标志物的种类和大 的投影重叠3个几何信息进行平面匹配.然后将 小,产生易于识别的标志物,进而提高系统的定位 Pop-up模型提供的深度估计融合到LSD-SLAM 精度 深度图中,提高LSD-SLAM的深度估计质量,以提 Gawel等B0提出了一种基于图的语义重定位 高系统的鲁棒性.Ganti和Waslander指出从信 算法,将具有语义目标位置的关键帧组合成一组 息嫡较低的区域提取特征点,位姿估计的准确性 三维图,并利用图匹配算法求解相机在全局地图 低,对这些特征点跟踪,会增加错误数据关联的 中的位置.Konstantinos等B别提出了一种基于地点 风险,他们提出了一种基于信息论的特征选取方 视觉词描述的回环检测算法,通过对输入的图片 法,利用语义分割的不确定性概念计算信息交叉 流进行动态分割,定义一个个“地点”,并通过在线 嫡.该方法减少了对特征点数量的要求,显著提高 聚类算法,将图像的描述子转化为地图中的相应 了系统实时性和鲁棒性,而在精度上没有任何明 的视觉词.系统通过概率函数判断回环检测的候 显损失 选地点,并通过最近邻投票算法,匹配候选地点中 Qin等7针对地下停车场自动代客泊车系统, 最准确的那一帧图像.实验表明,算法在精确和召 提出了一种基于语义特征的定位方法.在狭窄拥
地表示物体的大小、位置和方向,并作为路标添加 到优化公式中,联合估计相机位姿和对偶二次曲 面,以提高系统的定位精度. 类似的,卡内基梅隆大学机器人研究所 Yang 与 Scherer[26] 提出了 CubeSLAM 系统,用单目相机 实现了对象级的定位与建图. 作者利用目标检测 算法生 成 2D 边界框 ,通过消失点法 ( Vanishing points,VP)生成物体三维立方体,并将物体作为路 标,结合物体约束信息与几何信息,融合到一个 最小二乘公式中 ,改善相机位姿估计 ,提高 了 SLAM 的定位精度. 与基于特征点的 SLAM 系统 相比,对象级 SLAM 系统可以提供更多的几何约 束和尺度一致性,所提算法在公开数据集上得到 了较好的位姿估计精度,同时还提高了 3D 物体的 检测精度. 同时,Yang 与 Scherer[27] 在此基础上,结 合 Pop-up SLAM[28] 的思想,提出了一个无需先验 物体和模型的联合物体和平面估计的单目 SLAM 系统. 首先,利用高阶图形模型,结合语义和遮挡 等约束[29] ,推断单张图像中的三维物体和平面,然 后将提取的物体和平面,结合相机和特征点位姿, 放在统一的框架中进行优化. 实验结果表明,所提 算法在 ICL NUIM 和 TUM mono 数据集中定位精 度准确,并可以在结构化环境中生成稠密地图. (4)面向重定位与回环检测 重定位和回环检测的目的不同,但通常可以 采用相同的技术. 重定位主要是跟踪丢失时重新 找回当前姿态,恢复相机姿态估计;回环检测是识 别机器人曾经到过的场景,得到几何一致的映射, 从而解决漂移问题,提高全局精度. 传统的 SLAM 算法大都依赖于低级别的几何特征,使得重定位 和回环检测通常依赖于相机的视角,在特征不明 显或重复性的纹理环境中容易检测失败. 语义 SLAM 系统利用目标识别推测标志物的种类和大 小,产生易于识别的标志物,进而提高系统的定位 精度. Gawel 等[30] 提出了一种基于图的语义重定位 算法,将具有语义目标位置的关键帧组合成一组 三维图,并利用图匹配算法求解相机在全局地图 中的位置. Konstantinos 等[31] 提出了一种基于地点 视觉词描述的回环检测算法,通过对输入的图片 流进行动态分割,定义一个个“地点”,并通过在线 聚类算法,将图像的描述子转化为地图中的相应 的视觉词. 系统通过概率函数判断回环检测的候 选地点,并通过最近邻投票算法,匹配候选地点中 最准确的那一帧图像. 实验表明,算法在精确和召 回率上有很好的表现. 此外,所提算法仅通过将查 询图像的局部描述子转换为词典的视觉词,就能 判断已访问过的地点,不需要任何预训练的步骤, 能够满足很好的实时性要求. 张括嘉等[32] 利用 YOLOv3[33] 目标检测算法获 取环境中关键目标的语义信息,建立目标检测结 果之间的相对位置关系,根据连续关键帧的相似 度变化情况进行回环判断. 所提算法在公开数据 集上取得了较好的效果,与单纯利用传统视觉特 征的算法相比,环境语义信息的应用有效提高了 室内场景下的闭环检测准确性. 2.2 语义与定位鲁棒性 定位鲁棒性是机器人安全运行的保证,是移 动机器人系统重要的考量指标. 传统的 V-SLAM 系统在纹理特征缺失、光照变化较大和高速动态 等场景下,非常容易出现定位信息丢失的情况,尤 其是在自动驾驶这种对安全性要求较高的应用领 域,一旦定位信息丢失,后果将不堪设想. 利用环 境语义信息可有效改善传统 V-SLAM 系统面临的 这些问题,有效提升系统定位的鲁棒性. (1)面向弱纹理环境. 传统 V-SLAM 方案中采用的图像特征语义级 别低,造成特征的可区别性较弱,在弱纹理等缺少 显著特征的环境中,传统基于特征点的方法难以 进行准确的运动估计. 借助深度学习的方法提取 环境中的立体特征,并用于优化位姿估计,可提升 系统定位鲁棒性. Yang 等[28] 提出的 Pop-up SLAM 系统,验证了 场景理解对弱纹理环境下机器人状态估计改善的 有效性. 利用深度学习的方法提取环境中墙‒地的 边界信息,并根据单幅图像生成立体平面模型,同 时利用平面法线间的差、平面间的距离和平面间 的投影重叠 3 个几何信息进行平面匹配. 然后将 Pop-up 模型提供的深度估计融合到 LSD-SLAM[34] 深度图中,提高 LSD-SLAM 的深度估计质量,以提 高系统的鲁棒性. Ganti 和 Waslander[35] 指出从信 息熵较低的区域提取特征点,位姿估计的准确性 低[36] ,对这些特征点跟踪,会增加错误数据关联的 风险,他们提出了一种基于信息论的特征选取方 法,利用语义分割的不确定性概念计算信息交叉 熵. 该方法减少了对特征点数量的要求,显著提高 了系统实时性和鲁棒性,而在精度上没有任何明 显损失. Qin 等[37] 针对地下停车场自动代客泊车系统, 提出了一种基于语义特征的定位方法. 在狭窄拥 李小倩等: 基于环境语义信息的同步定位与地图构建方法综述 · 757 ·