第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.201908015 基于视一触跨模态感知的智能导盲系统 朱文霖,刘华平2,王博文',孙富春 (1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室,天津300130,2.清华大学智能技术与 系统国家重点实验室,北京100084) 摘要:盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少 有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触 觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用 改进的DiscoGAN训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集GroVib。 通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%,触觉的平均真实感受得分为71.3,在真实场景实验中,参与者只需平均3.35次尝试就可以根据触觉反馈 来识别地面。 关键词:盲人用户;电子手杖:跨模态技术;触觉:数据集;深度学习;计算机视觉;生成对抗网络 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)01-0033-08 中文引用格式:朱文霖,刘华平,王博文,等.基于视-触跨模态感知的智能导盲系统.智能系统学报,2020,15(1):33-40. 英文引用格式:ZHU Wenlin,LIU Huaping,WANG Bowen,etal.An intelligent blind guidance system based on visual-touch cross- modal perception[J].CAAI transactions on intelligent systems,2020,15(1):33-40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin',LIU Huaping,WANG Bowen',SUN Fuchun? (1.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130, China;2.State Key Lab.of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Blind mobility aid is a primary part of the daily life for blind people.Most of these technologies are used to help them navigate and avoid obstacles,and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling.To meet the above requirements,we proposed an intelligent guided rod system,which can provide tactile feedback to assist the blind to recognize ground information.We attempted to gener- ate the vibrotactile stimuli leveraging the power of deep generative adversarial training.Specifically,we used an im- proved DiscoGAN training an end-to-end generated network.To train the network,we also built GroVib,a visual touch cross-modal dataset.We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tact- ile sense was 84.7%,and the average real feeling score of tactile sense was 71.3.In real scene experiments,the parti- cipants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords:blind users;electronic cane;cross-modal technology;touch;data set;deep learning;computer vision; GANs 收稿日期:2019-08-21. 视力障得是困扰人们的最严重的问题之一。 基金项目:国家自然科学基金重点项目(U1613212):河北省自 根据WHO的报告称80%的眼睛疾病是可以预 然科学基金项目(E2017202035). 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 防甚至治愈的,但失明仍然是一个严重的世界性
DOI: 10.11992/tis.201908015 基于视−触跨模态感知的智能导盲系统 朱文霖1 ,刘华平2 ,王博文1 ,孙富春2 (1. 河北工业大学 省部共建电工装备可靠性与智能化国家重点实验室,天津 300130; 2. 清华大学 智能技术与 系统国家重点实验室,北京 100084) 摘 要:盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少 有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触 觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用 改进的 DiscoGAN 训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集 GroVib。 通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%,触觉的平均真实感受得分为 71.3,在真实场景实验中,参与者只需平均 3.35 次尝试就可以根据触觉反馈 来识别地面。 关键词:盲人用户;电子手杖;跨模态技术;触觉;数据集;深度学习;计算机视觉;生成对抗网络 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)01−0033−08 中文引用格式:朱文霖, 刘华平, 王博文, 等. 基于视−触跨模态感知的智能导盲系统 [J]. 智能系统学报, 2020, 15(1): 33–40. 英文引用格式:ZHU Wenlin, LIU Huaping, WANG Bowen, et al. An intelligent blind guidance system based on visual-touch crossmodal perception[J]. CAAI transactions on intelligent systems, 2020, 15(1): 33–40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin1 ,LIU Huaping2 ,WANG Bowen1 ,SUN Fuchun2 (1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China; 2. State Key Lab. of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Blind mobility aid is a primary part of the daily life for blind people. Most of these technologies are used to help them navigate and avoid obstacles, and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling. To meet the above requirements, we proposed an intelligent guided rod system, which can provide tactile feedback to assist the blind to recognize ground information. We attempted to generate the vibrotactile stimuli leveraging the power of deep generative adversarial training. Specifically, we used an improved DiscoGAN training an end-to-end generated network. To train the network, we also built GroVib, a visual touch cross-modal dataset. We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tactile sense was 84.7%, and the average real feeling score of tactile sense was 71.3. In real scene experiments, the participants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords: blind users; electronic cane; cross-modal technology; touch; data set; deep learning; computer vision; GANs 视力障碍是困扰人们的最严重的问题之一。 根据 WHO[1] 的报告称 80% 的眼睛疾病是可以预 防甚至治愈的,但失明仍然是一个严重的世界性 收稿日期:2019−08−21. 基金项目:国家自然科学基金重点项目 (U1613212);河北省自 然科学基金项目 (E2017202035). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·34· 智能系统学报 第15卷 问题。除了努力在医学、神经科学和生物技术方 1相关工作 面为这些问题找到最终的解决方案外,科学技术 还可以通过提供基本功能(如独立导航和感知周 盲人辅助技术在过去的十几年中得到了突飞 围环境的能力)来为这些人提供帮助。 猛进的发展。研究结果主要针对导航辅助和识别 虽然目前的盲人辅助技术提供了一些先进 辅助两个方面。文献[5-6]设计了一款可穿戴智 的方案来解决盲人的行动指导或识别问题,但大 能服装原型,传感器探测所关注的区域,并提供 部分工作对于使用者的反馈集中在语音告知或 导航提示。文献[7)]为盲人提供了一种基于超声 提供简单的定向引导振动。然而,触觉对视障患 波的导航辅助设备,使盲人能够通过安装在肩膀 者来说是一种非常敏感的感知方式。将触觉信 上的超声波传感器和一根导盲杖在前方6内探 号引入盲人辅助中,可以使盲人用户更加直观地 索路线。针对盲人的纸币识别已经在文献[8]中 辨别地面环境,丰富盲人感知现实世界的方式, 得到了解决,其中使用了加速鲁棒特性(SURF)。 对于构建残疾人友好社会具有重要的应用价 文献[9]处理了一个超市购物场景。在这项工作 值。目前仍然缺乏从环境信息中产生触觉振动 中,射频识别(RFD)被用作定位和导航的手段, 的解决方案。 而产品识别则是通过便携式相机读取二维码来实 触觉振动反馈可以使人类通过工具与物体表 现的。产品条形码的检测和读取也在文献[10]中 面的相互作用来感知纹理的属性。为了给人类提 被解决。文献[11]提出了一种基于便携式摄像机 供这样的响应,触觉振动模型的研究已经开展了 的公交线路号码检测系统的设计方案。文献[12] 很长时间。遗憾的是,目前还没有基于工具状态 提出了室内楼梯检测方案。文献[13]提出了一个 和表面状态交互产生振动触觉响应的模型。这样 通过内置的盲文脚本为盲人阅读电子书提供便利 的模型需要学习大量复杂的输入域和输出域空间 的设备。文献[14]认为服装颜色以及模式识别是 映射:输入为工具状态(如工具速度),纹理表面状 促进盲人识别能力的一种手段。文献[15]提出了 态(如地面纹理属性),输出为振动触觉信号。并 利用光学字符识别功能来识别文本,提供语音反 且传统的振动信号生成模型只支持单一类型信号 馈的辅助文本阅读系统。 的输出。而这样的模型是无法满足现实生活中多 2系统设计 种多样地面类别的需求的。 最近,从任一高维分布中生成新样本的生成 触觉再现装置通常是通过各种方法来刺激皮 方法得到了广泛的应用。具体地说,生成对抗网 肤的设备,如空气波纹管、微针阵列、直流电脉冲 络(GAN)在合成真实世界图像方面显示出了出 器和功能性神经肌肉刺激器等。本文的触觉输出 色的能力。之前的研究表明,GANs可以有效地 模块是一种音频振动器,属于电励磁产生的振动 生成标签)、文本等条件下的图像。尽管这些 装置。其优点是采用电机作为执行机构,可以获 结果非常的出色,但很少有研究使用GANs来建 得任意方向的扭矩,响应速度相对较快,对不同 模时间序列数据分布。 频率的输人信号非常敏感。该装置可以模拟原始 现代深度学习技术对于图像特征的提取和 触觉信号采集的工具交互状态(如加速度等),这 高纬分布的拟合是非常依赖数据集的。现有的 是选择该装置作为触觉输出的主要原因。 大多数公共数据集集中在体现视觉单一模态图 处理器本文选取了华为公司生产的Hikey970 像的差异性中。触觉和视觉属于两种模态的信 智能芯片,它是华为第三代开发板,具有更强的 息,目前尚未有直接可用的视触跨模态图像数 计算能力、更丰富的硬件接口,支持主流操作系 据集。 统和人工智能模块。HiKey970集成了华为创新 本文的主要贡献有3个方面: 设计的HAI框架,以及其他主流的神经网络框 1)介绍了盲人辅助设备的发展在此基础上, 架,不但支持CPU、GPU的AI运算,还支持基于 设计了一种面向视障人群的触觉反馈智能导盲杖 NPU的神经网络计算硬件加速,能效和性能分别 装置。 可达CPU运算的50倍、25倍。本文将它烧录为 2)设计了一种基于GAN的端(地面信息)到 Debian系统并在上面运行Tensorflow框架下的深 端(振动反馈)的生成网络结构。 度学习网络。摄像机选用一款拥有200万像素的 3)构建了基于地面图像和振动信息的跨模态 USB摄像头模块,该款相机支持逆光拍摄且拍摄 数据集(GroVib)。 广角无畸变。处理器的音频输出功率相对较低
问题。除了努力在医学、神经科学和生物技术方 面为这些问题找到最终的解决方案外,科学技术 还可以通过提供基本功能 (如独立导航和感知周 围环境的能力) 来为这些人提供帮助。 虽然目前的盲人辅助技术提供了一些先进 的方案来解决盲人的行动指导或识别问题,但大 部分工作对于使用者的反馈集中在语音告知或 提供简单的定向引导振动。然而,触觉对视障患 者来说是一种非常敏感的感知方式。将触觉信 号引入盲人辅助中,可以使盲人用户更加直观地 辨别地面环境,丰富盲人感知现实世界的方式, 对于构建残疾人友好社会具有重要的应用价 值。目前仍然缺乏从环境信息中产生触觉振动 的解决方案。 触觉振动反馈可以使人类通过工具与物体表 面的相互作用来感知纹理的属性。为了给人类提 供这样的响应,触觉振动模型的研究已经开展了 很长时间。遗憾的是,目前还没有基于工具状态 和表面状态交互产生振动触觉响应的模型。这样 的模型需要学习大量复杂的输入域和输出域空间 映射:输入为工具状态 (如工具速度),纹理表面状 态 (如地面纹理属性),输出为振动触觉信号。并 且传统的振动信号生成模型只支持单一类型信号 的输出。而这样的模型是无法满足现实生活中多 种多样地面类别的需求的。 最近,从任一高维分布中生成新样本的生成 方法得到了广泛的应用。具体地说,生成对抗网 络 (GAN)[2] 在合成真实世界图像方面显示出了出 色的能力。之前的研究表明,GANs 可以有效地 生成标签[3] 、文本[4] 等条件下的图像。尽管这些 结果非常的出色,但很少有研究使用 GANs 来建 模时间序列数据分布。 现代深度学习技术对于图像特征的提取和 高纬分布的拟合是非常依赖数据集的。现有的 大多数公共数据集集中在体现视觉单一模态图 像的差异性中。触觉和视觉属于两种模态的信 息,目前尚未有直接可用的视触跨模态图像数 据集。 本文的主要贡献有 3 个方面: 1) 介绍了盲人辅助设备的发展在此基础上, 设计了一种面向视障人群的触觉反馈智能导盲杖 装置。 2) 设计了一种基于 GAN 的端 (地面信息) 到 端 (振动反馈) 的生成网络结构。 3) 构建了基于地面图像和振动信息的跨模态 数据集 (GroVib)。 1 相关工作 盲人辅助技术在过去的十几年中得到了突飞 猛进的发展。研究结果主要针对导航辅助和识别 辅助两个方面。文献 [5-6] 设计了一款可穿戴智 能服装原型,传感器探测所关注的区域,并提供 导航提示。文献 [7] 为盲人提供了一种基于超声 波的导航辅助设备,使盲人能够通过安装在肩膀 上的超声波传感器和一根导盲杖在前方 6 m 内探 索路线。针对盲人的纸币识别已经在文献 [8] 中 得到了解决,其中使用了加速鲁棒特性 (SURF)。 文献 [9] 处理了一个超市购物场景。在这项工作 中,射频识别 (RFID) 被用作定位和导航的手段, 而产品识别则是通过便携式相机读取二维码来实 现的。产品条形码的检测和读取也在文献 [10] 中 被解决。文献 [11] 提出了一种基于便携式摄像机 的公交线路号码检测系统的设计方案。文献 [12] 提出了室内楼梯检测方案。文献 [13] 提出了一个 通过内置的盲文脚本为盲人阅读电子书提供便利 的设备。文献 [14] 认为服装颜色以及模式识别是 促进盲人识别能力的一种手段。文献 [15] 提出了 利用光学字符识别功能来识别文本,提供语音反 馈的辅助文本阅读系统。 2 系统设计 触觉再现装置通常是通过各种方法来刺激皮 肤的设备,如空气波纹管、微针阵列、直流电脉冲 器和功能性神经肌肉刺激器等。本文的触觉输出 模块是一种音频振动器,属于电励磁产生的振动 装置。其优点是采用电机作为执行机构,可以获 得任意方向的扭矩,响应速度相对较快,对不同 频率的输入信号非常敏感。该装置可以模拟原始 触觉信号采集的工具交互状态 (如加速度等),这 是选择该装置作为触觉输出的主要原因。 处理器本文选取了华为公司生产的 Hikey970 智能芯片,它是华为第三代开发板,具有更强的 计算能力、更丰富的硬件接口,支持主流操作系 统和人工智能模块。HiKey970 集成了华为创新 设计的 HiAI 框架,以及其他主流的神经网络框 架,不但支持 CPU、GPU 的 AI 运算,还支持基于 NPU 的神经网络计算硬件加速,能效和性能分别 可达 CPU 运算的 50 倍、25 倍。本文将它烧录为 Debian 系统并在上面运行 Tensorflow 框架下的深 度学习网络。摄像机选用一款拥有 200 万像素的 USB 摄像头模块,该款相机支持逆光拍摄且拍摄 广角无畸变。处理器的音频输出功率相对较低, ·34· 智 能 系 统 学 报 第 15 卷
第1期 朱文霖,等:基于视-触跨模态感知的智能导盲系统 ·35· 不足以驱动振动模块,因此选取了LEPY公司生 了跨域生成对抗网络作为该方法的基本组成部 产的LP-2020A型号的功率放大器将声波信号进 分。并在此基础上建立了一个端到端完整的生成 行放大。功率放大器以及为整个系统提供电能的 网络。 移动电源均放置在用户的背包中。振动块,处理 3.1原始GAN 器,相机以及控制按钮都集成在设计的3D打印 GAN是一种在无监督情况下生成逼真图像 的导盲杖中。模型的整体结构展示如图1所示, 的有效方法。GAN利用生成网络G将一个潜在 图2展示了该设备的使用流程。 的噪声变量z~Pe转换为一个伪图像样本G()。 原始的GAN使用最小-最大博弈策略来训练生成 器G,并使用另一个网络D来区分G)和真实样 振动器 本。形式上,GAN的目标可以表示为 控制按钮 摄像机 minmax L(D.G)=E [logD(x)]+ Ep [log(1-D(G()))] 处理器 式中,鉴别器D试图最大化真实样本输出的置信 度得分。同时,它也最小化了G生成的伪样本输 出的置信度得分。相比之下,G的目标是最大化 D对其输出的评价得分,这可以看作是对D的一 种欺骗。 3.2基于DiscoGAN的图像翻译 我们的任务是将地面图像域A转换为频谱 图1系统原型 图像域B。解决这个问题最流行的方法是P2P9 Fig.1 The prototype of the proposed system CycleGAN2O和DiscoGAN2。其中Pix2Pix结合 按压 GAN损失和L1正则化损失,提出了一种新的图 控制按钮 摄像机拍摄图像 像生成方法。然而,这种方法需要一组配对的 传输 图像来监督。文献20-21]提出了无监督图像到 处理器 图像的生成方法以克服这一局限性。在这些方 生成 法中,每个域都有一对生成器和鉴别器。对于 振动信号 给定的域A到B,GAB和GBA将图像从A传输到 传输 B(或B到A),同时鉴别器D4和Ds判断样本是否 接触 振动器 人类感知触感 属于该域。CycleGAN和DiscoGAN都提出了一 个循环框架,将图像从A域转换为B域,然后再 图2使用流程 将其转换回原域,从而在两个域之间建立强映 Fig.2 Gray scale image of sensor 射。为此,这些方法的损失函数在这两个域之 间有一个对抗性损失和一个循环(重建)损失, 3系统实现 定义如下: 该系统的主要目标是自动生成可以反应目标 L(AB)=E [log(D (b))]+ 地面特征的频谱图。在计算机视觉和机器学习领 E[log(1-D (GAB (a)))]+ 域,这个问题可以看作图像到图像的翻译问题。 Ea[llGBA (GAB(a))-all2] 文献[18]提出了一种识别输入图像类别,然后输 L(B→A)=Ea[log(D.(a]+ 出相应类别信息的方法。然而,这种方法将图像 分类为类别标签,会丢失很多高纬度特征信息, E [log(1-D(GBA (b)))]+ 因此本文需要更直接的解决方案。 E [llGAB(GBA(b))-bll2] GAN是一种用于样式转换以及图像自动生 在本工作中,由于CycleGAN有一个不适合 成的方法。特别的,基于GAN的方法可以用于 我们问题的特点,即它试图保留原始图像域的轮 在相同域或是跨域样式转换的生成。为了在不受 廓,所以本文的方案最终采用了DiscoGAN。图3 用户干扰的情况下将地面图像转换成频谱,采用 展示了系统的整体框架
不足以驱动振动模块,因此选取了 LEPY 公司生 产的 LP-2020A 型号的功率放大器将声波信号进 行放大。功率放大器以及为整个系统提供电能的 移动电源均放置在用户的背包中。振动块,处理 器,相机以及控制按钮都集成在设计的 3D 打印 的导盲杖中。模型的整体结构展示如图 1 所示, 图 2 展示了该设备的使用流程。 振动器 控制按钮 摄像机 处理器 图 1 系统原型 Fig. 1 The prototype of the proposed system 控制按钮 摄像机拍摄图像 处理器 振动信号 振动器 人类感知触感 接触 传输 传输 按压 生成 图 2 使用流程 Fig. 2 Gray scale image of sensor 3 系统实现 该系统的主要目标是自动生成可以反应目标 地面特征的频谱图。在计算机视觉和机器学习领 域,这个问题可以看作图像到图像的翻译问题。 文献 [18] 提出了一种识别输入图像类别,然后输 出相应类别信息的方法。然而,这种方法将图像 分类为类别标签,会丢失很多高纬度特征信息, 因此本文需要更直接的解决方案。 GAN 是一种用于样式转换以及图像自动生 成的方法。特别的,基于 GAN 的方法可以用于 在相同域或是跨域样式转换的生成。为了在不受 用户干扰的情况下将地面图像转换成频谱,采用 了跨域生成对抗网络作为该方法的基本组成部 分。并在此基础上建立了一个端到端完整的生成 网络。 3.1 原始 GAN GAN 是一种在无监督情况下生成逼真图像 的有效方法。GAN 利用生成网络 G 将一个潜在 的噪声变量 z~Pnoise 转换为一个伪图像样本 G(z)。 原始的 GAN 使用最小−最大博弈策略来训练生成 器 G,并使用另一个网络 D 来区分 G(z) 和真实样 本。形式上,GAN 的目标可以表示为 min G max D L(D,G) = Ex∼Pdata(x) [ logD(x) ] + Ez∼Pnoise [ log(1− D(G(z)))] 式中,鉴别器 D 试图最大化真实样本输出的置信 度得分。同时,它也最小化了 G 生成的伪样本输 出的置信度得分。相比之下,G 的目标是最大化 D 对其输出的评价得分,这可以看作是对 D 的一 种欺骗。 3.2 基于 DiscoGAN 的图像翻译 我们的任务是将地面图像域 A 转换为频谱 图像域 B。解决这个问题最流行的方法是 Pix2Pix[19] 、 CycleGAN[20] 和 DiscoGAN[21]。其中 Pix2Pix 结合 GAN 损失和 L1 正则化损失,提出了一种新的图 像生成方法。然而,这种方法需要一组配对的 图像来监督。文献 [20-21] 提出了无监督图像到 图像的生成方法以克服这一局限性。在这些方 法中,每个域都有一对生成器和鉴别器。对于 给定的域 A 到 B, GAB 和 GBA 将图像从 A 传输到 B(或 B 到 A),同时鉴别器 DA 和 DB 判断样本是否 属于该域。CycleGAN 和 DiscoGAN 都提出了一 个循环框架,将图像从 A 域转换为 B 域,然后再 将其转换回原域,从而在两个域之间建立强映 射。为此,这些方法的损失函数在这两个域之 间有一个对抗性损失和一个循环 (重建) 损失, 定义如下: L(A → B) = Eb [ log(Db (b))] + Ea [ log(1− Db (GAB (a)))] + Ea [∥GBA (GAB (a))−a∥2 ] L(B → A) = Ea [ log(Da (a))] + Eb [ log(1− Da (GBA (b)))] + Eb [∥GAB (GBA (b))−b∥ 2] 在本工作中,由于 CycleGAN 有一个不适合 我们问题的特点,即它试图保留原始图像域的轮 廓,所以本文的方案最终采用了 DiscoGAN。图 3 展示了系统的整体框架。 第 1 期 朱文霖,等:基于视−触跨模态感知的智能导盲系统 ·35·
·36· 智能系统学报 第15卷 转换成频谱图,最后,利用Griffin-Lim算法2 将生成的谱图转换为声波格式。然后通过放大器 其Da 和振动器将波形数据传输给用户。图5给出了 假?A 6种场景振动信号波形的差异。 假?A 格里芬算法 振动信号 地面图片 图3结构框架 Fig.3 The framework of our proposed structure. 功率 振动块 3.3端到端生成网络 放大器 图4对数据流进行了逐级描述。当输入地面 图4端到端生成模型 图像时,它将通过训练好的生成网络G。G将它 Fig.4 The end-to-end Generate model 1.00 0.75 01 0.75 0.50 0.50 0.25 0 0.25 0.00 5 0.00 -0.25 0 -0.25 0.50 -0.50 04 -0.75 -0.75 -1.00 -1.00 0 50001000015000 50001000015000 50001000015000 频率Hz 频率Hz 频率Hz (a)柏油路 (b)户外石板路 (c)室内大理石 0.75 1.00 1.00 0.50 0.75 0.75 0.25 0.50 0.50 0.00 0.25 0.25 0.25 0.00 0.00 -025 -0.25 -0.50 -0.50 -0.50 www 0.75 -0.75 -0.75 -1.00 -1.00 -1.00 500010000 15000 0 500010000 15000 0 50001000015000 频率/Hz 频率Hz 频率Hz (d木地板 (e)橡胶跑道 (①草地 图5振动信号的波形展示 Fig.5 Tactile Signal Waveform Display 4 GroVib数据集 速度时间序列信号转换为图像。 GroVib数据集由6种常见地面类型组成:柏 视觉和触觉是人类两种重要的感知方式,它 油路、户外石板路、室内大理石、木地板、橡胶跑 们之间有着很强的联系,盲人可以通过触觉感知 道和草地。 来弥补视觉的缺失。因此,构建了一个视触交叉 41地面图像 模态数据集Gro Vib(ground-vibration)作为深度学 数据集中的地面照片是通过智能手机(小米 习网络训练的基础。 8)进行拍摄的,拍摄的高度与导盲杖中相机所处 视觉图像易于捕捉,所包含的信息也很明 位置相当(距地面约80cm)。为了保证模型可以 显。但振动信息无法直观地描述。当工具敲击或 全天候的使用,对高光照强度和昏暗条件下都进 在物体表面拖动时,会产生振动,振动可以通过 行了数据的采集,两种光强下对每一种地面各拍 加速度传感器捕捉到,相应的表面信号代表了物 摄了100张照片,因此GroVib数据集中有1200 体表面的特征2。为了便于处理这些数据,将加 张地面图像
DA DB GAB GBA GBA GAB b a a ^ b ^ A ^ B ^ 真/ 假? 真/ 假? 图 3 结构框架 Fig. 3 The framework of our proposed structure. 3.3 端到端生成网络 图 4 对数据流进行了逐级描述。当输入地面 图像时,它将通过训练好的生成网络 G。G 将它 转换成频谱图,最后,利用 Griffin-Lim 算法[ 2 2 ] 将生成的谱图转换为声波格式。然后通过放大器 和振动器将波形数据传输给用户。图 5 给出了 6 种场景振动信号波形的差异。 地面图片 频谱 振动信号 功率 放大器 振动块 格里芬算法 G 图 4 端到端生成模型 Fig. 4 The end-to-end Generate model 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0 5 0 5 0 5 0 5 0 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 加速度/(m·s−2) 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 图 5 振动信号的波形展示 Fig. 5 Tactile Signal Waveform Display 4 GroVib 数据集 视觉和触觉是人类两种重要的感知方式,它 们之间有着很强的联系,盲人可以通过触觉感知 来弥补视觉的缺失。因此,构建了一个视触交叉 模态数据集 GroVib(ground-vibration) 作为深度学 习网络训练的基础。 视觉图像易于捕捉,所包含的信息也很明 显。但振动信息无法直观地描述。当工具敲击或 在物体表面拖动时,会产生振动,振动可以通过 加速度传感器捕捉到,相应的表面信号代表了物 体表面的特征[23]。为了便于处理这些数据,将加 速度时间序列信号转换为图像。 GroVib 数据集由 6 种常见地面类型组成:柏 油路、户外石板路、室内大理石、木地板、橡胶跑 道和草地。 4.1 地面图像 数据集中的地面照片是通过智能手机 (小米 8) 进行拍摄的,拍摄的高度与导盲杖中相机所处 位置相当 (距地面约 80 cm)。为了保证模型可以 全天候的使用,对高光照强度和昏暗条件下都进 行了数据的采集,两种光强下对每一种地面各拍 摄了 100 张照片,因此 GroVib 数据集中有 1 200 张地面图像。 ·36· 智 能 系 统 学 报 第 15 卷
第1期 朱文霖,等:基于视-触跨模态感知的智能导盲系统 ·37· 现代智能手机的拍照质量越来越高,而我们 的频域内的信息。最后裁剪了频谱图,把它们调 的任务并不需要使用如此高分辨率的图片来完 整成到256×256的大小。短时傅里叶变换的具体 成,所以需要将收集到的图片统一到一个较小的 参数如表1所示。生成的频谱样式如图7所示。 尺寸。我们裁剪了1200张图片,并将它们调整 表1STFT的参数 为256×256的大小。图像的缩小不建议简单地缩 Table 1 STFT parameters 小尺寸,这样会造成严重的失真。因此,使用 参数名称 参数数值 TensorFlow中提供的面积插值方法对图像进行 Fs 10000 缩放。地面图像实例如图6所示。 重叠 128 时间s 1.625 汉明窗 512 nfft 512 (a)柏油路 (b)户外石板路 (c)室内大理石 频率范围/Hz 0-256 (d)木地板 (e)橡胶跑道 ()草地 图6地面图像实例 (a)柏油路 (b)户外石板路 (c)室内大理石 Fig.6 Gray scale image of sensor 4.2振动图像 在本文的模型中,加速度信号被用作振动触 觉刺激。加速度信号参考了公开数据集LMT lO8-Surface Materials-.DatabaseR中的结果,该数据 (d)木地板 (e)橡胶跑道 ()草地 集包含了各种类型的纹理图像和相应工具产生的 图7频谱图像实例 用于滑动任务的加速度信号。每种类型有20组 Fig.7 Gray scale image of sensor 加速度信号样本,每组包含X、Y、Z等3个时间序 5 列的信号。这些信号和图像均用108个类标签进 生成结果 行了标注。 5.1 实验装置 从108类中,选择6个小类对应于设置的地面 我们的模型是使用一台配备英特尔酷睿7 类型:G2 Brick对应柏油路,G2 Stone Tile Version2 875 OH CPU、16 GB DDR4RAM和NVidia Geforce 对应户外石板路,G2 Marble对应室内大理石, GTX1080Ti的台式电脑完成的。 G4 CherryTree对应木地板,G5 ProfiledRubber-. 5.2数据预处理 Plate对应橡胶跑道,G6 FineArtificialGrassFibers对 虽然本文GroVib数据集对于每一类地面都 应草地。 有200张照片,但是对于训练一个神经网络来说 目前,很少有研究使用GANs生成时间序列 仍然是不够的,所以在训练模型时遵循数据增强 数据。这是因为GANs虽然擅长生成二维图像, 设置。将每张图像进行水平和垂直翻转,以及随 但在生成时间序列数据方面却很差。因此,选择 机旋转它们的角度,除了传统方法外,还使用随 频谱图作为加速度信号的表示。原始数据库中每 机擦除和混合技术。将每个类别的地面数据扩展 个信号有4s长,采样率为10kHz。本文使用短 到1000个,因此总共有6000个大小为256×256 时傅里叶变换(STFT)完成信号的转换步骤。 的地面图像。而频谱图不能用于数据增强,因为 ST℉T用于确定时变信号局部区域正弦波的频率 它们代表了振动信号的时间序列特征和振幅强 和相位,其处理的信号具有时域和频域的局域特 度,类似的处理方法会严重影响隐藏信息。本文 性。在这一步中,对变换的结果进行对数运算和 对地面图像和频谱图都进行了标注,这样在训练 归一化运算,并且提取0~1.625s,频率在0-256Hz 模型时可以根据类别信息选择相应的数据
现代智能手机的拍照质量越来越高,而我们 的任务并不需要使用如此高分辨率的图片来完 成,所以需要将收集到的图片统一到一个较小的 尺寸。我们裁剪了 1 200 张图片,并将它们调整 为 256×256 的大小。图像的缩小不建议简单地缩 小尺寸,这样会造成严重的失真。因此,使用 TensorFlow 中提供的面积插值方法对图像进行 缩放。地面图像实例如图 6 所示。 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 图 6 地面图像实例 Fig. 6 Gray scale image of sensor 4.2 振动图像 在本文的模型中,加速度信号被用作振动触 觉刺激。加速度信号参考了公开数据集 LMT- 108-Surface Materials-Database[24] 中的结果,该数据 集包含了各种类型的纹理图像和相应工具产生的 用于滑动任务的加速度信号。每种类型有 20 组 加速度信号样本,每组包含 X、Y、Z 等 3 个时间序 列的信号。这些信号和图像均用 108 个类标签进 行了标注。 从 108 类中,选择 6 个小类对应于设置的地面 类型: G2Brick 对应柏油路, G2StoneTileVersion2 对应户外石板路, G2Marble 对应室内大理石, G4CherryTree 对应木地板, G5ProfiledRubberPlate 对应橡胶跑道, G6FineArtificialGrassFibers 对 应草地。 目前,很少有研究使用 GANs 生成时间序列 数据。这是因为 GANs 虽然擅长生成二维图像, 但在生成时间序列数据方面却很差。因此,选择 频谱图作为加速度信号的表示。原始数据库中每 个信号有 4 s 长,采样率为 10 kHz。本文使用短 时傅里叶变换 (STFT) 完成信号的转换步骤。 STFT 用于确定时变信号局部区域正弦波的频率 和相位,其处理的信号具有时域和频域的局域特 性。在这一步中,对变换的结果进行对数运算和 归一化运算,并且提取 0~1.625 s,频率在 0~256 Hz 的频域内的信息。最后裁剪了频谱图,把它们调 整成到 256×256 的大小。短时傅里叶变换的具体 参数如表 1 所示。生成的频谱样式如图 7 所示。 表 1 STFT 的参数 Table 1 STFT parameters 参数名称 参数数值 Fs 10 000 重叠 128 时间/s 1.625 汉明窗 512 nfft 512 频率范围/ Hz 0~256 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 图 7 频谱图像实例 Fig. 7 Gray scale image of sensor 5 生成结果 5.1 实验装置 我们的模型是使用一台配备英特尔酷睿 i7- 8750H CPU、16 GB DDR4 RAM 和 NVidia Geforce GTX 1080 Ti 的台式电脑完成的。 5.2 数据预处理 虽然本文 GroVib 数据集对于每一类地面都 有 200 张照片,但是对于训练一个神经网络来说 仍然是不够的,所以在训练模型时遵循数据增强 设置。将每张图像进行水平和垂直翻转,以及随 机旋转它们的角度,除了传统方法外,还使用随 机擦除和混合技术。将每个类别的地面数据扩展 到 1 000 个,因此总共有 6 000 个大小为 256×256 的地面图像。而频谱图不能用于数据增强,因为 它们代表了振动信号的时间序列特征和振幅强 度,类似的处理方法会严重影响隐藏信息。本文 对地面图像和频谱图都进行了标注,这样在训练 模型时可以根据类别信息选择相应的数据。 第 1 期 朱文霖,等:基于视−触跨模态感知的智能导盲系统 ·37·