当前位置：和泉文库 > 电气与自动化 > 浏览文档

【智能系统】基于视-触跨模态感知的智能导盲系统

文件格式：PDF，文件大小：4.45MB，售价：3.12元

文档详细内容（约8页）

第15卷第1期智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.201908015 基于视一触跨模态感知的智能导盲系统朱文霖，刘华平2，王博文'，孙富春 (1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室，天津300130,2.清华大学智能技术与系统国家重点实验室，北京100084) 摘要：盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物，很少有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求，本文提出了一种可以提供触觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激，使用改进的DiscoGAN训练了我们的端到端生成网络。为了训练我们的网络，构建了视触跨模态数据集GroVib。通过上机实验和实物实验来评估方案的可行性，通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%,触觉的平均真实感受得分为71.3，在真实场景实验中，参与者只需平均3.35次尝试就可以根据触觉反馈来识别地面。关键词：盲人用户；电子手杖：跨模态技术；触觉：数据集；深度学习；计算机视觉；生成对抗网络中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2020)01-0033-08 中文引用格式：朱文霖，刘华平，王博文，等.基于视-触跨模态感知的智能导盲系统.智能系统学报，2020,15(1)：33-40. 英文引用格式：ZHU Wenlin,LIU Huaping,WANG Bowen,etal.An intelligent blind guidance system based on visual-touch cross- modal perception[J].CAAI transactions on intelligent systems,2020,15(1):33-40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin',LIU Huaping,WANG Bowen',SUN Fuchun? (1.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130, China;2.State Key Lab.of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Blind mobility aid is a primary part of the daily life for blind people.Most of these technologies are used to help them navigate and avoid obstacles,and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling.To meet the above requirements,we proposed an intelligent guided rod system,which can provide tactile feedback to assist the blind to recognize ground information.We attempted to gener- ate the vibrotactile stimuli leveraging the power of deep generative adversarial training.Specifically,we used an im- proved DiscoGAN training an end-to-end generated network.To train the network,we also built GroVib,a visual touch cross-modal dataset.We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tact- ile sense was 84.7%,and the average real feeling score of tactile sense was 71.3.In real scene experiments,the parti- cipants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords:blind users;electronic cane;cross-modal technology;touch;data set;deep learning;computer vision; GANs 收稿日期：2019-08-21. 视力障得是困扰人们的最严重的问题之一。基金项目：国家自然科学基金重点项目(U1613212):河北省自根据WHO的报告称80%的眼睛疾病是可以预然科学基金项目(E2017202035). 通信作者：刘华平.E-mail:hpliu@tsinghua.edu.cn 防甚至治愈的，但失明仍然是一个严重的世界性

DOI: 10.11992/tis.201908015 基于视−触跨模态感知的智能导盲系统朱文霖1 ，刘华平2 ，王博文1 ，孙富春2 （1. 河北工业大学省部共建电工装备可靠性与智能化国家重点实验室，天津 300130; 2. 清华大学智能技术与系统国家重点实验室，北京 100084）摘要：盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物，很少有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求，本文提出了一种可以提供触觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用改进的 DiscoGAN 训练了我们的端到端生成网络。为了训练我们的网络，构建了视触跨模态数据集 GroVib。通过上机实验和实物实验来评估方案的可行性，通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%，触觉的平均真实感受得分为 71.3，在真实场景实验中，参与者只需平均 3.35 次尝试就可以根据触觉反馈来识别地面。关键词：盲人用户；电子手杖；跨模态技术；触觉；数据集；深度学习；计算机视觉；生成对抗网络中图分类号：TP391.4 文献标志码：A 文章编号：1673−4785(2020)01−0033−08 中文引用格式：朱文霖, 刘华平, 王博文, 等. 基于视−触跨模态感知的智能导盲系统 [J]. 智能系统学报, 2020, 15(1): 33–40. 英文引用格式：ZHU Wenlin, LIU Huaping, WANG Bowen, et al. An intelligent blind guidance system based on visual-touch crossmodal perception[J]. CAAI transactions on intelligent systems, 2020, 15(1): 33–40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin1 ，LIU Huaping2 ，WANG Bowen1 ，SUN Fuchun2 (1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China; 2. State Key Lab. of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Blind mobility aid is a primary part of the daily life for blind people. Most of these technologies are used to help them navigate and avoid obstacles, and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling. To meet the above requirements, we proposed an intelligent guided rod system, which can provide tactile feedback to assist the blind to recognize ground information. We attempted to generate the vibrotactile stimuli leveraging the power of deep generative adversarial training. Specifically, we used an improved DiscoGAN training an end-to-end generated network. To train the network, we also built GroVib, a visual touch cross-modal dataset. We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tactile sense was 84.7%, and the average real feeling score of tactile sense was 71.3. In real scene experiments, the participants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords: blind users; electronic cane; cross-modal technology; touch; data set; deep learning; computer vision; GANs 视力障碍是困扰人们的最严重的问题之一。根据 WHO[1] 的报告称 80% 的眼睛疾病是可以预防甚至治愈的，但失明仍然是一个严重的世界性收稿日期：2019−08−21. 基金项目：国家自然科学基金重点项目 (U1613212)；河北省自然科学基金项目 (E2017202035). 通信作者：刘华平. E-mail：hpliu@tsinghua.edu.cn. 第 15 卷第 1 期智能系统学报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020

·34· 智能系统学报第15卷问题。除了努力在医学、神经科学和生物技术方 1相关工作面为这些问题找到最终的解决方案外，科学技术还可以通过提供基本功能（如独立导航和感知周盲人辅助技术在过去的十几年中得到了突飞围环境的能力)来为这些人提供帮助。猛进的发展。研究结果主要针对导航辅助和识别虽然目前的盲人辅助技术提供了一些先进辅助两个方面。文献[5-6]设计了一款可穿戴智的方案来解决盲人的行动指导或识别问题，但大能服装原型，传感器探测所关注的区域，并提供部分工作对于使用者的反馈集中在语音告知或导航提示。文献[7)]为盲人提供了一种基于超声提供简单的定向引导振动。然而，触觉对视障患波的导航辅助设备，使盲人能够通过安装在肩膀者来说是一种非常敏感的感知方式。将触觉信上的超声波传感器和一根导盲杖在前方6内探号引入盲人辅助中，可以使盲人用户更加直观地索路线。针对盲人的纸币识别已经在文献[8]中辨别地面环境，丰富盲人感知现实世界的方式，得到了解决，其中使用了加速鲁棒特性(SURF)。对于构建残疾人友好社会具有重要的应用价文献[9]处理了一个超市购物场景。在这项工作值。目前仍然缺乏从环境信息中产生触觉振动中，射频识别(RFD)被用作定位和导航的手段，的解决方案。而产品识别则是通过便携式相机读取二维码来实触觉振动反馈可以使人类通过工具与物体表现的。产品条形码的检测和读取也在文献[10]中面的相互作用来感知纹理的属性。为了给人类提被解决。文献[11]提出了一种基于便携式摄像机供这样的响应，触觉振动模型的研究已经开展了的公交线路号码检测系统的设计方案。文献[12] 很长时间。遗憾的是，目前还没有基于工具状态提出了室内楼梯检测方案。文献[13]提出了一个和表面状态交互产生振动触觉响应的模型。这样通过内置的盲文脚本为盲人阅读电子书提供便利的模型需要学习大量复杂的输入域和输出域空间的设备。文献[14]认为服装颜色以及模式识别是映射：输入为工具状态（如工具速度），纹理表面状促进盲人识别能力的一种手段。文献[15]提出了态（如地面纹理属性），输出为振动触觉信号。并利用光学字符识别功能来识别文本，提供语音反且传统的振动信号生成模型只支持单一类型信号馈的辅助文本阅读系统。的输出。而这样的模型是无法满足现实生活中多 2系统设计种多样地面类别的需求的。最近，从任一高维分布中生成新样本的生成触觉再现装置通常是通过各种方法来刺激皮方法得到了广泛的应用。具体地说，生成对抗网肤的设备，如空气波纹管、微针阵列、直流电脉冲络(GAN)在合成真实世界图像方面显示出了出器和功能性神经肌肉刺激器等。本文的触觉输出色的能力。之前的研究表明，GANs可以有效地模块是一种音频振动器，属于电励磁产生的振动生成标签)、文本等条件下的图像。尽管这些装置。其优点是采用电机作为执行机构，可以获结果非常的出色，但很少有研究使用GANs来建得任意方向的扭矩，响应速度相对较快，对不同模时间序列数据分布。频率的输人信号非常敏感。该装置可以模拟原始现代深度学习技术对于图像特征的提取和触觉信号采集的工具交互状态（如加速度等），这高纬分布的拟合是非常依赖数据集的。现有的是选择该装置作为触觉输出的主要原因。大多数公共数据集集中在体现视觉单一模态图处理器本文选取了华为公司生产的Hikey970 像的差异性中。触觉和视觉属于两种模态的信智能芯片，它是华为第三代开发板，具有更强的息，目前尚未有直接可用的视触跨模态图像数计算能力、更丰富的硬件接口，支持主流操作系据集。统和人工智能模块。HiKey970集成了华为创新本文的主要贡献有3个方面：设计的HAI框架，以及其他主流的神经网络框 1)介绍了盲人辅助设备的发展在此基础上，架，不但支持CPU、GPU的AI运算，还支持基于设计了一种面向视障人群的触觉反馈智能导盲杖 NPU的神经网络计算硬件加速，能效和性能分别装置。可达CPU运算的50倍、25倍。本文将它烧录为 2)设计了一种基于GAN的端（地面信息）到 Debian系统并在上面运行Tensorflow框架下的深端（振动反馈）的生成网络结构。度学习网络。摄像机选用一款拥有200万像素的 3)构建了基于地面图像和振动信息的跨模态 USB摄像头模块，该款相机支持逆光拍摄且拍摄数据集(GroVib)。广角无畸变。处理器的音频输出功率相对较低

问题。除了努力在医学、神经科学和生物技术方面为这些问题找到最终的解决方案外，科学技术还可以通过提供基本功能 (如独立导航和感知周围环境的能力) 来为这些人提供帮助。虽然目前的盲人辅助技术提供了一些先进的方案来解决盲人的行动指导或识别问题，但大部分工作对于使用者的反馈集中在语音告知或提供简单的定向引导振动。然而，触觉对视障患者来说是一种非常敏感的感知方式。将触觉信号引入盲人辅助中，可以使盲人用户更加直观地辨别地面环境，丰富盲人感知现实世界的方式，对于构建残疾人友好社会具有重要的应用价值。目前仍然缺乏从环境信息中产生触觉振动的解决方案。触觉振动反馈可以使人类通过工具与物体表面的相互作用来感知纹理的属性。为了给人类提供这样的响应，触觉振动模型的研究已经开展了很长时间。遗憾的是，目前还没有基于工具状态和表面状态交互产生振动触觉响应的模型。这样的模型需要学习大量复杂的输入域和输出域空间映射：输入为工具状态 (如工具速度)，纹理表面状态 (如地面纹理属性)，输出为振动触觉信号。并且传统的振动信号生成模型只支持单一类型信号的输出。而这样的模型是无法满足现实生活中多种多样地面类别的需求的。最近，从任一高维分布中生成新样本的生成方法得到了广泛的应用。具体地说，生成对抗网络 (GAN)[2] 在合成真实世界图像方面显示出了出色的能力。之前的研究表明，GANs 可以有效地生成标签[3] 、文本[4] 等条件下的图像。尽管这些结果非常的出色，但很少有研究使用 GANs 来建模时间序列数据分布。现代深度学习技术对于图像特征的提取和高纬分布的拟合是非常依赖数据集的。现有的大多数公共数据集集中在体现视觉单一模态图像的差异性中。触觉和视觉属于两种模态的信息，目前尚未有直接可用的视触跨模态图像数据集。本文的主要贡献有 3 个方面： 1) 介绍了盲人辅助设备的发展在此基础上，设计了一种面向视障人群的触觉反馈智能导盲杖装置。 2) 设计了一种基于 GAN 的端 (地面信息) 到端 (振动反馈) 的生成网络结构。 3) 构建了基于地面图像和振动信息的跨模态数据集 (GroVib)。 1 相关工作盲人辅助技术在过去的十几年中得到了突飞猛进的发展。研究结果主要针对导航辅助和识别辅助两个方面。文献 [5-6] 设计了一款可穿戴智能服装原型，传感器探测所关注的区域，并提供导航提示。文献 [7] 为盲人提供了一种基于超声波的导航辅助设备，使盲人能够通过安装在肩膀上的超声波传感器和一根导盲杖在前方 6 m 内探索路线。针对盲人的纸币识别已经在文献 [8] 中得到了解决，其中使用了加速鲁棒特性 (SURF)。文献 [9] 处理了一个超市购物场景。在这项工作中，射频识别 (RFID) 被用作定位和导航的手段，而产品识别则是通过便携式相机读取二维码来实现的。产品条形码的检测和读取也在文献 [10] 中被解决。文献 [11] 提出了一种基于便携式摄像机的公交线路号码检测系统的设计方案。文献 [12] 提出了室内楼梯检测方案。文献 [13] 提出了一个通过内置的盲文脚本为盲人阅读电子书提供便利的设备。文献 [14] 认为服装颜色以及模式识别是促进盲人识别能力的一种手段。文献 [15] 提出了利用光学字符识别功能来识别文本，提供语音反馈的辅助文本阅读系统。 2 系统设计触觉再现装置通常是通过各种方法来刺激皮肤的设备，如空气波纹管、微针阵列、直流电脉冲器和功能性神经肌肉刺激器等。本文的触觉输出模块是一种音频振动器，属于电励磁产生的振动装置。其优点是采用电机作为执行机构，可以获得任意方向的扭矩，响应速度相对较快，对不同频率的输入信号非常敏感。该装置可以模拟原始触觉信号采集的工具交互状态 (如加速度等)，这是选择该装置作为触觉输出的主要原因。处理器本文选取了华为公司生产的 Hikey970 智能芯片，它是华为第三代开发板，具有更强的计算能力、更丰富的硬件接口，支持主流操作系统和人工智能模块。HiKey970 集成了华为创新设计的 HiAI 框架，以及其他主流的神经网络框架，不但支持 CPU、GPU 的 AI 运算，还支持基于 NPU 的神经网络计算硬件加速，能效和性能分别可达 CPU 运算的 50 倍、25 倍。本文将它烧录为 Debian 系统并在上面运行 Tensorflow 框架下的深度学习网络。摄像机选用一款拥有 200 万像素的 USB 摄像头模块，该款相机支持逆光拍摄且拍摄广角无畸变。处理器的音频输出功率相对较低， ·34· 智能系统学报第 15 卷

第1期朱文霖，等：基于视-触跨模态感知的智能导盲系统 ·35· 不足以驱动振动模块，因此选取了LEPY公司生了跨域生成对抗网络作为该方法的基本组成部产的LP-2020A型号的功率放大器将声波信号进分。并在此基础上建立了一个端到端完整的生成行放大。功率放大器以及为整个系统提供电能的网络。移动电源均放置在用户的背包中。振动块，处理 3.1原始GAN 器，相机以及控制按钮都集成在设计的3D打印 GAN是一种在无监督情况下生成逼真图像的导盲杖中。模型的整体结构展示如图1所示，的有效方法。GAN利用生成网络G将一个潜在图2展示了该设备的使用流程。的噪声变量z~Pe转换为一个伪图像样本G()。原始的GAN使用最小-最大博弈策略来训练生成器G,并使用另一个网络D来区分G)和真实样振动器本。形式上，GAN的目标可以表示为控制按钮摄像机 minmax L(D.G)=E [logD(x)]+ Ep [log(1-D(G()))] 处理器式中，鉴别器D试图最大化真实样本输出的置信度得分。同时，它也最小化了G生成的伪样本输出的置信度得分。相比之下，G的目标是最大化 D对其输出的评价得分，这可以看作是对D的一种欺骗。 3.2基于DiscoGAN的图像翻译我们的任务是将地面图像域A转换为频谱图1系统原型图像域B。解决这个问题最流行的方法是P2P9 Fig.1 The prototype of the proposed system CycleGAN2O和DiscoGAN2。其中Pix2Pix结合按压 GAN损失和L1正则化损失，提出了一种新的图控制按钮摄像机拍摄图像像生成方法。然而，这种方法需要一组配对的传输图像来监督。文献20-21]提出了无监督图像到处理器图像的生成方法以克服这一局限性。在这些方生成法中，每个域都有一对生成器和鉴别器。对于振动信号给定的域A到B,GAB和GBA将图像从A传输到传输 B(或B到A),同时鉴别器D4和Ds判断样本是否接触振动器人类感知触感属于该域。CycleGAN和DiscoGAN都提出了一个循环框架，将图像从A域转换为B域，然后再图2使用流程将其转换回原域，从而在两个域之间建立强映 Fig.2 Gray scale image of sensor 射。为此，这些方法的损失函数在这两个域之间有一个对抗性损失和一个循环（重建）损失， 3系统实现定义如下：该系统的主要目标是自动生成可以反应目标 L(AB)=E [log(D (b))]+ 地面特征的频谱图。在计算机视觉和机器学习领 E[log(1-D (GAB (a)))]+ 域，这个问题可以看作图像到图像的翻译问题。 Ea[llGBA (GAB(a))-all2] 文献[18]提出了一种识别输入图像类别，然后输 L(B→A)=Ea[log(D.(a]+ 出相应类别信息的方法。然而，这种方法将图像分类为类别标签，会丢失很多高纬度特征信息， E [log(1-D(GBA (b)))]+ 因此本文需要更直接的解决方案。 E [llGAB(GBA(b))-bll2] GAN是一种用于样式转换以及图像自动生在本工作中，由于CycleGAN有一个不适合成的方法。特别的，基于GAN的方法可以用于我们问题的特点，即它试图保留原始图像域的轮在相同域或是跨域样式转换的生成。为了在不受廓，所以本文的方案最终采用了DiscoGAN。图3 用户干扰的情况下将地面图像转换成频谱，采用展示了系统的整体框架

不足以驱动振动模块，因此选取了 LEPY 公司生产的 LP-2020A 型号的功率放大器将声波信号进行放大。功率放大器以及为整个系统提供电能的移动电源均放置在用户的背包中。振动块，处理器，相机以及控制按钮都集成在设计的 3D 打印的导盲杖中。模型的整体结构展示如图 1 所示，图 2 展示了该设备的使用流程。振动器控制按钮摄像机处理器图 1 系统原型 Fig. 1 The prototype of the proposed system 控制按钮摄像机拍摄图像处理器振动信号振动器人类感知触感接触传输传输按压生成图 2 使用流程 Fig. 2 Gray scale image of sensor 3 系统实现该系统的主要目标是自动生成可以反应目标地面特征的频谱图。在计算机视觉和机器学习领域，这个问题可以看作图像到图像的翻译问题。文献 [18] 提出了一种识别输入图像类别，然后输出相应类别信息的方法。然而，这种方法将图像分类为类别标签，会丢失很多高纬度特征信息，因此本文需要更直接的解决方案。 GAN 是一种用于样式转换以及图像自动生成的方法。特别的，基于 GAN 的方法可以用于在相同域或是跨域样式转换的生成。为了在不受用户干扰的情况下将地面图像转换成频谱，采用了跨域生成对抗网络作为该方法的基本组成部分。并在此基础上建立了一个端到端完整的生成网络。 3.1 原始 GAN GAN 是一种在无监督情况下生成逼真图像的有效方法。GAN 利用生成网络 G 将一个潜在的噪声变量 z~Pnoise 转换为一个伪图像样本 G(z)。原始的 GAN 使用最小−最大博弈策略来训练生成器 G，并使用另一个网络 D 来区分 G(z) 和真实样本。形式上，GAN 的目标可以表示为 min G max D L(D,G) = Ex∼Pdata(x) [ logD(x) ] + Ez∼Pnoise [ log(1− D(G(z)))] 式中，鉴别器 D 试图最大化真实样本输出的置信度得分。同时，它也最小化了 G 生成的伪样本输出的置信度得分。相比之下，G 的目标是最大化 D 对其输出的评价得分，这可以看作是对 D 的一种欺骗。 3.2 基于 DiscoGAN 的图像翻译我们的任务是将地面图像域 A 转换为频谱图像域 B。解决这个问题最流行的方法是 Pix2Pix[19] 、 CycleGAN[20] 和 DiscoGAN[21]。其中 Pix2Pix 结合 GAN 损失和 L1 正则化损失，提出了一种新的图像生成方法。然而，这种方法需要一组配对的图像来监督。文献 [20-21] 提出了无监督图像到图像的生成方法以克服这一局限性。在这些方法中，每个域都有一对生成器和鉴别器。对于给定的域 A 到 B, GAB 和 GBA 将图像从 A 传输到 B(或 B 到 A)，同时鉴别器 DA 和 DB 判断样本是否属于该域。CycleGAN 和 DiscoGAN 都提出了一个循环框架，将图像从 A 域转换为 B 域，然后再将其转换回原域，从而在两个域之间建立强映射。为此，这些方法的损失函数在这两个域之间有一个对抗性损失和一个循环 (重建) 损失，定义如下： L(A → B) = Eb [ log(Db (b))] + Ea [ log(1− Db (GAB (a)))] + Ea [∥GBA (GAB (a))−a∥2 ] L(B → A) = Ea [ log(Da (a))] + Eb [ log(1− Da (GBA (b)))] + Eb [∥GAB (GBA (b))−b∥ 2] 在本工作中，由于 CycleGAN 有一个不适合我们问题的特点，即它试图保留原始图像域的轮廓，所以本文的方案最终采用了 DiscoGAN。图 3 展示了系统的整体框架。第 1 期朱文霖，等：基于视−触跨模态感知的智能导盲系统 ·35·

·36· 智能系统学报第15卷转换成频谱图，最后，利用Griffin-Lim算法2 将生成的谱图转换为声波格式。然后通过放大器其Da 和振动器将波形数据传输给用户。图5给出了假？A 6种场景振动信号波形的差异。假？A 格里芬算法振动信号地面图片图3结构框架 Fig.3 The framework of our proposed structure. 功率振动块 3.3端到端生成网络放大器图4对数据流进行了逐级描述。当输入地面图4端到端生成模型图像时，它将通过训练好的生成网络G。G将它 Fig.4 The end-to-end Generate model 1.00 0.75 01 0.75 0.50 0.50 0.25 0 0.25 0.00 5 0.00 -0.25 0 -0.25 0.50 -0.50 04 -0.75 -0.75 -1.00 -1.00 0 50001000015000 50001000015000 50001000015000 频率Hz 频率Hz 频率Hz (a)柏油路 (b)户外石板路 (c)室内大理石 0.75 1.00 1.00 0.50 0.75 0.75 0.25 0.50 0.50 0.00 0.25 0.25 0.25 0.00 0.00 -025 -0.25 -0.50 -0.50 -0.50 www 0.75 -0.75 -0.75 -1.00 -1.00 -1.00 500010000 15000 0 500010000 15000 0 50001000015000 频率/Hz 频率Hz 频率Hz (d木地板 (e)橡胶跑道 (①草地图5振动信号的波形展示 Fig.5 Tactile Signal Waveform Display 4 GroVib数据集速度时间序列信号转换为图像。 GroVib数据集由6种常见地面类型组成：柏视觉和触觉是人类两种重要的感知方式，它油路、户外石板路、室内大理石、木地板、橡胶跑们之间有着很强的联系，盲人可以通过触觉感知道和草地。来弥补视觉的缺失。因此，构建了一个视触交叉 41地面图像模态数据集Gro Vib(ground-vibration)作为深度学数据集中的地面照片是通过智能手机（小米习网络训练的基础。 8)进行拍摄的，拍摄的高度与导盲杖中相机所处视觉图像易于捕捉，所包含的信息也很明位置相当（距地面约80cm)。为了保证模型可以显。但振动信息无法直观地描述。当工具敲击或全天候的使用，对高光照强度和昏暗条件下都进在物体表面拖动时，会产生振动，振动可以通过行了数据的采集，两种光强下对每一种地面各拍加速度传感器捕捉到，相应的表面信号代表了物摄了100张照片，因此GroVib数据集中有1200 体表面的特征2。为了便于处理这些数据，将加张地面图像

DA DB GAB GBA GBA GAB b a a ^ b ^ A ^ B ^ 真/ 假? 真/ 假? 图 3 结构框架 Fig. 3 The framework of our proposed structure. 3.3 端到端生成网络图 4 对数据流进行了逐级描述。当输入地面图像时，它将通过训练好的生成网络 G。G 将它转换成频谱图，最后，利用 Griffin-Lim 算法[ 2 2 ] 将生成的谱图转换为声波格式。然后通过放大器和振动器将波形数据传输给用户。图 5 给出了 6 种场景振动信号波形的差异。地面图片频谱振动信号功率放大器振动块格里芬算法 G 图 4 端到端生成模型 Fig. 4 The end-to-end Generate model 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0 5 0 5 0 5 0 5 0 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地加速度/(m·s−2) 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 图 5 振动信号的波形展示 Fig. 5 Tactile Signal Waveform Display 4 GroVib 数据集视觉和触觉是人类两种重要的感知方式，它们之间有着很强的联系，盲人可以通过触觉感知来弥补视觉的缺失。因此，构建了一个视触交叉模态数据集 GroVib(ground-vibration) 作为深度学习网络训练的基础。视觉图像易于捕捉，所包含的信息也很明显。但振动信息无法直观地描述。当工具敲击或在物体表面拖动时，会产生振动，振动可以通过加速度传感器捕捉到，相应的表面信号代表了物体表面的特征[23]。为了便于处理这些数据，将加速度时间序列信号转换为图像。 GroVib 数据集由 6 种常见地面类型组成:柏油路、户外石板路、室内大理石、木地板、橡胶跑道和草地。 4.1 地面图像数据集中的地面照片是通过智能手机 (小米 8) 进行拍摄的，拍摄的高度与导盲杖中相机所处位置相当 (距地面约 80 cm)。为了保证模型可以全天候的使用，对高光照强度和昏暗条件下都进行了数据的采集，两种光强下对每一种地面各拍摄了 100 张照片，因此 GroVib 数据集中有 1 200 张地面图像。 ·36· 智能系统学报第 15 卷

第1期朱文霖，等：基于视-触跨模态感知的智能导盲系统 ·37· 现代智能手机的拍照质量越来越高，而我们的频域内的信息。最后裁剪了频谱图，把它们调的任务并不需要使用如此高分辨率的图片来完整成到256×256的大小。短时傅里叶变换的具体成，所以需要将收集到的图片统一到一个较小的参数如表1所示。生成的频谱样式如图7所示。尺寸。我们裁剪了1200张图片，并将它们调整表1STFT的参数为256×256的大小。图像的缩小不建议简单地缩 Table 1 STFT parameters 小尺寸，这样会造成严重的失真。因此，使用参数名称参数数值 TensorFlow中提供的面积插值方法对图像进行 Fs 10000 缩放。地面图像实例如图6所示。重叠 128 时间s 1.625 汉明窗 512 nfft 512 (a)柏油路 (b)户外石板路 (c)室内大理石频率范围/Hz 0-256 (d)木地板 (e)橡胶跑道 ()草地图6地面图像实例 (a)柏油路 (b)户外石板路 (c)室内大理石 Fig.6 Gray scale image of sensor 4.2振动图像在本文的模型中，加速度信号被用作振动触觉刺激。加速度信号参考了公开数据集LMT lO8-Surface Materials-.DatabaseR中的结果，该数据 (d)木地板 (e)橡胶跑道 ()草地集包含了各种类型的纹理图像和相应工具产生的图7频谱图像实例用于滑动任务的加速度信号。每种类型有20组 Fig.7 Gray scale image of sensor 加速度信号样本，每组包含X、Y、Z等3个时间序 5 列的信号。这些信号和图像均用108个类标签进生成结果行了标注。 5.1 实验装置从108类中，选择6个小类对应于设置的地面我们的模型是使用一台配备英特尔酷睿7 类型：G2 Brick对应柏油路，G2 Stone Tile Version2 875 OH CPU、16 GB DDR4RAM和NVidia Geforce 对应户外石板路，G2 Marble对应室内大理石， GTX1080Ti的台式电脑完成的。 G4 CherryTree对应木地板，G5 ProfiledRubber-. 5.2数据预处理 Plate对应橡胶跑道，G6 FineArtificialGrassFibers对虽然本文GroVib数据集对于每一类地面都应草地。有200张照片，但是对于训练一个神经网络来说目前，很少有研究使用GANs生成时间序列仍然是不够的，所以在训练模型时遵循数据增强数据。这是因为GANs虽然擅长生成二维图像，设置。将每张图像进行水平和垂直翻转，以及随但在生成时间序列数据方面却很差。因此，选择机旋转它们的角度，除了传统方法外，还使用随频谱图作为加速度信号的表示。原始数据库中每机擦除和混合技术。将每个类别的地面数据扩展个信号有4s长，采样率为10kHz。本文使用短到1000个，因此总共有6000个大小为256×256 时傅里叶变换(STFT)完成信号的转换步骤。的地面图像。而频谱图不能用于数据增强，因为 ST℉T用于确定时变信号局部区域正弦波的频率它们代表了振动信号的时间序列特征和振幅强和相位，其处理的信号具有时域和频域的局域特度，类似的处理方法会严重影响隐藏信息。本文性。在这一步中，对变换的结果进行对数运算和对地面图像和频谱图都进行了标注，这样在训练归一化运算，并且提取0~1.625s,频率在0-256Hz 模型时可以根据类别信息选择相应的数据

现代智能手机的拍照质量越来越高，而我们的任务并不需要使用如此高分辨率的图片来完成，所以需要将收集到的图片统一到一个较小的尺寸。我们裁剪了 1 200 张图片，并将它们调整为 256×256 的大小。图像的缩小不建议简单地缩小尺寸，这样会造成严重的失真。因此，使用 TensorFlow 中提供的面积插值方法对图像进行缩放。地面图像实例如图 6 所示。 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地图 6 地面图像实例 Fig. 6 Gray scale image of sensor 4.2 振动图像在本文的模型中，加速度信号被用作振动触觉刺激。加速度信号参考了公开数据集 LMT- 108-Surface Materials-Database[24] 中的结果，该数据集包含了各种类型的纹理图像和相应工具产生的用于滑动任务的加速度信号。每种类型有 20 组加速度信号样本，每组包含 X、Y、Z 等 3 个时间序列的信号。这些信号和图像均用 108 个类标签进行了标注。从 108 类中,选择 6 个小类对应于设置的地面类型: G2Brick 对应柏油路, G2StoneTileVersion2 对应户外石板路, G2Marble 对应室内大理石, G4CherryTree 对应木地板, G5ProfiledRubberPlate 对应橡胶跑道, G6FineArtificialGrassFibers 对应草地。目前，很少有研究使用 GANs 生成时间序列数据。这是因为 GANs 虽然擅长生成二维图像，但在生成时间序列数据方面却很差。因此，选择频谱图作为加速度信号的表示。原始数据库中每个信号有 4 s 长，采样率为 10 kHz。本文使用短时傅里叶变换 (STFT) 完成信号的转换步骤。 STFT 用于确定时变信号局部区域正弦波的频率和相位，其处理的信号具有时域和频域的局域特性。在这一步中，对变换的结果进行对数运算和归一化运算，并且提取 0~1.625 s，频率在 0~256 Hz 的频域内的信息。最后裁剪了频谱图，把它们调整成到 256×256 的大小。短时傅里叶变换的具体参数如表 1 所示。生成的频谱样式如图 7 所示。表 1 STFT 的参数 Table 1 STFT parameters 参数名称参数数值 Fs 10 000 重叠 128 时间/s 1.625 汉明窗 512 nfft 512 频率范围/ Hz 0~256 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地图 7 频谱图像实例 Fig. 7 Gray scale image of sensor 5 生成结果 5.1 实验装置我们的模型是使用一台配备英特尔酷睿 i7- 8750H CPU、16 GB DDR4 RAM 和 NVidia Geforce GTX 1080 Ti 的台式电脑完成的。 5.2 数据预处理虽然本文 GroVib 数据集对于每一类地面都有 200 张照片，但是对于训练一个神经网络来说仍然是不够的，所以在训练模型时遵循数据增强设置。将每张图像进行水平和垂直翻转，以及随机旋转它们的角度，除了传统方法外，还使用随机擦除和混合技术。将每个类别的地面数据扩展到 1 000 个，因此总共有 6 000 个大小为 256×256 的地面图像。而频谱图不能用于数据增强，因为它们代表了振动信号的时间序列特征和振幅强度，类似的处理方法会严重影响隐藏信息。本文对地面图像和频谱图都进行了标注，这样在训练模型时可以根据类别信息选择相应的数据。第 1 期朱文霖，等：基于视−触跨模态感知的智能导盲系统 ·37·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录