当前位置：和泉文库 > 电气与自动化 > 浏览文档

【学术论文】机器人听觉声源定位研究综述

文件格式：PDF，文件大小：1.85MB，售价：4.65元

文档详细内容（约12页）

第7卷第1期智能系统学报 Vol.7 No.1 2012年2月 CAAI Transactions on Intelligent Systems Feh.2012 D0I:10.3969/i.issn.16734785.201201003 网络出版t地址：htp://www.cnki.net/kcma/detail/23.1538.TP.20120219.2224.001.html 机器人听觉声源定位研究综述李晓飞'，刘宏12 (1.北京大学深圳研究生院集成微系统科学工程与应用重点实验室，广东深圳518055；2.北京大学机器感知与智能教育部重，点实验室，北京100871) 摘要：声源定位技术定位出外界声源相对于机器人的方向和位置，机器人听觉声源定位系统可以极大地提高机器人与外界交互的能力.总结和分析面向机器人听觉的声源定位技术对智能机器人技术的发展有着重要的意义.首先总结了面向机器人听觉的声源定位系统的特点，综述了机器人听觉声源定位的关键技术，包括到达时间差、可控波束形成、高分辨率谐估计、双耳听觉、主动听觉和视听融合技术.其次对麦克风阵列模型进行了分类，比较了基于三维麦克风阵列、二维麦克风阵列和双耳的7个典型系统的性能.最后总结了机器人听觉声源定位系统的应用，并分析了存在的问题和未来的发展趋势. 关键词：机器人；机器人听觉；声源定位；麦克风阵列中图分类号：TP242.6;TN912.3文献标志码：A文章编号：16734785(2012)010009-12 A survey of sound source localization for robot audition LI Xiaofei,LIU Hong2 (1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key La- boratory of Machine Perception (Ministry of Education),Peking University,Beijing 100871,China) Abstract:The technology of sound source localization can localize the direction and position of a sound source rela- tive to a robot.Sound source localization system for robot audition can greatly improve the ability of a robot to inter- act with external conditions.The summary and analysis of sound source localization for robot audition can signifi- cantly promote the development of intelligent robots.In this work,first,the characteristics of sound source localiza- tion for robot audition were summarized.The key technologies were summarized,including the time delay of arri- val,steered beamforming,high resolution spectral estimation,binaural,active audition,and audio-visual.Then, the models of a microphone array were classified,and the performances of seven typical systems based on a 3-D mi- crophone array,2-D microphone array,and binaural were compared.Finally,the applications of a sound source localization system of robot audition were summarized.Several issues that sound source localization systems face as well as development trends were analyzed. Keywords:robot;robot audition;sound source localization;microphone array 机器人听觉系统是一种自然、方便、有效、智能障碍物的情况下依然可以有效地工作.一般来讲机的机器人与外界系统交互的方式.由于声音信号的器人听觉包括声源信号的定位与分离、自动语音识衍射性能，听觉具有全向性，相较于视觉、激光等其别、说话人识别等.机器人听觉声源定位是指机器人他的传感信号听觉不需要直线视野，在有视野遮蔽利用搭载在机器人上或者外部设备上的麦克风阵列定位出声源的相对位置.随着信息技术、电子科学技术、计算机科学技术和智能科学的迅速发展，自20 收稿日期：201201-10.网络出版时间：201202-19. 基金项目：国家“863”计划资助项目(2006AA04Z247);国家自然科学世纪90年代中期始，人们对机器人听觉声源定位技基金资助项目(60675025,60875050)：深圳市科技计划及基础研究计划资助项目(JC20090316039). 术进行了深入而广泛的研究，并取得了重要的进展。通信作者：刘宏.E-mail:hongliu(@pkm.ed.cm 声源的位置信息包括轴向角、仰角和距离，其中

·10 智能系统学报第7卷轴向角可以确定声源的二维方向，轴向角和仰角可 cross correlation,GCC)2]、互功率谱相位法(cross- 以确定声源的三维方向，轴向角、仰角和距离可以确 power spectrum phase,CSP)IB1、特征值分解4、声学定声源的三维位置.在噪声环境下，利用少量的麦克传递函数比5]等.获取TD0A以后，乘以声速便可风实时地定位声源的三维位置是一个实用的机器人以得到距离差，这样就可以通过声源与麦克风的几听觉声源定位系统的目标.虽然机器人听觉声源定何关系得到声源位置.主要的几何定位方法包括最位技术的研究取得了很多成果，但是该技术的实际大似然估计(maximum likelihood estimator)[6]和最小应用还面临很多问题，均方估计(least square estimator)7s].TDOA方法计算量小，可实时实现，但双步估计带来累积误差，是 1机器人听觉系统声源定位的特点一种次最优估计，为了取得较高的分辨率，对信号采相较于一般的声源定位系统，机器人听觉声源样率要求较高，适用于单声源定位定位具有以下特点： 1997年Huang等利用3个麦克风组成平面三 1)麦克风阵列易搭载：搭载在机器人平台上的角阵列定位声源的全向轴向角.根据声音的优先麦克风阵列应该尽量小，麦克风阵列的小型化可以效应，通过无回响起点检测算法(echo-free onset de- 通过减少麦克风的数量和优化阵列拓扑来实现 tection)检测出无回响的声音段，利用过零点(zero- 2)机器人运动：搭载在机器人平台上的麦克风 crossing point)检测时延，然后根据几何关系定位声阵列的运动改变了听觉场景，给声源定位带来了困源轴向角.2002年他们利用如图1所示的三维麦克难.但另一方面可以通过麦克风阵列的主动运动，丰风阵列进行声源轴向角和仰角的定位，互相关函富麦克风阵列的拓扑，提高定位能力数和互功率谱相位差分别被用于时延估计.识别阶 3)声源移动：在大多数机器人听觉声源定位系段，6个时间差组成时间差序列：△tm=（△t2,△t3, 统应用中，声源是移动的，需要进行移动声源的定位 △t14,△t如，△24，△4)，时间差序列误差为e(0,p）= 与跟踪， ‖(0，p)-m‖，其中△(0，p)为理论时间差， 4)实时性高：机器人的运动和声源的移动造成轴向角0和仰角p取使e(0,P)最小化的值. 机器人和声源相对位置的即时变化，要求定位具有 2007年文献[11]对于多个声源，利用6个互相关函较高的实时性.机器人与外界交互的实时性是机器数的几何平均：人友好性和安全性的保障，是评价交互性能的重要 P(0,p)={ΠCg(△tg(0,p)}s 指标，因此声源定位系统的实时性是极其必要的. 表示一个声源位置存在声源的概率，概率越大则存 5)抗混响和噪声：机器人工作在真实环境中，信在声源的可能性越大号混响和噪声是难以避免的，因此声源定位系统的抗混响和抗噪声能力在很大程度上影响定位性能， 2机器人听觉系统声源定位方法 4通道 1995年Iie第1次将声源定位技术用于智能机友克风器人)，利用短时时域、频域特征和神经网络技术区分摄像头视角内的左中右3个声源方向，其后，基于麦克风阵列的到达时间差技术(time delay of arri- 图14通道阵列 val,TDOA)、基于最大输出功率的可控波束形成技 Fig.1 4-ch array 术(steered beamforming,BS)、高分辨率谱估计技术 2002年Sekmen等提出一种自然的人机交互方 (high resolution spectral estimation)、双耳听觉(bin- 式，把人作为一个被动的用户，不用通过键盘、鼠标 aural)、机器学习(machine learning)、主动听觉技术等人工的方式与机器人进行交互2].机器人只是人 (active audition)、视听融合(audio-visual)等方法被的运动的一个直接物理再现，利用声源定位和红外用于机器人听觉声源定位，运动跟踪，为人脸跟踪系统提供候选区域和机器人 2.1到达时间差技术的注意力.2个麦克风摆放在一个开放的空间，头部基于TDOA的定位技术是一种2步定位方法，传输函数不用考虑.假设声源位于仿人机器人的前首先估计出声源信号到达各个麦克风之间的时间延方，利用互相关法估计时延，通过远场近似几何方法迟，然后利用几何定位方法求出声源位置。便可定位远场声源，稳健的时间延迟估计是精确声源定位的基础 2003年Valind等放置8个麦克风在长方体支常用的时延估计算法包括广义互相关(generalized 架的顶点「1，如图2所示.该麦克风阵列搭载在P

第1期李晓飞，等：机器人听觉声源定位研究综述 ·11 oneer2机器人上，用来进行声源轴向角和仰角定位.利用谱加权CCC-PHAT方法提取时间差，给信噪比大的频带赋予更大的权值可以有效地抑制窄带噪声的影响.然后利用远场几何定位方法定位声源的轴向角和仰角。数麦克风阵列实验平台图38通道麦克风阵列 Fig.3 8-ch microphone array 2010年Lee等利用远场情况下声源角度和到达时延的几何关系建立了angle-TD0A图1s].融合图28通道立方体阵列该图和互相关函数得到Cross-Angle-Correlation函数 Fig.2 8-ch cube array R(0),该函数在声源方向取较大的值.对于多个声 2007年Rudzyn利用与图1相似的麦克风阵列源，竞争K-means算法被用于基于Cross-Angle-Cor- 定位声源三维位置[41，包括距离、轴向角和仰角.利 relation函数的声源角度聚类，该系统利用正三角形用加权互相关函数(weighted cross correlation, 麦克风阵列定位声源轴向角， WCC)估计时延：fxe=f/(fmi+8),其中fmi为平 2.2基于最大输出功率的可控波束形成技术均幅度差函数(average magnitude difference func- 该方法对麦克风接受到的声源信号滤波并加权 tion),用于增强GCC的性能.同样使用近场几何定求和形成波束，按照某种搜索策略全局搜索可能的位方法来定位三维声源. 声源位置来引导波束，波束输出功率最大的位置即 2008年Kwk等利用平面正三角形阵列定位声为声源位置[9o].延迟和波束形成算法(delay-and 源5].语音信号的声门激励信息被用于时延估计，首 sum beamforming,DSB)[2]通过对麦克风接受信号先求出语音信号线性预测残差表示声门激励信号，然采用时间移位以补偿声源到达各麦克风的传播延后线性预测残差的希尔伯特包络(Hilbert envelop)信迟，并通过相加求平均来形成波束.滤波和波束形成号被用于基于CCC-PHAT的声源估计，再通过一种算法(filter-and-sum beamforming,FSB)[2]在时间移可靠的几何定位方法定位出声源轴向角.该系统成本位的同时进行滤波，然后相加求平均形成波束。低廉、实时性好，可用于家庭服务机器人可控波束形成算法的定位性能取决于麦克风阵 2009年Hu等利用基于特征结构(eigen struc- 列方向图的主瓣和旁瓣的分布.主瓣能量越大，宽度 ture)的GCC方法估计多个声源的时延I6].多声源越窄，则形成波束的分辨率越高.通常该算法要求大情况下麦克风接受信号的频域表示为 X=∑So+N 量的麦克风以取得较好的方向图.该算法本质上是一种最大似然估计，需要声源和噪声的先验信息，但通式中：D为声源个数.接收信号互相关矩阵的特征分常这些信息在实际应用中不易获得.最大似然估计是解为一种非线性优化问题，传统搜索算法容易陷入局部最 R.(a)=(∑K(@,kX'(,)/K= 小点，而遍历式的搜索方法的运算量极大2) ∑ia(u)y(a)(u). l999年Matsui等研制出一种办公室接待机器人j0-2,它可在办公室环境下引导客人参规24.该式中：λ为特征值，V为特征向量.与前D个最大特征值对应的向量表示声源向量，利用声源向量的机器人视觉声源定位系统基于波束形成算法，利用平均分布于半圆弧的平面8通道麦克风阵列定位声 GCC方法进行时延估计.文献[17]利用声速的限制求出声源个数D,定位阶段，利用最小均方估计求解源的轴向角. 超定线性方程组定位多个声源，近场情况下求解声 2004年Valin等利用DSB定位多声源位置，预源三维直角系坐标，远场情况下求解声源轴向角.图求出所有对的麦克风信号频域的互相关「5] 3为该系统搭载在移动机器人平台上的8通道麦克 R(r)=∑x()x()e2n 风阵列. 每个波束输出功率可以通过N(N-1)/2个互相关

·12 智能系统学报第7卷累积和求得.谱加权在互相关求解中给信噪比大的 8通道麦克风阵列定位多声源，并利用粒子滤波(pati- 频带赋予更大的权值，有效地抑制了窄带噪声的影 cle filter)方法融合房间麦克风阵列和机器人麦克风阵响.另外为了避免声源的错误检测，一个基于声源存列的定位结果，跟踪多个声源在概率的后处理算法被提出.2009年Badali和麦克风 Valin等利用如图2所示的麦克风阵列测试了可控响应功率(steered response power)和其他算法的性能26]，运用谱加权用于抑制噪声，方向优化算法是在DSB算法定位的结果临近范围内应用高分辨率方法，从而更精确地定位声源.上述2篇文献的麦克风阵列如图2所示，图4显示了2种球形搜索网格. 涤桌子文献[26]的实验结果显示三角网格声源搜索策略相较于矩形网格更有效，三角网格共2562个搜索点，每个搜索区域覆盖2.5° 图6分布式麦克风阵列 Fig.6 Distributed microphone array 2006年Sasaki等利用32通道3同心圆阵列通过机器人的运动定位多声源的二维位置3.首先利用基本DSB算法减弱噪声，然后通过频带选择算法 (frequency band selection)消除剩余噪声并定位出多声源的水平方向，最后根据运动的机器人可以在不同的位置检测同一个声源的方向，通过三角定位方 (a)三角网格 (b)矩形网格法和RANSAC算法(random sample consensus)定位图4球形搜索网格出声源的精确位置.2007年他们通过主瓣消除算法 Fig.4 Spherical search grids (main-lobe canceling)从DSB算法得出的空间谱中 2004年Tamai等利用搭载在Nomad机器人上逐个检测声源的位置21.每次检测出当前具有最大的平面圆形32通道麦克风阵列定位1~4个声源的能量的方向作为当前声源的方向，然后减除该方向水平方向和垂直方向27.由于麦克风数量较多，的主瓣继续检测下一个声源.主瓣消除算法需要阵 DSB算法可以很好地抑制环境噪声和机器人机体噪列方向图具有较小的旁瓣.图7显示了同心圆阵列声.文献[28]提出了一种3个圆形阵列组成的32 和八边形32通道麦克风阵列，八边形阵列在700~ 通道阵列，相较于一个圆形阵列具有更好的波束方 2500Hz的频率范围内旁瓣能量较小.Kagami等利向图分布.以上2种阵列如图5所示，用文献[32]中的声源方向定位和粒子滤波方法，通过机器人的运动定位静止声源的精确位置33].2010 年Sasaki等综合上述的声源定位功能，并进行短时声音信号识别以标定声源34]，通过跟踪多个声源，画出声源图并定位机器人的位置， (a)单个圆形阵列 b)3个圆形阵列图532通道二维麦克风阵列 Fig.5 32-ch 2-D microphone array 2005年Nakadai等利用64通道分布式麦克风阵列在电视等噪声环境中检测真实语音信号]，并定位 (a)时心圆阵列 b)八边形阵列声源的平面二维位置.图6为麦克风阵列，麦克风分布图7同心圆阵列和八边形阵列在1.2m高度的墙壁和高度为0.7m的桌面上.加权 Fig.7 Concentric array and octagonal array DBs用于求解每个可能方向的方向性模式(directivity 2.3高分辨率谱估计技术 pattemn),方向性模式用于检测麦克风接收信号是否为该方法来源于现代高分辨率谱估计技术，如自真实的语音信号，并定位声源.2006年他们在文献[30] 回归模型(autoregressive)s1、多重信号分类(muli- 中基于MUSIC方法利用搭载在ASMO机器人头部的 ple signal classification,MUSIC)[3w]等方法，利用特

第1期李晓飞，等：机器人听觉声源定位研究综述 ·13· 征值分解(eigenvalue decomposition)将麦克风信号置宽带MUSIC的声源个数上限，实验证明这种方法的协方差矩阵分解为信号子空间和噪声子空间，然与已知声源个数情况下的定位性能差不多.图8显后找出与噪声子空间正交的方向矢量来进行声源的示了该机器人平台和14通道的稀疏麦克风阵列. 方向估计. 基于高分辨率谱估计的定位方法是一种超分辨率的估计技术，其空间分辨率不会受到信号采样频率的限制，并且在一定条件下可以达到任意定位精度].然而，该类方法也存在一定的不足，主要表现在：1)易受空间相关噪声的干扰，当方向性噪声的能量与声源信号能量相当时，该算法容易定位到噪声方向；2)房间的反射作用使信号和干扰之间有一定的相关性，从而降低了该方法的有效性；3)需要对整个空间进行搜索来确定声源的位置，且其估计图8稀疏麦克风阵列精度与空间的细分程度有关，计算复杂度偏高. Fig.8 Sparse microphone array 1999年Asano等利用搭载在办公室机器人Jiio- 2.4双耳听觉 2上的平均分布于半圆弧的平面8通道麦克风阵列人可以通过双耳定位3D空间声源方向，双耳定位多个声源的轴向角[3].扩展的MUSIC算法被时间差(interaural time difference,ITD)和双耳强度用于近场定位，近场方向向量为差(interaural intensity difference,D)用于定位声源 a(r,0）-[ewr1,o》ear2,l e-,》]T 轴向角，由耳廓衍射和散射效应带来的声谱特性式中：r和0分别为声源的水平距离和轴向角. (spectral cue)用于定位声源仰角].声音信号从声大多数机器人听觉声源定位系统接收的声源信源位置传播至人耳鼓膜处的传输函数被称为头部相号是宽带信号，原始的MUSIC算法只能定位窄带信关传递函数（head-related transfer functions, 号.2007年Argentieri等给出MUSIC算法的宽带声 HRTFs)【],影响HRTFs的因素有耳廓、头部、耳源扩展「9]，近场MUSIC空间谱为道、肩膀和躯体等.基于双耳的声源定位方法对于仿 h(r,0)=1/w(r,0)ΠV(,) 人机器人是一种自然、有效的方式，利用人工头和人工耳廓可以有效地模仿人的听觉定位能力[5] 式中：V为可能声源位置的方向向量，为噪声子空 Nakadai等基于仿人机器人SIG的双耳听觉定间.令空间谱最大的方向向量对应于声源位置，一种位声源轴向角[64].由立体视觉扩展的听觉Epipo- 朴素的宽带扩展方法为 lar几何可以数学化地估计出特定声源方向的PD: hn,0)=∑A,(r,0)/B △p。=2f(0+sin0)/v,其中f、r、0和v分别为信号式中：b为信号频点数，B为频带宽度.实验证明该频率、头部半径、声源角度和声速，一般∫小于宽带扩展方法性能很好，但计算量太大.波束空间算 1500Hz.可能声源方向和实测信号的PD之差最法利用频率和范围不变的波束形成聚焦频点，生成小的为声源方向.Epipolar几何很难确定出精确的个对所有兴趣频点有效的空间谱。 D,只能通过频率大于1500Hz的频带确定出声源 2009年Nakamura等利用广义特征值分解抑制的大概方向.利用物理学中的散射理论(scattering 空间相关噪声的影响[o],在静音段估计出噪声的空 theory)也可以数学化地估计PD△p,（0,f)和IID 间互相关矩阵，对带噪声源信号的互相关矩阵和噪 △p,(0,),同样分别采用小于和大于1500Hz的频声的互相关矩阵进行广义特征值分解，生成一个完带，相较于Epipolar几何散射理论的PD估计误差全抑制噪声的空间谱.2011年他们联合视觉跟踪算更小，并且可以较精确地估计出D.利用Dempster- 法，利用粒子滤波进行说话人的跟踪[4 Shafe理论联合PD和ID信息，联合概率取最大的 2009年Ishi测试了MUSIC方法在办公室环境可能位置为声源位置。和室外环境下定位轴向角的性能].办公室环境存 2005年Kumon等根据声波在耳廓中反射决定在空调噪声和机器人机体噪声，室外环境存在背景的声谱特性(spectral cue)设计了一个人工耳廓9] 音乐噪声.他们分别测试了信号分帧长度对方向估耳廓形状如图9所示，耳廓必须关于声源仰角非对计性能和实时性的影响，宽带MUSIC频带宽度和声称以保证可以区分不同仰角的声源信号.该耳廓对源个数对方向估计的影响.另外还提出了一种确定于仰角大于90°的声源具有较明显的谱峰(spectral 声源个数的方法，对每个频率采用固定声源数，并设 peak).2006年Shimoda等改进了文献[49]中设计

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录