第7卷第1期 智能系统学报 Vol.7 No.1 2012年2月 CAAI Transactions on Intelligent Systems Feh.2012 D0I:10.3969/i.issn.16734785.201201003 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120219.2224.001.html 机器人听觉声源定位研究综述 李晓飞',刘宏12 (1.北京大学深圳研究生院集成微系统科学工程与应用重点实验室,广东深圳518055;2.北京大学机器感知与智 能教育部重,点实验室,北京100871) 摘要:声源定位技术定位出外界声源相对于机器人的方向和位置,机器人听觉声源定位系统可以极大地提高机器 人与外界交互的能力.总结和分析面向机器人听觉的声源定位技术对智能机器人技术的发展有着重要的意义.首先 总结了面向机器人听觉的声源定位系统的特点,综述了机器人听觉声源定位的关键技术,包括到达时间差、可控波 束形成、高分辨率谐估计、双耳听觉、主动听觉和视听融合技术.其次对麦克风阵列模型进行了分类,比较了基于三 维麦克风阵列、二维麦克风阵列和双耳的7个典型系统的性能.最后总结了机器人听觉声源定位系统的应用,并分 析了存在的问题和未来的发展趋势. 关键词:机器人;机器人听觉;声源定位;麦克风阵列 中图分类号:TP242.6;TN912.3文献标志码:A文章编号:16734785(2012)010009-12 A survey of sound source localization for robot audition LI Xiaofei,LIU Hong2 (1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key La- boratory of Machine Perception (Ministry of Education),Peking University,Beijing 100871,China) Abstract:The technology of sound source localization can localize the direction and position of a sound source rela- tive to a robot.Sound source localization system for robot audition can greatly improve the ability of a robot to inter- act with external conditions.The summary and analysis of sound source localization for robot audition can signifi- cantly promote the development of intelligent robots.In this work,first,the characteristics of sound source localiza- tion for robot audition were summarized.The key technologies were summarized,including the time delay of arri- val,steered beamforming,high resolution spectral estimation,binaural,active audition,and audio-visual.Then, the models of a microphone array were classified,and the performances of seven typical systems based on a 3-D mi- crophone array,2-D microphone array,and binaural were compared.Finally,the applications of a sound source localization system of robot audition were summarized.Several issues that sound source localization systems face as well as development trends were analyzed. Keywords:robot;robot audition;sound source localization;microphone array 机器人听觉系统是一种自然、方便、有效、智能障碍物的情况下依然可以有效地工作.一般来讲机 的机器人与外界系统交互的方式.由于声音信号的 器人听觉包括声源信号的定位与分离、自动语音识 衍射性能,听觉具有全向性,相较于视觉、激光等其 别、说话人识别等.机器人听觉声源定位是指机器人 他的传感信号听觉不需要直线视野,在有视野遮蔽 利用搭载在机器人上或者外部设备上的麦克风阵列 定位出声源的相对位置.随着信息技术、电子科学技 术、计算机科学技术和智能科学的迅速发展,自20 收稿日期:201201-10.网络出版时间:201202-19. 基金项目:国家“863”计划资助项目(2006AA04Z247);国家自然科学 世纪90年代中期始,人们对机器人听觉声源定位技 基金资助项目(60675025,60875050):深圳市科技计划及 基础研究计划资助项目(JC20090316039). 术进行了深入而广泛的研究,并取得了重要的进展。 通信作者:刘宏.E-mail:hongliu(@pkm.ed.cm 声源的位置信息包括轴向角、仰角和距离,其中
·10 智能系统学报 第7卷 轴向角可以确定声源的二维方向,轴向角和仰角可 cross correlation,GCC)2]、互功率谱相位法(cross- 以确定声源的三维方向,轴向角、仰角和距离可以确 power spectrum phase,CSP)IB1、特征值分解4、声学 定声源的三维位置.在噪声环境下,利用少量的麦克 传递函数比5]等.获取TD0A以后,乘以声速便可 风实时地定位声源的三维位置是一个实用的机器人 以得到距离差,这样就可以通过声源与麦克风的几 听觉声源定位系统的目标.虽然机器人听觉声源定 何关系得到声源位置.主要的几何定位方法包括最 位技术的研究取得了很多成果,但是该技术的实际 大似然估计(maximum likelihood estimator)[6]和最小 应用还面临很多问题, 均方估计(least square estimator)7s].TDOA方法计 算量小,可实时实现,但双步估计带来累积误差,是 1机器人听觉系统声源定位的特点 一种次最优估计,为了取得较高的分辨率,对信号采 相较于一般的声源定位系统,机器人听觉声源 样率要求较高,适用于单声源定位 定位具有以下特点: 1997年Huang等利用3个麦克风组成平面三 1)麦克风阵列易搭载:搭载在机器人平台上的 角阵列定位声源的全向轴向角.根据声音的优先 麦克风阵列应该尽量小,麦克风阵列的小型化可以 效应,通过无回响起点检测算法(echo-free onset de- 通过减少麦克风的数量和优化阵列拓扑来实现 tection)检测出无回响的声音段,利用过零点(zero- 2)机器人运动:搭载在机器人平台上的麦克风 crossing point)检测时延,然后根据几何关系定位声 阵列的运动改变了听觉场景,给声源定位带来了困 源轴向角.2002年他们利用如图1所示的三维麦克 难.但另一方面可以通过麦克风阵列的主动运动,丰 风阵列进行声源轴向角和仰角的定位,互相关函 富麦克风阵列的拓扑,提高定位能力 数和互功率谱相位差分别被用于时延估计.识别阶 3)声源移动:在大多数机器人听觉声源定位系 段,6个时间差组成时间差序列:△tm=(△t2,△t3, 统应用中,声源是移动的,需要进行移动声源的定位 △t14,△t如,△24,△4),时间差序列误差为e(0,p)= 与跟踪, ‖(0,p)-m‖,其中△(0,p)为理论时间差, 4)实时性高:机器人的运动和声源的移动造成 轴向角0和仰角p取使e(0,P)最小化的值. 机器人和声源相对位置的即时变化,要求定位具有 2007年文献[11]对于多个声源,利用6个互相关函 较高的实时性.机器人与外界交互的实时性是机器 数的几何平均: 人友好性和安全性的保障,是评价交互性能的重要 P(0,p)={ΠCg(△tg(0,p)}s 指标,因此声源定位系统的实时性是极其必要的. 表示一个声源位置存在声源的概率,概率越大则存 5)抗混响和噪声:机器人工作在真实环境中,信 在声源的可能性越大 号混响和噪声是难以避免的,因此声源定位系统的抗 混响和抗噪声能力在很大程度上影响定位性能, 2机器人听觉系统声源定位方法 4通道 1995年Iie第1次将声源定位技术用于智能机 友克风 器人),利用短时时域、频域特征和神经网络技术 区分摄像头视角内的左中右3个声源方向,其后,基 于麦克风阵列的到达时间差技术(time delay of arri- 图14通道阵列 val,TDOA)、基于最大输出功率的可控波束形成技 Fig.1 4-ch array 术(steered beamforming,BS)、高分辨率谱估计技术 2002年Sekmen等提出一种自然的人机交互方 (high resolution spectral estimation)、双耳听觉(bin- 式,把人作为一个被动的用户,不用通过键盘、鼠标 aural)、机器学习(machine learning)、主动听觉技术 等人工的方式与机器人进行交互2].机器人只是人 (active audition)、视听融合(audio-visual)等方法被 的运动的一个直接物理再现,利用声源定位和红外 用于机器人听觉声源定位, 运动跟踪,为人脸跟踪系统提供候选区域和机器人 2.1到达时间差技术 的注意力.2个麦克风摆放在一个开放的空间,头部 基于TDOA的定位技术是一种2步定位方法, 传输函数不用考虑.假设声源位于仿人机器人的前 首先估计出声源信号到达各个麦克风之间的时间延 方,利用互相关法估计时延,通过远场近似几何方法 迟,然后利用几何定位方法求出声源位置。 便可定位远场声源, 稳健的时间延迟估计是精确声源定位的基础 2003年Valind等放置8个麦克风在长方体支 常用的时延估计算法包括广义互相关(generalized 架的顶点「1,如图2所示.该麦克风阵列搭载在P
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·11 oneer2机器人上,用来进行声源轴向角和仰角定 位.利用谱加权CCC-PHAT方法提取时间差,给信 噪比大的频带赋予更大的权值可以有效地抑制窄带 噪声的影响.然后利用远场几何定位方法定位声源 的轴向角和仰角。 数麦克风 阵列实验平台 图38通道麦克风阵列 Fig.3 8-ch microphone array 2010年Lee等利用远场情况下声源角度和到 达时延的几何关系建立了angle-TD0A图1s].融合 图28通道立方体阵列 该图和互相关函数得到Cross-Angle-Correlation函数 Fig.2 8-ch cube array R(0),该函数在声源方向取较大的值.对于多个声 2007年Rudzyn利用与图1相似的麦克风阵列 源,竞争K-means算法被用于基于Cross-Angle-Cor- 定位声源三维位置[41,包括距离、轴向角和仰角.利 relation函数的声源角度聚类,该系统利用正三角形 用加权互相关函数(weighted cross correlation, 麦克风阵列定位声源轴向角, WCC)估计时延:fxe=f/(fmi+8),其中fmi为平 2.2基于最大输出功率的可控波束形成技术 均幅度差函数(average magnitude difference func- 该方法对麦克风接受到的声源信号滤波并加权 tion),用于增强GCC的性能.同样使用近场几何定 求和形成波束,按照某种搜索策略全局搜索可能的 位方法来定位三维声源. 声源位置来引导波束,波束输出功率最大的位置即 2008年Kwk等利用平面正三角形阵列定位声 为声源位置[9o].延迟和波束形成算法(delay-and 源5].语音信号的声门激励信息被用于时延估计,首 sum beamforming,DSB)[2]通过对麦克风接受信号 先求出语音信号线性预测残差表示声门激励信号,然 采用时间移位以补偿声源到达各麦克风的传播延 后线性预测残差的希尔伯特包络(Hilbert envelop)信 迟,并通过相加求平均来形成波束.滤波和波束形成 号被用于基于CCC-PHAT的声源估计,再通过一种 算法(filter-and-sum beamforming,FSB)[2]在时间移 可靠的几何定位方法定位出声源轴向角.该系统成本 位的同时进行滤波,然后相加求平均形成波束。 低廉、实时性好,可用于家庭服务机器人 可控波束形成算法的定位性能取决于麦克风阵 2009年Hu等利用基于特征结构(eigen struc- 列方向图的主瓣和旁瓣的分布.主瓣能量越大,宽度 ture)的GCC方法估计多个声源的时延I6].多声源 越窄,则形成波束的分辨率越高.通常该算法要求大 情况下麦克风接受信号的频域表示为 X=∑So+N 量的麦克风以取得较好的方向图.该算法本质上是一 种最大似然估计,需要声源和噪声的先验信息,但通 式中:D为声源个数.接收信号互相关矩阵的特征分 常这些信息在实际应用中不易获得.最大似然估计是 解为 一种非线性优化问题,传统搜索算法容易陷入局部最 R.(a)=(∑K(@,kX'(,)/K= 小点,而遍历式的搜索方法的运算量极大2) ∑ia(u)y(a)(u). l999年Matsui等研制出一种办公室接待机器 人j0-2,它可在办公室环境下引导客人参规24.该 式中:λ为特征值,V为特征向量.与前D个最大特 征值对应的向量表示声源向量,利用声源向量的 机器人视觉声源定位系统基于波束形成算法,利用 平均分布于半圆弧的平面8通道麦克风阵列定位声 GCC方法进行时延估计.文献[17]利用声速的限制 求出声源个数D,定位阶段,利用最小均方估计求解 源的轴向角. 超定线性方程组定位多个声源,近场情况下求解声 2004年Valin等利用DSB定位多声源位置,预 源三维直角系坐标,远场情况下求解声源轴向角.图 求出所有对的麦克风信号频域的互相关「5] 3为该系统搭载在移动机器人平台上的8通道麦克 R(r)=∑x()x()e2n 风阵列. 每个波束输出功率可以通过N(N-1)/2个互相关
·12 智能系统学报 第7卷 累积和求得.谱加权在互相关求解中给信噪比大的 8通道麦克风阵列定位多声源,并利用粒子滤波(pati- 频带赋予更大的权值,有效地抑制了窄带噪声的影 cle filter)方法融合房间麦克风阵列和机器人麦克风阵 响.另外为了避免声源的错误检测,一个基于声源存 列的定位结果,跟踪多个声源 在概率的后处理算法被提出.2009年Badali和 麦克风 Valin等利用如图2所示的麦克风阵列测试了可控 响应功率(steered response power)和其他算法的性 能26],运用谱加权用于抑制噪声,方向优化算法是 在DSB算法定位的结果临近范围内应用高分辨率 方法,从而更精确地定位声源.上述2篇文献的麦克 风阵列如图2所示,图4显示了2种球形搜索网格. 涤 桌子 文献[26]的实验结果显示三角网格声源搜索策略 相较于矩形网格更有效,三角网格共2562个搜索 点,每个搜索区域覆盖2.5° 图6分布式麦克风阵列 Fig.6 Distributed microphone array 2006年Sasaki等利用32通道3同心圆阵列通 过机器人的运动定位多声源的二维位置3.首先利 用基本DSB算法减弱噪声,然后通过频带选择算法 (frequency band selection)消除剩余噪声并定位出多 声源的水平方向,最后根据运动的机器人可以在不 同的位置检测同一个声源的方向,通过三角定位方 (a)三角网格 (b)矩形网格 法和RANSAC算法(random sample consensus)定位 图4球形搜索网格 出声源的精确位置.2007年他们通过主瓣消除算法 Fig.4 Spherical search grids (main-lobe canceling)从DSB算法得出的空间谱中 2004年Tamai等利用搭载在Nomad机器人上 逐个检测声源的位置21.每次检测出当前具有最大 的平面圆形32通道麦克风阵列定位1~4个声源的 能量的方向作为当前声源的方向,然后减除该方向 水平方向和垂直方向27.由于麦克风数量较多, 的主瓣继续检测下一个声源.主瓣消除算法需要阵 DSB算法可以很好地抑制环境噪声和机器人机体噪 列方向图具有较小的旁瓣.图7显示了同心圆阵列 声.文献[28]提出了一种3个圆形阵列组成的32 和八边形32通道麦克风阵列,八边形阵列在700~ 通道阵列,相较于一个圆形阵列具有更好的波束方 2500Hz的频率范围内旁瓣能量较小.Kagami等利 向图分布.以上2种阵列如图5所示, 用文献[32]中的声源方向定位和粒子滤波方法,通 过机器人的运动定位静止声源的精确位置33].2010 年Sasaki等综合上述的声源定位功能,并进行短时 声音信号识别以标定声源34],通过跟踪多个声源, 画出声源图并定位机器人的位置, (a)单个圆形阵列 b)3个圆形阵列 图532通道二维麦克风阵列 Fig.5 32-ch 2-D microphone array 2005年Nakadai等利用64通道分布式麦克风阵 列在电视等噪声环境中检测真实语音信号],并定位 (a)时心圆阵列 b)八边形阵列 声源的平面二维位置.图6为麦克风阵列,麦克风分布 图7同心圆阵列和八边形阵列 在1.2m高度的墙壁和高度为0.7m的桌面上.加权 Fig.7 Concentric array and octagonal array DBs用于求解每个可能方向的方向性模式(directivity 2.3高分辨率谱估计技术 pattemn),方向性模式用于检测麦克风接收信号是否为 该方法来源于现代高分辨率谱估计技术,如自 真实的语音信号,并定位声源.2006年他们在文献[30] 回归模型(autoregressive)s1、多重信号分类(muli- 中基于MUSIC方法利用搭载在ASMO机器人头部的 ple signal classification,MUSIC)[3w]等方法,利用特
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·13· 征值分解(eigenvalue decomposition)将麦克风信号 置宽带MUSIC的声源个数上限,实验证明这种方法 的协方差矩阵分解为信号子空间和噪声子空间,然 与已知声源个数情况下的定位性能差不多.图8显 后找出与噪声子空间正交的方向矢量来进行声源的 示了该机器人平台和14通道的稀疏麦克风阵列. 方向估计. 基于高分辨率谱估计的定位方法是一种超分辨 率的估计技术,其空间分辨率不会受到信号采样频 率的限制,并且在一定条件下可以达到任意定位精 度].然而,该类方法也存在一定的不足,主要表现 在:1)易受空间相关噪声的干扰,当方向性噪声的 能量与声源信号能量相当时,该算法容易定位到噪 声方向;2)房间的反射作用使信号和干扰之间有一 定的相关性,从而降低了该方法的有效性;3)需要 对整个空间进行搜索来确定声源的位置,且其估计 图8稀疏麦克风阵列 精度与空间的细分程度有关,计算复杂度偏高. Fig.8 Sparse microphone array 1999年Asano等利用搭载在办公室机器人Jiio- 2.4双耳听觉 2上的平均分布于半圆弧的平面8通道麦克风阵列 人可以通过双耳定位3D空间声源方向,双耳 定位多个声源的轴向角[3].扩展的MUSIC算法被 时间差(interaural time difference,ITD)和双耳强度 用于近场定位,近场方向向量为 差(interaural intensity difference,D)用于定位声源 a(r,0)-[ewr1,o》ear2,l e-,》]T 轴向角,由耳廓衍射和散射效应带来的声谱特性 式中:r和0分别为声源的水平距离和轴向角. (spectral cue)用于定位声源仰角].声音信号从声 大多数机器人听觉声源定位系统接收的声源信 源位置传播至人耳鼓膜处的传输函数被称为头部相 号是宽带信号,原始的MUSIC算法只能定位窄带信 关传递函数(head-related transfer functions, 号.2007年Argentieri等给出MUSIC算法的宽带声 HRTFs)【],影响HRTFs的因素有耳廓、头部、耳 源扩展「9],近场MUSIC空间谱为 道、肩膀和躯体等.基于双耳的声源定位方法对于仿 h(r,0)=1/w(r,0)ΠV(,) 人机器人是一种自然、有效的方式,利用人工头和人 工耳廓可以有效地模仿人的听觉定位能力[5] 式中:V为可能声源位置的方向向量,为噪声子空 Nakadai等基于仿人机器人SIG的双耳听觉定 间.令空间谱最大的方向向量对应于声源位置,一种 位声源轴向角[64].由立体视觉扩展的听觉Epipo- 朴素的宽带扩展方法为 lar几何可以数学化地估计出特定声源方向的PD: hn,0)=∑A,(r,0)/B △p。=2f(0+sin0)/v,其中f、r、0和v分别为信号 式中:b为信号频点数,B为频带宽度.实验证明该 频率、头部半径、声源角度和声速,一般∫小于 宽带扩展方法性能很好,但计算量太大.波束空间算 1500Hz.可能声源方向和实测信号的PD之差最 法利用频率和范围不变的波束形成聚焦频点,生成 小的为声源方向.Epipolar几何很难确定出精确的 个对所有兴趣频点有效的空间谱。 D,只能通过频率大于1500Hz的频带确定出声源 2009年Nakamura等利用广义特征值分解抑制 的大概方向.利用物理学中的散射理论(scattering 空间相关噪声的影响[o],在静音段估计出噪声的空 theory)也可以数学化地估计PD△p,(0,f)和IID 间互相关矩阵,对带噪声源信号的互相关矩阵和噪 △p,(0,),同样分别采用小于和大于1500Hz的频 声的互相关矩阵进行广义特征值分解,生成一个完 带,相较于Epipolar几何散射理论的PD估计误差 全抑制噪声的空间谱.2011年他们联合视觉跟踪算 更小,并且可以较精确地估计出D.利用Dempster- 法,利用粒子滤波进行说话人的跟踪[4 Shafe理论联合PD和ID信息,联合概率取最大的 2009年Ishi测试了MUSIC方法在办公室环境 可能位置为声源位置。 和室外环境下定位轴向角的性能].办公室环境存 2005年Kumon等根据声波在耳廓中反射决定 在空调噪声和机器人机体噪声,室外环境存在背景 的声谱特性(spectral cue)设计了一个人工耳廓9] 音乐噪声.他们分别测试了信号分帧长度对方向估 耳廓形状如图9所示,耳廓必须关于声源仰角非对 计性能和实时性的影响,宽带MUSIC频带宽度和声 称以保证可以区分不同仰角的声源信号.该耳廓对 源个数对方向估计的影响.另外还提出了一种确定 于仰角大于90°的声源具有较明显的谱峰(spectral 声源个数的方法,对每个频率采用固定声源数,并设 peak).2006年Shimoda等改进了文献[49]中设计