工程科学学报 Chinese Journal of Engineering 基于卷积神经网络的反无人机系统声音识别方法 薛珊李广青吕琼莹毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei 引用本文: 薛珊,李广青,吕琼莹,毛逸维.基于卷积神经网络的反无人机系统声音识别方法.工程科学学报,2020,42(11):1516- 1524.doi:10.13374j.issn2095-9389.2020.06.30.008 XUE Shan,LI Guang-qing,L Qiong-ying.MAO Yi-wei.Sound recognition method of an anti-UAV system based on a convolutional neural network[J].Chinese Journal of Engineering,2020,42(11):1516-1524.doi:10.13374/j.issn2095-9389.2020.06.30.008 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报.2017,3910:1584htps:1doi.org/10.13374.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报.2019.41(12:1599htps:doi.org10.13374.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报.2019,41(8:1085htps:1doi.org/10.13374j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报.2020,42(10:1372htps:oi.org10.13374.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报.2020,42(4:463 https:/doi.org10.13374.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报.2020.42(9):1085 https:/doi.org/10.13374.issn2095-9389.2019.12.18.003
基于卷积神经网络的反无人机系统声音识别方法 薛珊 李广青 吕琼莹 毛逸维 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei 引用本文: 薛珊, 李广青, 吕琼莹, 毛逸维. 基于卷积神经网络的反无人机系统声音识别方法[J]. 工程科学学报, 2020, 42(11): 1516- 1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 XUE Shan, LI Guang-qing, L Qiong-ying, MAO Yi-wei. Sound recognition method of an anti-UAV system based on a convolutional neural network[J]. Chinese Journal of Engineering, 2020, 42(11): 1516-1524. doi: 10.13374/j.issn2095-9389.2020.06.30.008 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 您可能感兴趣的其他文章 Articles you may be interested in 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报. 2017, 39(10): 1584 https://doi.org/10.13374/j.issn2095-9389.2017.10.018 仿鸿雁编队的无人机集群飞行验证 Verification of unmanned aerial vehicle swarm behavioral mechanism underlying the formation of Anser cygnoides 工程科学学报. 2019, 41(12): 1599 https://doi.org/10.13374/j.issn2095-9389.2018.12.18.001 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报. 2019, 41(8): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.08.014 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报. 2020, 42(10): 1372 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005 基于YOLOv3的无人机识别与定位追踪 Drone identification and location tracking based on YOLOv3 工程科学学报. 2020, 42(4): 463 https://doi.org/10.13374/j.issn2095-9389.2019.09.10.002 无人机遥感在矿业领域应用现状及发展态势 Current status and development trend of UAV remote sensing applications in the mining industry 工程科学学报. 2020, 42(9): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.12.18.003
工程科学学报.第42卷.第11期:1516-1524.2020年11月 Chinese Journal of Engineering,Vol.42,No.11:1516-1524,November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008;http://cje.ustb.edu.cn 基于卷积神经网络的反无人机系统声音识别方法 薛 珊,2)四,李广青),吕琼莹),毛逸维 1)长春理工大学机电工程学院,长春1300222)长春理工大学重庆研究院,重庆400000 ☒通信作者,E-mail:1660348815@qq.com 摘要针对如何识别无人机的问题,提出了一种基于卷积神经网络的声音识别无人机的方法.首先,对100范围内的无 人机、鸟和人的声音进行采集、预处理和提取MFCC+GFCC特征值,将其特征参数作为卷积神经网络学习和识别的数据集: 然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验.实验结果表明,运用支持向量机识别 无人机的准确率为91.9%,卷积神经网络识别无人机的准确率为96.5%.为了进一步验证设计的卷积神经网络的识别能力,在 部分UrbanSound8K数据集上进行测试,准确率达到90%.实验结果表明运用卷积神经网络识别无人机具有可行性,且识别 性能优于支持向量机. 关键词无人机:声音检测:公共安全:MFCC特征值:GFCC特征值:卷积神经网络 分类号TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan LI Guang-qing,LU Qiong-ying,MAO Yi-wei 1)School of Mechanical and Electrical Engineering,Changchun University of Science and Technology,Changchun 130022,China 2)Chongqing Research Institute,Changchun University of Science and Technology,Chongqing 400000,China Corresponding author,E-mail:1660348815@qq.com ABSTRACT With the rapid growth of the UAV market,UAVs have been widely used in aerial photography,agricultural plant protection,power inspection,forest fire prevention,high-altitude fire fighting,emergency communication,and UAV logistics.However, "black flight"incidents of unlicensed flights and random flights frequently occur,which results in severe security risks to civil aviation airports,sensitive targets,and major activities.Moreover,owing to their characteristics of maneuverability,intelligent control,and low cost,UAVs can be easily used for criminal activities,which threatens public and national security.How to effectively detect UAVs and implement effective measures for UAVs,especially "black-flying"UAVs,is an active and difficult problem that needs to be urgently solved,and it is also an important research area in the field of anti-UAV systems.The research and development of anti-UAV systems is an important focus in national public security,and UAV identification is one of the key technologies in anti-UAV systems.Aiming at the problem of how to recognize UAVs,a sound-recognition method based on a convolutional neural network(CNN)was proposed.The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size,shelter,ambient light,and ground clutter, and sound is an inherent attribute of UAVs,which is also applicable to UAVs in a radio-silence state.In this study,UAV sounds,bird sounds,and human voice within 100 m were collected and preprocessed;then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted.Support vector machine(SVM)and CNN models were designed to recognize UAV sounds and other sounds.The experimental results show that the SVM and CNN accuracies are 93.3%and 96.7%,respectively.To 收稿日期:2020-06-30 基金项目:吉林省重点科技研发资助项目(20180201058SF)
基于卷积神经网络的反无人机系统声音识别方法 薛 珊1,2) 苣,李广青1),吕琼莹1),毛逸维1) 1) 长春理工大学机电工程学院,长春 130022 2) 长春理工大学重庆研究院,重庆 400000 苣通信作者,E-mail: 1660348815@qq.com 摘 要 针对如何识别无人机的问题,提出了一种基于卷积神经网络的声音识别无人机的方法. 首先,对 100 m 范围内的无 人机、鸟和人的声音进行采集、预处理和提取 MFCC+GFCC 特征值,将其特征参数作为卷积神经网络学习和识别的数据集; 然后分别设计了支持向量机和卷积神经网络两种模型对无人机等声音进行识别实验. 实验结果表明,运用支持向量机识别 无人机的准确率为 91.9%,卷积神经网络识别无人机的准确率为 96.5%. 为了进一步验证设计的卷积神经网络的识别能力,在 部分 UrbanSound8K 数据集上进行测试,准确率达到 90%. 实验结果表明运用卷积神经网络识别无人机具有可行性,且识别 性能优于支持向量机. 关键词 无人机;声音检测;公共安全;MFCC 特征值;GFCC 特征值;卷积神经网络 分类号 TP391 Sound recognition method of an anti-UAV system based on a convolutional neural network XUE Shan1,2) 苣 ,LI Guang-qing1) ,LÜ Qiong-ying1) ,MAO Yi-wei1) 1) School of Mechanical and Electrical Engineering, Changchun University of Science and Technology, Changchun 130022, China 2) Chongqing Research Institute, Changchun University of Science and Technology, Chongqing 400000, China 苣 Corresponding author, E-mail: 1660348815@qq.com ABSTRACT With the rapid growth of the UAV market, UAVs have been widely used in aerial photography, agricultural plant protection, power inspection, forest fire prevention, high-altitude fire fighting, emergency communication, and UAV logistics. However, “black flight” incidents of unlicensed flights and random flights frequently occur, which results in severe security risks to civil aviation airports, sensitive targets, and major activities. Moreover, owing to their characteristics of maneuverability, intelligent control, and low cost, UAVs can be easily used for criminal activities, which threatens public and national security. How to effectively detect UAVs and implement effective measures for UAVs, especially “black-flying” UAVs, is an active and difficult problem that needs to be urgently solved, and it is also an important research area in the field of anti-UAV systems. The research and development of anti-UAV systems is an important focus in national public security, and UAV identification is one of the key technologies in anti-UAV systems. Aiming at the problem of how to recognize UAVs, a sound-recognition method based on a convolutional neural network (CNN) was proposed. The UAV anti-jamming technology based on acoustic signals is not easily affected by an UAV size, shelter, ambient light, and ground clutter, and sound is an inherent attribute of UAVs, which is also applicable to UAVs in a radio-silence state. In this study, UAV sounds, bird sounds, and human voice within 100 m were collected and preprocessed; then the mel frequency cepstral coefficient and gammatone frequency cepstral coefficient eigenvalues were extracted. Support vector machine (SVM) and CNN models were designed to recognize UAV sounds and other sounds. The experimental results show that the SVM and CNN accuracies are 93.3% and 96.7%, respectively. To 收稿日期: 2020−06−30 基金项目: 吉林省重点科技研发资助项目(20180201058SF) 工程科学学报,第 42 卷,第 11 期:1516−1524,2020 年 11 月 Chinese Journal of Engineering, Vol. 42, No. 11: 1516−1524, November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008; http://cje.ustb.edu.cn
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 1517 further verify the recognition ability of the designed CNN,it was tested on some Urbansound8K datasets,and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition,and it has a better recognition performance than a SVM. KEY WORDS UAV:voice detection:public security;MFCC eigenvalue;GFCC eigenvalue;convolution neural network 近年来,无人机市场需求量不断攀升,但是由 式中,表示信号抽样频率,五表示无人机声音的 于人们缺乏公共安全意识且无人机易被不法分子 最高频率.无人机主要声音频段小于16kHz,本文 利用,“黑飞”无人机给国家公共安全造成了严重 选取抽样频率为32kHz. 危害.2015年4月22日,日本首相人身安全受到 1.2无人机声音样本的预加重 无人机威胁:2015年5月14日,无人机人侵白宫 由于噪声的干扰,无人机的声音信息在空气 事件:2017年4月,成都双流机场多次受到来历不 中传播时会受到不同程度的衰减,并且高频部分 明的小型无人机的干扰,客机起飞、降落受到不同 受到衰减的程度会大于低频部分.所以为了弥补 程度的影响,甚至航班取消.无人机带来的安全 高频声音信息的损失,防止声音信息部分的丢失, 问题多种多样,给社会安全问题造成了极大的隐 要对其进行预加重.公式如式(2): 患.如何识别和治理无人机迫在眉睫,而如何检测 z(n)=d(n)-a×d(n-1) (2) 无人机更是重中之重,是当前必须要解决的难点 本文选取预加重系数0.97,dn)表示第n个 问题 采样点的幅值,无人机声音样本预加重后图像如 到目前为止检测无人机的方法有多种,陈唯 图1所示,绿色曲线表示声音时域原始图像,黄色 实等四使用低空监视雷达检测无人机是否存在; 曲线表示预加重后的声音图像 但是雷达检测无人机设备价格昂贵,存在强人体 Green:original sound image 辐射,并且存在检测盲区.Bis0等提出了一种基 Yellow:pre emphasis sound image 于WIFI统计指纹的无人机检测方法,该方法能够 0.02 识别附近的无人机威胁:但是无人机信号为跳频 0.01 输出,WIFI检测技术难度较高,工艺繁琐,并且 0 -0.01 无人机“静默”时无法进行检测.基于此,本文提出 -0.02 了声音检测4-1无人机的方法.声音作为无人机的 0 02 0.40.60.8 1.0 固有属性,区别于周围的其它声音,而且声音检测 Time/s 不受光线、电子的干扰,具有可以穿透遮挡物,价 图1无人机声音样本预加重图 格低,使用方便等优点.首先对无人机声音进行预 Fig.1 Pre-weighting diagram of an UAV sound sample 处理,然后提取梅尔频率倒谱系数(MFCC)和 13无人机声音样本的分帧 Gammatone频率倒谱系数(GFCC)特征,最后使用 由于无人机声音样本很长无法直接提取特 多层卷积神经网络(CNN)对无人机进行声音识别. 征,所以为了方便进行分析和提取特征,并进入到 卷积神经网络首先应用于图像识别领域,在 卷积神经网络,所以要对声音样本进行分帧,使其 该领域得到了广泛应用6刀,在2012年之后,开始 变为一个个的小片段.每个小片段之间会有重叠 应用于声音识别领域中.2013年,Sainath等s使用 部分,约占整个片段的1/5~1/2.本次实验选择分 卷积神经网络在Broadca st News和Switchboard task 帧长度25ms,帧移10ms. 任务上进行实验.本文将卷积神经网络运用在无 1.4无人机声音样本的加窗 人机的声音检测中,用来识别“黑飞”无人机 为了防止声音样本进行分帧后两端的不连续 1无人机声音样本的采集与预处理 性,所以要进行加窗.本文选用的是汉明窗,公式 如式(3): 1.1无人机声音样本的采集 0.54-0.46cos 2元 ,0≤n<L-1 根据奈奎斯特抽样定理,要想抽样后能够不 w(n)= L-1 (3) 失真地还原出原始信号,则采样频率必须大于等 0,other 于两倍信号谱的最高频率,如式(1): 式中:=0,1,,L-1;L为采样窗口长度;w(n)是窗 f5≥26 (1) 函数
further verify the recognition ability of the designed CNN, it was tested on some Urbansound8K datasets, and its accuracy reached 90%. The experimental results show that a CNN is feasible for UAV recognition, and it has a better recognition performance than a SVM. KEY WORDS UAV;voice detection;public security;MFCC eigenvalue;GFCC eigenvalue;convolution neural network 近年来,无人机市场需求量不断攀升,但是由 于人们缺乏公共安全意识且无人机易被不法分子 利用,“黑飞”无人机给国家公共安全造成了严重 危害. 2015 年 4 月 22 日,日本首相人身安全受到 无人机威胁;2015 年 5 月 14 日,无人机入侵白宫 事件;2017 年 4 月,成都双流机场多次受到来历不 明的小型无人机的干扰,客机起飞、降落受到不同 程度的影响,甚至航班取消. 无人机带来的安全 问题多种多样,给社会安全问题造成了极大的隐 患. 如何识别和治理无人机迫在眉睫,而如何检测 无人机更是重中之重,是当前必须要解决的难点 问题. 到目前为止检测无人机的方法有多种,陈唯 实等[1] 使用低空监视雷达检测无人机是否存在; 但是雷达检测无人机设备价格昂贵,存在强人体 辐射,并且存在检测盲区. Bisio 等[2] 提出了一种基 于 WIFI 统计指纹的无人机检测方法,该方法能够 识别附近的无人机威胁;但是无人机信号为跳频 输出[3] ,WIFI 检测技术难度较高,工艺繁琐,并且 无人机“静默”时无法进行检测. 基于此,本文提出 了声音检测[4−5] 无人机的方法. 声音作为无人机的 固有属性,区别于周围的其它声音,而且声音检测 不受光线、电子的干扰,具有可以穿透遮挡物,价 格低,使用方便等优点. 首先对无人机声音进行预 处理 ,然后提取梅尔频率倒谱系数 ( MFCC) 和 Gammatone 频率倒谱系数(GFCC)特征,最后使用 多层卷积神经网络(CNN)对无人机进行声音识别. 卷积神经网络首先应用于图像识别领域,在 该领域得到了广泛应用[6−7] ,在 2012 年之后,开始 应用于声音识别领域中. 2013 年,Sainath 等[8] 使用 卷积神经网络在 Broadca st News 和 Switchboard task 任务上进行实验. 本文将卷积神经网络运用在无 人机的声音检测中,用来识别“黑飞”无人机. 1 无人机声音样本的采集与预处理 1.1 无人机声音样本的采集 根据奈奎斯特抽样定理,要想抽样后能够不 失真地还原出原始信号,则采样频率必须大于等 于两倍信号谱的最高频率,如式(1): fs ⩾ 2 fh (1) 式中,f s 表示信号抽样频率,fh 表示无人机声音的 最高频率. 无人机主要声音频段小于 16 kHz,本文 选取抽样频率为 32 kHz. 1.2 无人机声音样本的预加重 由于噪声的干扰,无人机的声音信息在空气 中传播时会受到不同程度的衰减,并且高频部分 受到衰减的程度会大于低频部分. 所以为了弥补 高频声音信息的损失,防止声音信息部分的丢失, 要对其进行预加重. 公式如式(2): z(n) = d (n)−a×d(n−1) (2) 本文选取预加重系数 a=0.97,d(n) 表示第 n 个 采样点的幅值,无人机声音样本预加重后图像如 图 1 所示,绿色曲线表示声音时域原始图像,黄色 曲线表示预加重后的声音图像. 1.3 无人机声音样本的分帧 由于无人机声音样本很长无法直接提取特 征,所以为了方便进行分析和提取特征,并进入到 卷积神经网络,所以要对声音样本进行分帧,使其 变为一个个的小片段. 每个小片段之间会有重叠 部分,约占整个片段的 1/5~1/2. 本次实验选择分 帧长度 25 ms,帧移 10 ms. 1.4 无人机声音样本的加窗 为了防止声音样本进行分帧后两端的不连续 性,所以要进行加窗. 本文选用的是汉明窗,公式 如式(3): w(n) = 0.54−0.46 cos( 2πn L−1 ) ,0 ⩽ n < L−1 0,other (3) 式中:n=0,1, ···,L−1;L 为采样窗口长度;w(n) 是窗 函数. Green: original sound image Yellow: pre emphasis sound image 0.02 0.01 0.2 0.4 Time/s 0 0.6 0.8 1.0 0 Amplitude −0.01 −0.02 图 1 无人机声音样本预加重图 Fig.1 Pre-weighting diagram of an UAV sound sample 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1517 ·
·1518 工程科学学报,第42卷,第11期 在预加重图像的基础上进行加汉明窗操作, 5000 结果如图2所示,绿色曲线表示声音经过预加重 4500 4000 后的图像,黄色曲线是在预加重图像基础上经过 3500 加窗的图像 至3000 Green:pre emphasis sound image Yellow:add hamming window sound image 是2350 是2000 0.006 1500 0.004 0.002 1000 0 -02 500 -0.004 0 -0006 0 50010001500200025003000350040004500 -0.008 Frequency/Hz 0 0.005 0.0100.0150.0200.025 Time/s 图3线性额率与梅尔频率转换曲线图 图2无人机声音样本加汉明窗函数图 Fig.3 Conversion curve of linear frequency and Mel frequency Fig.2 Function diagram of an UAV sound sample plus a Hamming window 合的特征,既可有效提取声音特征,又可克服随机 噪音带来的千扰. 2无人机声音样本特征值的提取 Gammatone滤波器的时域表达式如式(5): 梅尔频率倒谱系数(MFCC)广泛应用于声音 g(fe.t)=kiP-le-2b cos(2nfet+) (5) 识别领域,是在梅尔频率域得到的一种参数,可以 准确地还原原始声音信息 式中,1为时间,p为相位,6为中心频率,k是常数, 先对录取的声音进行预处理,得到关于声音 p为滤波器阶数,b是滤波器的带宽.b的公式如式 的帧信号;由于在时域内难以判别声音信号的特 (6): 性,所以接着再进行快速傅立叶变换(FFT)变换, b=1.019ERB(f)=25.17 14.37f +1 (6) 1000 使其变换到频域:在频域内将信号经过26个非线 性的Mel滤波器组,而且Mel滤波器组从低频到 其中 高频的分布由密变疏;然后对滤波后的信号取对 ERB(f)=24.7+0.108f (7) 数,便于对信号进行倒谱分析;最后经过离散余弦 ERs()为Gammatone滤波器的等价矩形带宽 变换得到关于声音的13维特征参数0 Gammatone滤波器如图4所示 梅尔频率倒谱系数是在Mel频率域中得到 的,相比于线性频率域可以更好的描述声音特征 0 Mel频率和Hz频率的关系如式(4) -20 Me=2595×es+7) (4) 式中,∫为频率,单位为Hz 60 Mel频率和Hz频率的转换曲线如图3. 虽然MFCC特征在声音识别领域中得到广泛 -80 使用,但是由于其受到环境噪声的干扰很大,在部 分情况下无法达到人们的期望值.所以本文使 105 0.5 16 Frequency/kHz 用MFCC与GFCC2-I1融合的特征来对无人机声 图4 Gammatone滤波器幅频特性图 音进行识别 Fig.4 Amplitude frequency characteristics of a gammatone filter GFCC与MFCC相比使用的是Gammatone滤 波器,Gammatone滤波器a被广泛用于模拟人类 本文使用MFCC+GFCC的特征参数来识别无 听觉系统对信号的处理方式,而且对噪声有较好 人机声音,MFCC特征参数为13维,GFCC特征参 的抗干扰性,可以增大识别系统的鲁棒性町,有效 数为13维,经过线性叠加后特征参数为26维.既 弥补MFCC特征的不足.使用MFCC与GFCC融 有Mel滤波器的特征参数,又包含经过Gammatone
在预加重图像的基础上进行加汉明窗操作, 结果如图 2 所示,绿色曲线表示声音经过预加重 后的图像,黄色曲线是在预加重图像基础上经过 加窗的图像. 2 无人机声音样本特征值的提取 梅尔频率倒谱系数(MFCC)广泛应用于声音 识别领域,是在梅尔频率域得到的一种参数,可以 准确地还原原始声音信息[9] . 先对录取的声音进行预处理,得到关于声音 的帧信号;由于在时域内难以判别声音信号的特 性,所以接着再进行快速傅立叶变换(FFT)变换, 使其变换到频域;在频域内将信号经过 26 个非线 性的 Mel 滤波器组,而且 Mel 滤波器组从低频到 高频的分布由密变疏;然后对滤波后的信号取对 数,便于对信号进行倒谱分析;最后经过离散余弦 变换得到关于声音的 13 维特征参数[10] . 梅尔频率倒谱系数是在 Mel 频率域中得到 的,相比于线性频率域可以更好的描述声音特征. Mel 频率和 Hz 频率的关系如式(4) Mel(f) = 2595×log( 1+ f 700) (4) 式中,f 为频率,单位为 Hz. Mel 频率和 Hz 频率的转换曲线如图 3. 虽然 MFCC 特征在声音识别领域中得到广泛 使用,但是由于其受到环境噪声的干扰很大,在部 分情况下无法达到人们的期望值[11] . 所以本文使 用 MFCC 与 GFCC[12−13] 融合的特征来对无人机声 音进行识别. GFCC 与 MFCC 相比使用的是 Gammatone 滤 波器,Gammatone 滤波器[14] 被广泛用于模拟人类 听觉系统对信号的处理方式,而且对噪声有较好 的抗干扰性,可以增大识别系统的鲁棒性[15] ,有效 弥补 MFCC 特征的不足. 使用 MFCC 与 GFCC 融 合的特征,既可有效提取声音特征,又可克服随机 噪音带来的干扰. Gammatone 滤波器的时域表达式如式(5): g(fc,t) = ktp−1 e −2πbt cos(2π fct+φ) (5) 式中,t 为时间,φ 为相位,fc 为中心频率,k 是常数, p 为滤波器阶数,b 是滤波器的带宽. b 的公式如式 (6): b = 1.019ERB (fc) = 25.17( 4.37 fc 1000 +1 ) (6) 其中: ERB (fc) = 24.7+0.108 fc (7) ERB(fc ) 为 Gammatone 滤波器的等价矩形带宽. Gammatone 滤波器如图 4 所示. 本文使用 MFCC+GFCC 的特征参数来识别无 人机声音,MFCC 特征参数为 13 维,GFCC 特征参 数为 13 维,经过线性叠加后特征参数为 26 维. 既 有 Mel 滤波器的特征参数,又包含经过 Gammatone Green: pre emphasis sound image Yellow: add hamming window sound image 0.006 0.002 0 0.004 0.005 0.010 Time/s 0 0.015 0.020 0.025 Amplitude −0.002 −0.008 −0.006 −0.004 图 2 无人机声音样本加汉明窗函数图 Fig.2 Function diagram of an UAV sound sample plus a Hamming window 5000 2000 2500 3000 3500 4000 4500 Frequency/Hz 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Mel frequency 1500 0 500 1000 图 3 线性频率与梅尔频率转换曲线图 Fig.3 Conversion curve of linear frequency and Mel frequency 0 −80 −60 −40 −20 Frequency/kHz 0.25 0.5 1 2 4 8 16 Amplitude −100 图 4 Gammatone 滤波器幅频特性图 Fig.4 Amplitude frequency characteristics of a gammatone filter · 1518 · 工程科学学报,第 42 卷,第 11 期
薛珊等:基于卷积神经网络的反无人机系统声音识别方法 .1519 滤波器的特征参数,对周围环境噪声具有较强的 隔最大 鲁棒性 本文使用支持向量机时,选取的样本是无人 截取一段1s的无人机声音片段,对其分别提 机声音数据和环境声音数据.首先提取声音数据 取MFCC、GFCC和MFCC+GFCC特征参数,特征 特征,然后将两类声音数据合并到同一维度空间 频谱图如图5所示.其中,X轴表示特征参数的维 如图6所示,红色标志代表无人机的声音数据,蓝 度,Y坐标表示1s分帧的数量,Z坐标表示幅值, 色标志代表环境声音数据.目的是寻找紫色平面, 两种特征为纵向结合.右侧图例体现图形的表面 将两种数据集正确划分.对某些数据集,这样的超 颜色,数值表示幅值 平面有无穷多个,超平面需要满足两侧的点到超 平面的最小距离是最大的 3支持向量机和卷积神经网络的设计 由于有时样本在原空间不是线性可分的,所 3.1支持向量机的设计 以需要将它映射到高维空间中,在高维空间中样 针对本文样本数量集少的问题,使用了支持 本是线性可分的.推导可得到式(8)20: 向量机(SVM)和CNN进行对比试验.支持向量机 R=∑4-∑∑aaw,GwG() 在小样本数据集和非线性分析上的实验结果十分 (8) 优秀,具有很强的适应性、很好的分类能力和泛化 其中:i,户1,2,,m,m为样本个数;样本为(c1,, 能力6,是目前使用最广泛、效果最好的分类器 (2,y2),,(xm ym);a,和a为拉格朗日乘子,且a, 之一. a≥0:G(c)'Gc)是在空间中的内积,但是在高维 支持向量机?-19是一种典型的分类模型,其 空间中计算它会很难.所以提出一种核函数K(x,x) 主要目的就是寻找一个超平面,超平面可以正 使其在低维空间计算,但其效果等价于高维空间 确地把训练数据集分割开来,并且保证几何间 中的内积.显然,核函数的选择至关重要,本文选 (a) 600 400 Amplitude 200 0 200 -200 0 -400 -200 600 100 05101520 Characteristic dimension 25 0 Number of frames (b) (c) 40 600 Amplitude 20 400 Amplitude 0 200 0 0 0 -20 -20 -200 -100 40 % -400 -200 60 0 0 6 81012 03000% 0 Number of frames 024 Characteristic dimension 681012 Number of frames 3%0 0 图5特征频谱图.(a)MFCC+GFCC特征额谱图:(b)MFCC特征频谱图:(c)GFCC特征频谱图 Fig.5 Characteristic spectra:(a)characteristic spectrum of mel frequency cepstral coefficient(MFCC)+gammatone frequency cepstral coefficient (GFCC);(b)characteristic spectrum of MFCC;(c)characteristic spectrum of GFCC
滤波器的特征参数,对周围环境噪声具有较强的 鲁棒性. 截取一段 1 s 的无人机声音片段,对其分别提 取 MFCC、GFCC 和 MFCC+GFCC 特征参数,特征 频谱图如图 5 所示. 其中,X 轴表示特征参数的维 度,Y 坐标表示 1 s 分帧的数量,Z 坐标表示幅值, 两种特征为纵向结合. 右侧图例体现图形的表面 颜色,数值表示幅值 3 支持向量机和卷积神经网络的设计 3.1 支持向量机的设计 针对本文样本数量集少的问题,使用了支持 向量机(SVM)和 CNN 进行对比试验. 支持向量机 在小样本数据集和非线性分析上的实验结果十分 优秀,具有很强的适应性、很好的分类能力和泛化 能力[16] ,是目前使用最广泛、效果最好的分类器 之一. 支持向量机[17−19] 是一种典型的分类模型,其 主要目的就是寻找一个超平面,超平面可以正 确地把训练数据集分割开来,并且保证几何间 隔最大. 本文使用支持向量机时,选取的样本是无人 机声音数据和环境声音数据. 首先提取声音数据 特征,然后将两类声音数据合并到同一维度空间. 如图 6 所示,红色标志代表无人机的声音数据,蓝 色标志代表环境声音数据. 目的是寻找紫色平面, 将两种数据集正确划分. 对某些数据集,这样的超 平面有无穷多个,超平面需要满足两侧的点到超 平面的最小距离是最大的. 由于有时样本在原空间不是线性可分的,所 以需要将它映射到高维空间中,在高维空间中样 本是线性可分的. 推导可得到式(8) [20] : R = ∑m i=1 αi − 1 2 ∑m i=1 ∑m j=1 αiαjyiy jG(xi) TG ( xj ) (8) 2, ··· (x2, y2), ··· 其中:i,j=1, ,m,m 为样本个数;样本为 (x1 , y1 ), ,(xm, ym);αi 和 αj 为拉格朗日乘子,且 αi, αj≥0;G (xi ) TG(xj ) 是在空间中的内积,但是在高维 空间中计算它会很难. 所以提出一种核函数 K(xi , xj ) 使其在低维空间计算,但其效果等价于高维空间 中的内积. 显然,核函数的选择至关重要,本文选 (a) 600 100 400 80 200 60 200 0 Amplitude Amplitude 40Number of frames 0 Amplitude −200 20 −200 −400 0 100 80 60 40 Number of frames 20 0 −600 600 100 400 80 200 60 0 Amplitude 40 Number of frames 0 Amplitude −200 20 −200 −100 −400 0 −600 0 5 10 15 20 25 Characteristic dimension (b) (c) 40 20 0 0 −20 Amplitude −20 −40 −40 −60 0 2 4 6 8 10 12 Characteristic dimension 0 2 4 6 8 10 12 Characteristic dimension 图 5 特征频谱图. (a)MFCC+GFCC 特征频谱图;(b)MFCC 特征频谱图;(c)GFCC 特征频谱图 Fig.5 Characteristic spectra: (a) characteristic spectrum of mel frequency cepstral coefficient (MFCC) + gammatone frequency cepstral coefficient (GFCC); (b) characteristic spectrum of MFCC; (c) characteristic spectrum of GFCC 薛 珊等: 基于卷积神经网络的反无人机系统声音识别方法 · 1519 ·