工程科学学报 Chinese Journal of Engineering 基于DL-T及迁移学习的语音识别研究 张成刘晨贵鸿博李巍俞经虎曹毅 Research on automatic speech recognition based on a DL-T and transfer learning ZHANG Wei,LIU Chen,FEI Hong-bo,LI Wei.YU Jing-hu.CAO Yi 引用本文: 张威,刘晨,费鸿博.李巍,俞经虎.曹毅.基于DL-T及迁移学习的语音识别研究.工程科学学报,2021,433:433-441.doi: 10.13374j.issn2095-9389.2020.01.12.001 ZHANG Wei,LIU Chen,FEI Hong-bo,LI Wei,YU Jing-hu,CAO Yi.Research on automatic speech recognition based on a DLT and transfer learning[J].Chinese Journal of Engineering,2021,43(3):433-441.doi:10.13374/j.issn2095-9389.2020.01.12.001 在线阅读View online::https://doi..org10.13374/.issn2095-9389.2020.01.12.001 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报.2020.42(11):1525htps:1doi.org10.13374.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019,41(6:817 https:oi.org10.13374j.issn2095-93892019.06.014 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020,42(5):557htps:/1doi.org10.13374.issn2095-9389.2019.03.21.003 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019,41(10:1229 https:/oi.org/10.13374.issn2095-9389.2019.03.27.002 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4:399 https::/1doi.org/10.13374.issn2095-9389.2019.06.16.030 复杂环境下一种基于Siam Mask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask 工程科学学报.2020.42(3:381htps:/doi.org10.13374issn2095-9389.2019.06.06.005
基于DL-T及迁移学习的语音识别研究 张威 刘晨 费鸿博 李巍 俞经虎 曹毅 Research on automatic speech recognition based on a DL–T and transfer learning ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi 引用本文: 张威, 刘晨, 费鸿博, 李巍, 俞经虎, 曹毅. 基于DL-T及迁移学习的语音识别研究[J]. 工程科学学报, 2021, 43(3): 433-441. doi: 10.13374/j.issn2095-9389.2020.01.12.001 ZHANG Wei, LIU Chen, FEI Hong-bo, LI Wei, YU Jing-hu, CAO Yi. Research on automatic speech recognition based on a DLT and transfer learning[J]. Chinese Journal of Engineering, 2021, 43(3): 433-441. doi: 10.13374/j.issn2095-9389.2020.01.12.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient wagon number recognition based on deep learning 工程科学学报. 2020, 42(11): 1525 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 复杂环境下一种基于SiamMask的时空预测移动目标跟踪算法 Design and implementation of multi-feature fusion moving target detection algorithms in a complex environment based on SiamMask 工程科学学报. 2020, 42(3): 381 https://doi.org/10.13374/j.issn2095-9389.2019.06.06.005
工程科学学报.第43卷,第3期:433-441.2021年3月 Chinese Journal of Engineering,Vol.43,No.3:433-441,March 2021 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001;http://cje.ustb.edu.cn 基于DL-T及迁移学习的语音识别研究 张 威12,刘晨2,费鸿博2,李巍),俞经虎2),曹毅12)区 1)江南大学机械工程学院.无锡2141222)江苏省食品先进制造装备技术重点实验室,无锡2141223)苏州工业职业技术学院,苏州 215104 ☒通信作者,E-mail:caoyi@jiangnan.edu.cn 摘要为解决RNN-T语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于DL-T的声学建模方法.首先 介绍了RNN-T声学模型;其次结合DenseNet与LSTM网络提出了一种新的声学建模方法一DL-T,该方法可提取原始语 音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点:然 后,为进一步提高声学模型的准确率,提出了一种适合DL-T的迁移学习方法;最后为验证上述方法,采用DL-T声学模型, 基于Aishell--1数据集开展了语音识别研究.研究结果表明:DL-T相较于RNN-T预测错误率相对降低了12.52%,模型最终 错误率可达10.34%.因此,DL-T可显著改善RNN-T的预测错误率和收敛速度 关键词深度学习:语音识别:声学模型:DL-T;迁移学习 分类号TN912.3 Research on automatic speech recognition based on a DL-T and transfer learning ZHANG Wei2),LIU Chen2.FEI Hong-bo2,LI We,YU Jing-hu2),CAO Yi2 1)School of Mechanical Engineering.Jiangnan University,Wuxi214122,China 2)Jiangsu Key Laboratory of Advanced Food Manufacturing Equipment and Technology,Wuxi 214122,China 3)Suzhou Institute of Industrial Technology,Suzhou 215104,China Corresponding author,E-mail:caoyi@jiangnan.edu.cn ABSTRACT Speech has been a natural and effective way of communication,widely used in the field of information-communication and human-machine interaction.In recent years,various algorithms have been used for achieving efficient communication.The main purpose of automatic speech recognition (ASR),one of the key technologies in this field,is to convert the analog signals of input speech into corresponding text digital signals.Further,ASR can be divided into two categories:one based on hidden Markov model (HMM)and the other based on end to end (E2E)models.Compared with the former,E2E models have a simple modeling process and an easy training model and thus,research is carried out in the direction of developing E2E models for effectively using in ASR.However,HMM- based speech recognition technologies have some disadvantages in terms of prediction error rate,generalization ability,and convergence speed.Therefore,recurrent neural network-transducer(RNN-T),a typical E2E acoustic model that can model the dependencies between the outputs and can be optimized jointly with a Language Model (LM),was proposed in this study.Further,a new acoustic model of DL-T based on DenseNet (dense convolutional network)-LSTM(long short-term memory)-Transducer,was proposed to solve the problems of a high prediction error rate and slow convergence speed in a RNN-T.First,a RNN-T was briefly introduced.Then, combining the merits of both DenseNet and LSTM,a novel acoustic model of DL-T,was proposed in this study.A DL-T can extract high-dimensional speech features and alleviate gradient problems and it has the advantages of low character error rate(CER)and fast 收稿日期:2020-01-12 基金项目:国家自然科学基金资助项目(51375209):江苏省“六大人才高蜂”计划资助项目(ZBZZ-012):江苏省研究生创新计划资助项目 (KYCX180630,KYCX181846):高等学校学科创新引智计划资助项目(B18027)
基于 DL-T 及迁移学习的语音识别研究 张 威1,2),刘 晨1,2),费鸿博1,2),李 巍3),俞经虎1,2),曹 毅1,2) 苣 1) 江南大学机械工程学院,无锡 214122 2) 江苏省食品先进制造装备技术重点实验室,无锡 214122 3) 苏州工业职业技术学院,苏州 215104 苣通信作者,E-mail:caoyi@jiangnan.edu.cn 摘 要 为解决 RNN–T 语音识别时预测错误率高、收敛速度慢的问题,本文提出了一种基于 DL–T 的声学建模方法. 首先 介绍了 RNN–T 声学模型;其次结合 DenseNet 与 LSTM 网络提出了一种新的声学建模方法——DL–T,该方法可提取原始语 音的高维信息从而加强特征信息重用、减轻梯度问题便于深层信息传递,使其兼具预测错误率低及收敛速度快的优点;然 后,为进一步提高声学模型的准确率,提出了一种适合 DL–T 的迁移学习方法;最后为验证上述方法,采用 DL–T 声学模型, 基于 Aishell–1 数据集开展了语音识别研究. 研究结果表明:DL–T 相较于 RNN–T 预测错误率相对降低了 12.52%,模型最终 错误率可达 10.34%. 因此,DL–T 可显著改善 RNN–T 的预测错误率和收敛速度. 关键词 深度学习;语音识别;声学模型;DL–T;迁移学习 分类号 TN912.3 Research on automatic speech recognition based on a DL–T and transfer learning ZHANG Wei1,2) ,LIU Chen1,2) ,FEI Hong-bo1,2) ,LI Wei3) ,YU Jing-hu1,2) ,CAO Yi1,2) 苣 1) School of Mechanical Engineering, Jiangnan University, Wuxi 214122, China 2) Jiangsu Key Laboratory of Advanced Food Manufacturing Equipment and Technology, Wuxi 214122, China 3) Suzhou Institute of Industrial Technology, Suzhou 215104, China 苣 Corresponding author, E-mail: caoyi@jiangnan.edu.cn ABSTRACT Speech has been a natural and effective way of communication, widely used in the field of information-communication and human–machine interaction. In recent years, various algorithms have been used for achieving efficient communication. The main purpose of automatic speech recognition (ASR), one of the key technologies in this field, is to convert the analog signals of input speech into corresponding text digital signals. Further, ASR can be divided into two categories: one based on hidden Markov model (HMM) and the other based on end to end (E2E) models. Compared with the former, E2E models have a simple modeling process and an easy training model and thus, research is carried out in the direction of developing E2E models for effectively using in ASR. However, HMMbased speech recognition technologies have some disadvantages in terms of prediction error rate, generalization ability, and convergence speed. Therefore, recurrent neural network–transducer (RNN–T), a typical E2E acoustic model that can model the dependencies between the outputs and can be optimized jointly with a Language Model (LM), was proposed in this study. Further, a new acoustic model of DL –T based on DenseNet (dense convolutional network) –LSTM (long short-term memory) –Transducer, was proposed to solve the problems of a high prediction error rate and slow convergence speed in a RNN –T. First, a RNN –T was briefly introduced. Then, combining the merits of both DenseNet and LSTM, a novel acoustic model of DL–T, was proposed in this study. A DL–T can extract high-dimensional speech features and alleviate gradient problems and it has the advantages of low character error rate (CER) and fast 收稿日期: 2020−01−12 基金项目: 国家自然科学基金资助项目(51375209);江苏省“六大人才高峰”计划资助项目(ZBZZ–012);江苏省研究生创新计划资助项目 (KYCX18_0630, KYCX18_1846);高等学校学科创新引智计划资助项目(B18027) 工程科学学报,第 43 卷,第 3 期:433−441,2021 年 3 月 Chinese Journal of Engineering, Vol. 43, No. 3: 433−441, March 2021 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001; http://cje.ustb.edu.cn
434 工程科学学报,第43卷,第3期 convergence speed.Apart from that,a transfer learning method suitable for a DL-T was also proposed.Finally,a DL-T was researched in speech recognition based on the Aishell-1 dataset for validating the abovementioned methods.The experimental results show that the relative CER of DL-T is reduced by 12.52%compared with RNN-T,and the final CER is 10.34%,which also demonstrates a low CER and better convergence speed of the DL-T. KEY WORDS deep learning;speech recognition;acoustic model;DL-T;transfer learning 语音识别是人机交互的一项关键技术,近年 高声学模型准确率 来,基于深度学习的语音识别技术取得了跨越式 值得指出的是:CTC是最早提出的端到端语 的发展-),其在语音搜索、个人数码助理及车载 音识别方法,由于其建模过程简便且训练模型容 娱乐系统]等领域得到了广泛应用.鉴于声学建 易,因此得到了广泛研究8-山,但CTC存在输出独 模是语音识别技术的关键,因此国内外学者对其 立性假设且无法与语言模型联合训练问题的为 开展了广泛研究4,主要可划分为4类:(1)隐马 解决上述问题,RNN-T通过引入解码网络,不仅 尔科夫模型(Hidden Markov model,HMM):(2)连 解决了CTC输出独立性假设问题且可联合语言模 接时序分类⑧-l(Connectionist temporal classifica- 型进行训练 tion,CTC);(3)序列到序列(Sequence to sequence, 综上所述,本文首先基于RNN-T模型探索不 S2S)模型2L,(4)循环神经网络转换器l3-1(Recur- 同编码、解码网络层数对其预测错误率影响;其 rent neural network-transducer,RNN-T). 次,在上述模型的基础上结合DenseNet与LSTM ()第1类基于HMM构建声学模型,用神经 网络提出了DL-T声学模型;然后,为进一步提高 网络描述声学特征的概率分布,有效弥补了高斯 其准确率,提出了适合DL-T的迁移学习方法;最 混合模型对于语音特征建模能力不足的缺点,从 后,基于Aishell--1l6数据集开展语音识别研究, 而提升声学模型准确率.其中,Peddinti等探索 其结果验证了DL-T兼具预测错误率低及收敛速 了神经网络-隐马尔可夫模型(Neural network- 度快的优点 hidden Markov model,NN-HMM)的声学模型; Povey等构建了因式分解的时延神经网络模型; 1声学模型 刑安昊等提出了深度神经网络(Deep neural 1.1循环神经网络转换器RNN-T network,DNN)裁剪方法,使得DNN性能损失降 RNN-T是由Graves等I]提出的一种语音识 低.(2)第2类方法基于CTC构建端到端声学模 别声学建模方法,该方法可分为编码网络(Encoder 型,无需时间维度上帧级别对齐标签,极大地简化 network)、解码网络(Decoder network)以及联合网络 了声学模型训练流程⑧-.Gravesl首次构建了神 (Joint network)三部分7,其模型结构如图1所示. 经网-连接时序分类(Neural network-CTC, P(,) NN-CTC)声学模型并验证了其对于声学建模的 有效性;Zhang等例探索了深度卷积神经网络-连 Softmax 接时序分类(DCNN-CTC)模型;Zhang等ioI构建 了多路卷积神经网络-连接时序分类声学模型,使 Linear 得音节错误率相对降低12.08%;Zhang等提出 Joint network 了连接时序分类-交叉嫡训练方法.(3)第3类方 Concat 法旨在将声学特征编码成高维向量,再解码成识 别结果.基于自注意力模型,Dong等2构建了端 Encoder Decoder network network 到端语音识别声学模型.(4)第4类方法则基于 LSTM RNN-T构建声学模型,该方法对CTC输出独立性 BLSTM 假设进行优化,并联合训练声学模型与语言模型 Embedding 进一步提升声学模型准确率侧.Graves等]首次 验证了RNN-T对于构建声学建模的可行性;Rao -1 等W提出了适用于RNN-T的预训练方法:Tian等 图1RNN-T声学模型结构图 构建了SA-T声学建模方法并结合正则化方法提 Fig.1 Acoustic model of RNN-T
convergence speed. Apart from that, a transfer learning method suitable for a DL–T was also proposed. Finally, a DL–T was researched in speech recognition based on the Aishell–1 dataset for validating the abovementioned methods. The experimental results show that the relative CER of DL–T is reduced by 12.52% compared with RNN–T, and the final CER is 10.34%, which also demonstrates a low CER and better convergence speed of the DL–T. KEY WORDS deep learning;speech recognition;acoustic model;DL–T;transfer learning 语音识别是人机交互的一项关键技术,近年 来,基于深度学习的语音识别技术取得了跨越式 的发展[1−2] ,其在语音搜索、个人数码助理及车载 娱乐系统[3] 等领域得到了广泛应用. 鉴于声学建 模是语音识别技术的关键,因此国内外学者对其 开展了广泛研究[4−15] ,主要可划分为 4 类:(1)隐马 尔科夫模型[4−7] (Hidden Markov model, HMM);(2)连 接 时 序 分 类 [8−11] ( Connectionist temporal classification, CTC);(3)序列到序列(Sequence to sequence, S2S)模型[12] ;(4) 循环神经网络转换器[13−15] (Recurrent neural network–transducer, RNN–T). (1) 第 1 类基于 HMM 构建声学模型,用神经 网络描述声学特征的概率分布,有效弥补了高斯 混合模型对于语音特征建模能力不足的缺点,从 而提升声学模型准确率[4] . 其中,Peddinti 等[5] 探索 了神经网络-隐马尔可夫模型( Neural network– hidden Markov model, NN –HMM)的声学模型 ; Povey 等[6] 构建了因式分解的时延神经网络模型; 刑安昊等 [7] 提出了深度神经网络 ( Deep neural network, DNN)裁剪方法,使得 DNN 性能损失降 低. (2)第 2 类方法基于 CTC 构建端到端声学模 型,无需时间维度上帧级别对齐标签,极大地简化 了声学模型训练流程[8−11] . Graves[8] 首次构建了神 经网络 – 连接时序分类 ( Neural network –CTC, NN–CTC)声学模型并验证了其对于声学建模的 有效性;Zhang 等[9] 探索了深度卷积神经网络–连 接时序分类(DCNN–CTC)模型;Zhang 等[10] 构建 了多路卷积神经网络–连接时序分类声学模型,使 得音节错误率相对降低 12.08%;Zhang 等[11] 提出 了连接时序分类–交叉熵训练方法. (3)第 3 类方 法旨在将声学特征编码成高维向量,再解码成识 别结果. 基于自注意力模型,Dong 等[12] 构建了端 到端语音识别声学模型. (4)第 4 类方法则基于 RNN–T 构建声学模型,该方法对 CTC 输出独立性 假设进行优化,并联合训练声学模型与语言模型 进一步提升声学模型准确率[8] . Graves 等[13] 首次 验证了 RNN–T 对于构建声学建模的可行性;Rao 等[14] 提出了适用于 RNN–T 的预训练方法;Tian 等[15] 构建了 SA–T 声学建模方法并结合正则化方法提 高声学模型准确率. 值得指出的是:CTC 是最早提出的端到端语 音识别方法,由于其建模过程简便且训练模型容 易,因此得到了广泛研究[8−11] ,但 CTC 存在输出独 立性假设且无法与语言模型联合训练问题[15] . 为 解决上述问题,RNN–T 通过引入解码网络,不仅 解决了 CTC 输出独立性假设问题且可联合语言模 型进行训练. 综上所述,本文首先基于 RNN–T 模型探索不 同编码、解码网络层数对其预测错误率影响;其 次,在上述模型的基础上结合 DenseNet 与 LSTM 网络提出了 DL–T 声学模型;然后,为进一步提高 其准确率,提出了适合 DL–T 的迁移学习方法;最 后,基于 Aishell–1[16] 数据集开展语音识别研究, 其结果验证了 DL–T 兼具预测错误率低及收敛速 度快的优点. 1 声学模型 1.1 循环神经网络转换器 RNN–T RNN–T 是由 Graves 等[13] 提出的一种语音识 别声学建模方法,该方法可分为编码网络(Encoder network)、解码网络(Decoder network)以及联合网络 (Joint network)三部分[17] ,其模型结构如图 1 所示. P (k|t, u) Softmax Linear Concat Joint network Encoder network Decoder network gu wt, u f t xt yu−1 BLSTM LSTM Embedding 图 1 RNN–T 声学模型结构图 Fig.1 Acoustic model of RNN–T · 434 · 工程科学学报,第 43 卷,第 3 期
张威等:基于DL-T及迁移学习的语音识别研究 435 设给定序列X=(x1,x2,,x,,x)表示输人 式(9)~(10)中,fg分别表示编码向量与解码向 T1≤≤T)帧声学特征序列,对应标签序列=01, 量,并将上述二者组合成联合向量"进而通过 y2,,ymu),其中U(1≤u≤U表示标签长度.如 Softmax函数计算其后验概率.式(Il)表示 图1所示,编码网络将输入声学特征映射为声学 RNN-T损失函数,其值可通过前向-后向算法计 特征向量f。编码结果如下式所示: 算.其中,y表示给定序列的标签,由于式(10)结 f;=fEnc(x (1) 果均可微.因此,可通过随时间反向传播(Back- 其中,fc()表示深度神经网络构建的函数,该 propagation through time,BPTT)算法l进行参数 文编码层均采用BLSTM网络,其具体计算如式 训练 (2)~(7)所示: 1.2密集连接网络转换器DL-T in=(Wixx:+Wibht-1 Wiss:-1+bi) (2) DenseNet是由Huang等ug提出的一种深度学 z=(Wzrxt Wzhh-1 Wzss-1+bz) (3) 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图2所 st=ziS1-1+ir (Wsxxt +Wshht-1+bs) (4) 示.曹毅等2ol结合DenseNet和N阶马尔可夫模型 o=(Woxx:Wohh:-1 Wosst-1+bo) (5) 提出了N阶DenseNet,,该模型在避免梯度消失的 hr=ou中(sr) (6) 前提下有针对性地减少了特征图层之间的连接, f=hrihr (7) 极大地减少了特征冗余,使得模型的收敛速度更 快.式(I2)可用于表示DenseNet计算结果: 式(2)~(7)中,n、s、0h,和f分别代表1时刻 x1=H([x0,x1,",x1-1]) (12) 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wx、W、Ws分别表示输入到输入 Input 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wx、Wh、Ws分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wx、Woh、Ws分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wx、W如分别表示中间状态到输入门 BN+Relu 与隐藏值向量的权值:b、b、bs、b。分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵;) )分别表示sigmoid及Tanh激活函数:hr;h,表 BN+Relu 示拼接前向隐藏向量h,与后向隐藏向量,得到编 码网络结果f 如图I所示,RNN-T引入解码网络对CTC输 BN+Relu 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式(8)所示: gu=fDec (y-i) (8) 同理,fD()表示深度神经网络构建的函数, BN+Relu 且该文解码层均采用LSTM网络,具体计算与式 图2 DenseNet模型结构图 (2)~(6)一致,解码网络最终结果gu与h,相等. Fig.2 Model structure of DenseNet 联合网络将编码网络与解码网络组合(图1), 得到组合序列,再通过Softmax函数得到下一时刻 其中,1表示当前层数,[xo,x1,,-]表示拼接前 概率分布,其计算如式(9)~(10)所示: -1层的特征图,H表示拼接前-1层特征图,x表 wiu=floint(fr gu) 示第1层特征图 (9) 受上述算法启发,首先使用DenseNet提取原 p(klt,u)=Softmax (wiu) (10) 始特征的高维信息,其不仅提升特征的信息重用四, LRNN-T=-In P(y'X) (11) 而且可以减轻梯度问题2:然后利用LSTM网络
,··· ,··· ,··· ,··· 设给定序 列 X=(x1 , x2 , xt , xT ) 表示输 入 T(1≤t≤T) 帧声学特征序列,对应标签序列 y=(y1 , y2 , yu ,yU),其中 U(1≤u≤U) 表示标签长度. 如 图 1 所示,编码网络将输入声学特征映射为声学 特征向量 ft,编码结果如下式所示: ft = f Enc (xt) (1) 其中, f Enc(·) 表示深度神经网络构建的函数,该 文编码层均采用 BLSTM 网络,其具体计算如式 (2)~(7)所示: it = σ(Wixxt +Wihht−1 +Wisst−1 + bi) (2) zt = σ(Wzxxt +Wzhht−1 +Wzsst−1 + bz) (3) st = ztst−1 + itϕ(Wsxxt +Wshht−1 + bs) (4) ot = σ(Woxxt +Wohht−1 +Wosst−1 + bo) (5) ht = otϕ(st) (6) ft = [→ ht ; ← ht ] (7) [→ ht ; ← ht ] → ht ← ht 式(2)~(7)中,i t、zt、st、ot、ht 和 ft 分别代表 t 时刻 输入门、遗忘门、中间状态、输出门、隐藏值向量 和输出向量;Wix、Wih、Wis 分别表示输入到输入 门、输入门到隐藏值向量权值以及输入门到中间 状态的权值;Wzx、Wzh、Wzs 分别表示输入到遗忘 门、遗忘门到隐藏值向量权值以及遗忘门到中间 状态的权值;Wox、Woh、Wos 分别表示输入到输出 门、输出门到隐藏值向量权值以及输出门到中间 状态的权值;Wsx、Wsh 分别表示中间状态到输入门 与隐藏值向量的权值;bi、bz、bs、bo 分别代表输入 门、遗忘门、中间状态和输出门偏置矩阵; σ(·)、 ϕ(·) 分别表示 sigmoid 及 Tanh 激活函数; 表 示拼接前向隐藏向量 与后向隐藏向量 得到编 码网络结果 ft . 如图 1 所示,RNN–T 引入解码网络对 CTC 输 出独立性假设进行优化,该网络对上一时刻非空 预测结果进行再编码,其结果如式 (8) 所示: gu = f Dec (yu−1) (8) 同理,f Dec(·) 表示深度神经网络构建的函数, 且该文解码层均采用 LSTM 网络,具体计算与式 (2)~(6)一致,解码网络最终结果 gu 与 ht 相等. 联合网络将编码网络与解码网络组合(图 1), 得到组合序列,再通过 Softmax 函数得到下一时刻 概率分布,其计算如式(9)~(10)所示: wt,u = f Joint(ft , gu) (9) p(k|t,u) = Softmax( wt,u ) (10) LRNN−T = −lnP ( y ∗ |X ) (11) 式(9)~(10)中,ft、gu 分别表示编码向量与解码向 量,并将上述二者组合成联合向量 wt,u,进而通过 Softmax 函 数 计 算 其 后 验 概 率 . 式 ( 11) 表 示 RNN–T 损失函数,其值可通过前向–后向算法计 算. 其中,y *表示给定序列的标签,由于式(10)结 果均可微. 因此,可通过随时间反向传播(Backpropagation through time, BPTT)算法 [18] 进行参数 训练. 1.2 密集连接网络转换器 DL–T DenseNet 是由 Huang 等[19] 提出的一种深度学 习算法,其采用密集连接方式加强特征的信息重 用,从而提升网络的性能,其模型结构如图 2 所 示. 曹毅等[20] 结合 DenseNet 和 N 阶马尔可夫模型 提出了 N 阶 DenseNet,该模型在避免梯度消失的 前提下有针对性地减少了特征图层之间的连接, 极大地减少了特征冗余,使得模型的收敛速度更 快. 式(12)可用于表示 DenseNet 计算结果: xl = Hl([x0, x1,· · ·, xl−1]) (12) Input BN+Relu BN+Relu BN+Relu BN+Relu BN+Relu x0 x1 x2 x3 x4 图 2 DenseNet 模型结构图 Fig.2 Model structure of DenseNet 其中,l 表示当前层数,[x ,··· 0 , x1 , xl−1] 表示拼接前 l–1 层的特征图,Hl 表示拼接前 l−1 层特征图,xl 表 示第 l 层特征图. 受上述算法启发,首先使用 DenseNet 提取原 始特征的高维信息,其不仅提升特征的信息重用[21] , 而且可以减轻梯度问题[22] ;然后利用 LSTM 网络 张 威等: 基于 DL-T 及迁移学习的语音识别研究 · 435 ·
436 工程科学学报,第43卷,第3期 序列建模时的优势,对提取的高维信息进行序列 化算法中的研究热点,其旨在基于源域在解决任 建模;最终构建DL-T声学模型,其具体编码网络 务中获得知识进而改善目标任务的算法.近年来, 模型结构如图3所示. 国内外已有不少学者在此领域进行深入研究52-2刈 Tian等将预训练模型作为RNN-T的初始模 型,在此基础上进行再训练,使得RNN-T训练难 BLSTM 度降低;易江燕等1用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 DenseNe 型进行训练,提高带噪语音的鲁棒性;Xue等2基 于多任务学习理论,对声学模型进行再训练,从而 图3DL-T编码网络结构图 降低模型的错误率 Fig.3 Encoder network structure of a DL-T 有鉴于此,为进一步提高声学模型准确率,本 2基于迁移学习的声学模型 文拟用迁移学习方法对声学模型进行优化.该方 法在初始模型的基础上融合优化算法重训练得到 迁移学习(Transfer learning,TL)是深度学习优 最终模型,其训练方法如图4所示. ,XXn,x) Encoder network Joint network Acoustic feature LSTM LSTM LSTM LSTM Linear iRNN-T training Acoustic feature LSTMLSTM LSTM LSTM Vi2.u) Linear RNN-T word Input word Embedding LSTM Decodernetwork ,,J, Input word Embedding LSTM 图4迁移学习方法结构图 Fig.4 Method of transfer learning 图4中,虚线部分表示初始训练模型,其包含 的参数,其中P=Pk,),P=P(k:D()为本 编码网络、解码网络及联合网络3部分,其具体工 文迁移学习的优化目标,其用P:通过参数优化得 作原理如下: 到P。旨在最小化D()目标函数 (1)首先以声学特征序列X为编码网络输入; 3 (2)其次,用字序列y通过词嵌入1变换作为 实验 解码网络输入,该输入序列将高维稀疏字序列映 为验证DL-T声学模型相较于RNN-T训练 射低维密集的特征空间,从而减少输人参数量便 时收敛速度更快且具有良好的准确率,本节基于 于模型训练; Aishell-l数据集在实验平台上开展语音识别的 (3)最后,联合网络将编码网络与解码网络相 研究 结合,通过softmax函数输出结果 3.1实验数据集 实线为迁移学习部分,该部分RNN-T结构与 实验采用Aishell-1I6数据集进行实验,该 初始模型一致,将初始模型参数重训练得到迁移 数据集是中文语音标准数据集,其采样率为 学习之后的模型,其计算结果如式(13)所示: 16000Hz.其中训练集、验证集以及测试集分别包 D(PrlP:)≡-lnP(yX) (13) 含120098、14326以及7176条标准语料,数据总时 其中,P、P分别表示初始模型以及迁移学习模型 长约为178h,并且训练集、验证集和测试集语料
序列建模时的优势,对提取的高维信息进行序列 建模;最终构建 DL–T 声学模型,其具体编码网络 模型结构如图 3 所示. BLSTM DenseNet xt ft 图 3 DL–T 编码网络结构图 Fig.3 Encoder network structure of a DL–T 2 基于迁移学习的声学模型 迁移学习(Transfer learning, TL)是深度学习优 化算法中的研究热点,其旨在基于源域在解决任 务中获得知识进而改善目标任务的算法. 近年来, 国内外已有不少学者在此领域进行深入研究[15, 23−24] . Tian 等[15] 将预训练模型作为 RNN – T 的初始模 型,在此基础上进行再训练,使得 RNN–T 训练难 度降低;易江燕等[23] 用迁移学习方法对带噪语音 进行声学建模,该方法利用老师模型指导学生模 型进行训练,提高带噪语音的鲁棒性;Xue 等[24] 基 于多任务学习理论,对声学模型进行再训练,从而 降低模型的错误率. 有鉴于此,为进一步提高声学模型准确率,本 文拟用迁移学习方法对声学模型进行优化. 该方 法在初始模型的基础上融合优化算法重训练得到 最终模型,其训练方法如图 4 所示. (x1, x2, ..., xt , ..., xT) (x1, x2, ..., xt , ..., xT) (y1, y2, ..., yu, ..., yU) (y1, y2, ..., yu, ..., yU) Acoustic feature Acoustic feature LSTM LSTM LSTM LSTM LSTM Input word Embedding LSTM LSTM LSTM LSTM Input word Embedding LSTM Joint network Linear Linear RNN-T word Encoder network Decoder network RNN-T training 图 4 迁移学习方法结构图 Fig.4 Method of transfer learning 图 4 中,虚线部分表示初始训练模型,其包含 编码网络、解码网络及联合网络 3 部分,其具体工 作原理如下: (1)首先以声学特征序列 X 为编码网络输入; (2)其次,用字序列 y 通过词嵌入[25] 变换作为 解码网络输入,该输入序列将高维稀疏字序列映 射低维密集的特征空间,从而减少输入参数量便 于模型训练; (3)最后,联合网络将编码网络与解码网络相 结合,通过 softmax 函数输出结果. 实线为迁移学习部分,该部分 RNN–T 结构与 初始模型一致,将初始模型参数重训练得到迁移 学习之后的模型,其计算结果如式(13)所示: Dfi (Pf ∥ Pi) ≡ −lnP ( y ∗ |X ) (13) 其中,Pi、Pf 分别表示初始模型以及迁移学习模型 的参数,其中 Pi=P(ki |t i , ui ), Pf=P(kf |t f , uf );Dfi(·) 为本 文迁移学习的优化目标,其用 Pi 通过参数优化得 到 Pf,旨在最小化 Dfi(·) 目标函数. 3 实验 为验证 DL–T 声学模型相较于 RNN–T 训练 时收敛速度更快且具有良好的准确率,本节基于 Aishell–1 数据集在实验平台上开展语音识别的 研究. 3.1 实验数据集 实验采用 Aishell –1[16] 数据集进行实验 ,该 数据集是中文语音标准数据集 ,其采样率为 16000 Hz,其中训练集、验证集以及测试集分别包 含 120098、14326 以及 7176 条标准语料,数据总时 长约为 178 h,并且训练集、验证集和测试集语料 · 436 · 工程科学学报,第 43 卷,第 3 期