第11卷第5期 智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201511028 网络出版地址:htp:/www.cmki.net/kcms/detail/23.1538.TP.20160715.1353.002.html 深度学习方法研究新进展 刘帅师,程曦,郭文燕,陈奇 (长春工业大学电气与电子工程学院,吉林长春130000) 摘要:本文依据模型结构对深度学习进行了归纳和总结,描述了不同模型的结构和特点。首先介绍了深度学习的 概念及意义,然后介绍了4种典型模型:卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器,并对近3 年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍,最后对现有深度学 习模型进行了总结,并且讨论了未来所面临的挑战。 关键词:深度学习:卷积神经网络:深度信念网铬:深度玻尔兹曼机:堆叠自动编码器 中图分类号:TP18文献标志码:A文章编号:1673-4785(2016)05-0567-10 中文引用格式:刘帅师,程曦,郭文慕,等.深度学习方法研究新进展[J].智能系统学报,2016,11(5):567-577, 英文引用格式:LIU Shuaishi,CHENG XI,GUO Wenyan,etal.Progress report on new research in deep learning[J].CAAI trans- actions on intelligent systems,2016,11(5):567-577. Progress report on new research in deep learning LIU Shuaishi,CHENG Xi,GUO Wenyan,CHEN Qi College of Electrical and Electronic Engineering,Changchun University of Technology,Changchun 130000,China) Abstract:Deep learning has recently received widespread attention.Using a model structure,this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of differ- ent models.The paper firstly introduces the concept and significance of deep learning,and then reviews four typical models:a convolutional neural network;deep belief networks;the deep Boltzmann machine;and an automatic stacking encoder.The paper then concludes by reviewing the applications of deep learning as regards speech pro- cessing,computer vision,natural language processing,medical science,and other aspects.Finally,the existing deep learning model is summarized and future challenges discussed. Keywords:deep learning;convolutional neural network;deep belief networks;deep Boltzmann machine;automat- ic stacking encoder 深度学习是机器学习的一个分支,属于人工智 究热点。 能的新领域。深度学习的本质是特征提取,即通过 2006年,机器学习大师Hinton等[)在《科学》 组合低层次的特征形成更加抽象的高层表示,以达 上发表的一篇论文,开启了深度学习的浪潮。他提 到获得最佳特征的目的。它主要通过神经网络 出了深度信念网的概念,成功地利用贪心策略逐层 来模拟人的大脑的学习过程,希望实现对现实对象 训练由限制玻尔兹曼机组成的深层架构,解决了以 或数据(图像、语音及文本等)的抽象表达,整合特 往深度网络训练困难的问题。此后,Hinton、Lecun、 征抽取和分类器到一个学习框架下)。目前,深度 Bengio等大量科研人员对深度学习的模型构建、训 学习在许多领域取得了广泛的关注,成为当今的研 练方式等做出了杰出的贡献。文献[4]对近几年新 兴的深度学习的初始化方法、模型结构、学习算法等 收稿日期:2015-11-27.网络出版日期:2016-07-15. 基金项目:吉林省科技厅青年科研基金项目(20140520065H 进行了详细的分析。2014年余滨等1从训练方式 20140520076H):长春工业大学科学研究发展基金自然科学 的角度对深度学习进行了总结。文献[6]依据数据 计划项目(2010XN07). 通信作者:.E-mail:刘帅师.E-mail:liu-shuaishi@126.com. 流向对深度学习进行不同分类,本文将重点放在模
第 11 卷第 5 期 智 能 系 统 学 报 Vol.11 №.5 2016 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2016 DOI:10.11992 / tis.201511028 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160715.1353.002.html 深度学习方法研究新进展 刘帅师,程曦,郭文燕,陈奇 (长春工业大学 电气与电子工程学院,吉林 长春 130000) 摘 要:本文依据模型结构对深度学习进行了归纳和总结,描述了不同模型的结构和特点。 首先介绍了深度学习的 概念及意义,然后介绍了 4 种典型模型:卷积神经网络、深度信念网络、深度玻尔兹曼机和堆叠自动编码器,并对近 3 年深度学习在语音处理、计算机视觉、自然语言处理以及医疗应用等方面的应用现状进行介绍,最后对现有深度学 习模型进行了总结,并且讨论了未来所面临的挑战。 关键词:深度学习;卷积神经网络;深度信念网络;深度玻尔兹曼机;堆叠自动编码器 中图分类号:TP18 文献标志码:A 文章编号:1673⁃4785(2016)05⁃0567⁃10 中文引用格式:刘帅师,程曦,郭文燕,等.深度学习方法研究新进展[J]. 智能系统学报, 2016, 11(5): 567⁃577. 英文引用格式:LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI trans⁃ actions on intelligent systems, 2016,11(5):567⁃577. Progress report on new research in deep learning LIU Shuaishi, CHENG Xi, GUO Wenyan, CHEN Qi (College of Electrical and Electronic Engineering, Changchun University of Technology, Changchun 130000, China) Abstract:Deep learning has recently received widespread attention. Using a model structure, this paper gives a summarization and analysis on deep learning by describing and reviewing the structure and characteristics of differ⁃ ent models. The paper firstly introduces the concept and significance of deep learning, and then reviews four typical models: a convolutional neural network; deep belief networks; the deep Boltzmann machine; and an automatic stacking encoder. The paper then concludes by reviewing the applications of deep learning as regards speech pro⁃ cessing, computer vision, natural language processing, medical science, and other aspects. Finally, the existing deep learning model is summarized and future challenges discussed. Keywords:deep learning; convolutional neural network; deep belief networks; deep Boltzmann machine; automat⁃ ic stacking encoder 收稿日期:2015⁃11⁃27. 网络出版日期:2016⁃07⁃15. 基金项目: 吉 林 省 科 技 厅 青 年 科 研 基 金 项 目 ( 20140520065JH, 20140520076JH);长春工业大学科学研究发展基金自然科学 计划项目(2010XN07). 通信作者:. E⁃mail:刘帅师. E⁃mail:liu⁃shuaishi@ 126.com. 深度学习是机器学习的一个分支,属于人工智 能的新领域。 深度学习的本质是特征提取,即通过 组合低层次的特征形成更加抽象的高层表示,以达 到获得最佳特征的目的[1] 。 它主要通过神经网络 来模拟人的大脑的学习过程,希望实现对现实对象 或数据(图像、语音及文本等)的抽象表达,整合特 征抽取和分类器到一个学习框架下[2] 。 目前,深度 学习在许多领域取得了广泛的关注,成为当今的研 究热点。 2006 年,机器学习大师 Hinton 等[3] 在《科学》 上发表的一篇论文,开启了深度学习的浪潮。 他提 出了深度信念网的概念,成功地利用贪心策略逐层 训练由限制玻尔兹曼机组成的深层架构,解决了以 往深度网络训练困难的问题。 此后,Hinton、Lecun、 Bengio 等大量科研人员对深度学习的模型构建、训 练方式等做出了杰出的贡献。 文献[4]对近几年新 兴的深度学习的初始化方法、模型结构、学习算法等 进行了详细的分析。 2014 年余滨等[5] 从训练方式 的角度对深度学习进行了总结。 文献[6]依据数据 流向对深度学习进行不同分类,本文将重点放在模
·568 智能系统学报 第11卷 型结构,以深度学习的核心模型结构而展开。文献 使用。 [7]从深度学习结构进行展开,本文大量增加了近3 首先,为了降低网络的复杂性,卷积神经网络采 年新的研究成果,因此能够更准确地反映该领域的 用权重共享方式,即同一个特征图,卷积核是一样 最新研究进展。 的11:其次,对得到的特征输入给一个非线性函数, 本文依据模型结构,着重介绍4种典型的深度 比如RLU等;最后,再采取下采样方法,比如最大 学习模型,即卷积神经网络、深度信念网络、深度玻 池化等。下采样的作用是把语义上相似的特征合并 尔兹曼机、堆叠自动编码器。下面对这些模型进行 起来,这是因为形成一个主题的特征的相对位置不 描述。 太一样。 1.1.3训练方式 1深度学习典型模型 卷积神经网络的训练采用有监督训练方式。首 1.1卷积神经网络 先是向前传播,即输入X经过卷积神经网路后变为 1.1.1历史 输出0,再将0与标签进行比较,然后以向后传播的 卷积神经网络(convolutional neural networks,. 方式,到将所得误差传播到每个节点,根据权值更新 CNN)最早在20世纪80年代就已被提出,是由于在 公式,更新相应的卷积核权值4.6。 研究猫脑皮层时受到的启发。它的典型模型LeNet- 此外,以卷积神经网络为核心的深度学习网络 5[8]系统,在MNIST上得到了0.9%的错误率,并在 还有3-D卷积神经网络(3-D convolutional neural 20世纪90年代就已用于银行的手写支票识别)。 networks,3D-CNN)[,光谱网络(spectral net-- 但是,由于在大尺寸图像上没有好的效果,一度被人 works,SN)Ia),金字塔卷积神经网络(pyramid conv- 忽视。随着高效的GPU计算的兴起,直到2012年 olutional neural networks,PCNN)[],多级金字塔卷 Hinton在ImageNet问题的成功,才使它在近几年流 积神经网络(multi level pyamid convolutional neural 行起来[)。如今卷积神经网络已经成为众多科学 networks,MLPCNN)[4等。 领域的研究热点之一,特别是在图像识别领域。由 12受限制玻尔兹曼机为核心的深度网络 于该网络避免了对图像的复杂前期预处理,可以直 受限制玻尔兹曼机为核心的深度网络有2种: 接输入原始图像,因而得到了广泛的应用。 深度信念网和深度玻尔兹曼机。现简要分析二者的 1.1.2结构 区别 卷积神经网络是前馈神经网络的一种。卷积神 1.2.1受限制玻尔兹曼机 经网络的模型如图1所示,它是一个多层的神经网 受限制玻尔兹曼机(restricted Boltzmann ma- 络,每层由多个二维平面组成,而每个平面由多个独 chine,RBM)是一类无向图模型[a],由可视层和隐含 立神经元组成。传统的神经网络层与层之间神经元 层组成,与玻尔兹曼机(Boltzmann machine,BM)不 采取全连接方式,而卷积神经网络采用稀疏连接方 同,层内无连接,层间有连接。这种结构更易于计算 式,即每个特征图上的神经元只连接上一层的一个 隐含层单元与可视层单元的条件分布)。受限制 小区域的神经元连接。 玻尔兹曼机的训练方式通常采用对比散度方(cot- C,特征 ,特征层 rastive divergence,.CD)。常见的玻尔兹曼机的演变 C,特征层 输入层 特征层 特征层 特征层输出层 模型如图2所示。 输 BM 卷莲类 卷积 下采样L卷积下采样1接1器 RBM 图1卷积神经网络模型 CRBM SRBM SGRBM CRBM Fig.1 Convolutional neural network model 卷积神经网络的低隐含层是由卷积层和最大池 图2玻尔兹曼机演变模型 采样层交替组成,高层通常是全连接层作为分类器 Fig.2 The evolution model of boltzmann machine
型结构,以深度学习的核心模型结构而展开。 文献 [7]从深度学习结构进行展开,本文大量增加了近 3 年新的研究成果,因此能够更准确地反映该领域的 最新研究进展。 本文依据模型结构,着重介绍 4 种典型的深度 学习模型,即卷积神经网络、深度信念网络、深度玻 尔兹曼机、堆叠自动编码器。 下面对这些模型进行 描述。 1 深度学习典型模型 1.1 卷积神经网络 1.1.1 历史 卷积神经网络 ( convolutional neural networks, CNN)最早在 20 世纪 80 年代就已被提出,是由于在 研究猫脑皮层时受到的启发。 它的典型模型 LeNet⁃ 5 [8]系统,在 MNIST 上得到了 0.9%的错误率,并在 20 世纪 90 年代就已用于银行的手写支票识别[7] 。 但是,由于在大尺寸图像上没有好的效果,一度被人 忽视。 随着高效的 GPU 计算的兴起,直到 2012 年 Hinton 在 ImageNet 问题的成功,才使它在近几年流 行起来[9] 。 如今卷积神经网络已经成为众多科学 领域的研究热点之一,特别是在图像识别领域。 由 于该网络避免了对图像的复杂前期预处理,可以直 接输入原始图像,因而得到了广泛的应用。 1.1.2 结构 卷积神经网络是前馈神经网络的一种。 卷积神 经网络的模型如图 1 所示,它是一个多层的神经网 络,每层由多个二维平面组成,而每个平面由多个独 立神经元组成。 传统的神经网络层与层之间神经元 采取全连接方式,而卷积神经网络采用稀疏连接方 式,即每个特征图上的神经元只连接上一层的一个 小区域的神经元连接。 图 1 卷积神经网络模型 Fig.1 Convolutional neural network model 卷积神经网络的低隐含层是由卷积层和最大池 采样层交替组成,高层通常是全连接层作为分类器 使用。 首先,为了降低网络的复杂性,卷积神经网络采 用权重共享方式,即同一个特征图,卷积核是一样 的[10] ;其次,对得到的特征输入给一个非线性函数, 比如 ReLU 等;最后,再采取下采样方法,比如最大 池化等。 下采样的作用是把语义上相似的特征合并 起来,这是因为形成一个主题的特征的相对位置不 太一样[1] 。 1.1.3 训练方式 卷积神经网络的训练采用有监督训练方式。 首 先是向前传播,即输入 X 经过卷积神经网路后变为 输出 O,再将 O 与标签进行比较,然后以向后传播的 方式,到将所得误差传播到每个节点,根据权值更新 公式,更新相应的卷积核权值[4,6] 。 此外,以卷积神经网络为核心的深度学习网络 还有 3⁃D 卷积神经网络 ( 3⁃D convolutional neural networks, 3D⁃CNN)) [11] , 光 谱 网 络 ( spectral net⁃ works,SN) [12] ,金字塔卷积神经网络( pyramid conv⁃ olutional neural networks,PCNN) [13] ,多级金字塔卷 积神经网络(multi level pyamid convolutional neural networks,MLPCNN) [14]等。 1.2 受限制玻尔兹曼机为核心的深度网络 受限制玻尔兹曼机为核心的深度网络有 2 种: 深度信念网和深度玻尔兹曼机。 现简要分析二者的 区别。 1.2.1 受限制玻尔兹曼机 受限制玻尔兹曼机 ( restricted Boltzmann ma⁃ chine,RBM)是一类无向图模型[4] ,由可视层和隐含 层组成,与玻尔兹曼机(Boltzmann machine,BM) 不 同,层内无连接,层间有连接。 这种结构更易于计算 隐含层单元与可视层单元的条件分布[5] 。 受限制 玻尔兹曼机的训练方式通常采用对比散度方( cont⁃ rastive divergence,CD)。 常见的玻尔兹曼机的演变 模型如图 2 所示。 图 2 玻尔兹曼机演变模型 Fig.2 The evolution model of boltzmann machine ·568· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·569· 受限制玻尔滋曼机的演变模型有卷积受限制玻 DDBN)[2]等。 尔a兹曼机(convolutional restricted Boltzmann ma- 1.2.3深度玻尔兹曼机 chine,CRBM)【s]、稀疏受限制玻尔兹曼机(sparse 深度玻尔兹曼机(deep Boltzmann machine, restricted Boltzmann machine,SRBM)Iu6]、稀疏组受 DBM)与深度信念网络相似,都是以受限制玻尔滋 限制玻尔兹曼机(sparse group restricted Boltzmann 曼机叠加而成。但是,与深度信念网络不同,层间均 machine,SGRBM)【)、分类受限制玻尔兹曼机(class 为无向连接,省略了由上至下的反馈参数调节。训 restricted Boltzmann machine,CRBM)[u8]等。更详细 练方式也与深度信念网络相似,先采用无监督预训 的描述内容参见文献[19]。 练方法,得到初始权值,再运用场均值算法,最后采 1.2.2深度信念网络 用有监督微方式进行微调。 深度信念网络(deep belief networks,DBN)是由 1.3堆叠自动编码器 多个受限制玻尔兹曼机(RBM)叠加而成的深度网 1.3.1自动编码器 络。深度信念网络的典型结构如图3所示,它通过 自动编码器(auto encoder,AE)由编码器与解码 无监督预训练和有监督微调来训练整个深度信念网 器组成,其原理如图4所示。核心思想是将输入信 络)。预训练时用无标签数据单独训练每一层受 号进行编码,使用编码之后的信号重建原始信号,目 限制玻尔兹曼机,通过自下而上的方式,将下层受限 的是让重建信号与原始信号相比重建误差最小[2]。 制玻尔兹曼机输出作为上层受限制玻尔兹曼机输 编码器将输入数据映射到特征空间,解码器将特征 入。当预训练完成后,网络会获得一个较好的网络 映射回数据空间,完成对输入数据的重建。 初始值,但这还不是最优的20)。再采用有标签数据 oooooO代码层 去训练网络,误差自顶向下传播,一般采用梯度下降 编码 解码 法对网络进行微调。深度信念网络的出现是深度学 输入层ooooO oooooo输出层 习的转折点,目前深度信念网络已应用于语音、图像 处理等方面,尤其是在大数据方面[0]。 图4自动编码器原理图 Fig.4 The illustration of autoencoder 标签单位 自动编码器演化的模型如图5所示,自动编码 顶层单元 器演化的模型有去噪自动编码器(denoising auto en- coder,DAE)[2]、稀疏自动编码器(sparse auto en- 隐含层单元 coder,SAE)[2]、收缩自动编码器(contractive auto encoder,CAE)[2)]、卷积自动编码(convolutional auto 隐含层单元 encoder,.CAE)[2]等。更详细的描述内容参见文献 检测权值 生成权值 [29-31]。 隐含层单元 AE 隐含层 权值 RBM DAE 可视层 图5自动编码器的演变模型 输入 Fig.5 The evolution model of autoencoder 图3深度信念网络典型结构 1.3.2堆叠自动编码器原理 Fig.3 The illustration of deep belief network framework 堆叠自动编码器(stacked auto encoders,SAE) 深度信念网络的变种模型有卷积深度信念网 与深度信念网络类似,其结构如图6所示,都是由简 (convolutional deep belief networks,CDBN)[2)、稀疏 单结构叠加起来的深层网络。简单来说,就是将 深度信念网(sparse deep belief networks.,SDBN)Ia) DBN中的RBM替换成AE就得到了SAE。自动编 判别深度信念网(discriminative deep belief networks, 码器的训练过程也是使用贪心逐层预训练算法,但
受限制玻尔兹曼机的演变模型有卷积受限制玻 尔 兹 曼 机 ( convolutional restricted Boltzmann ma⁃ chine,CRBM) [15] 、稀疏受限制玻尔兹曼机( sparse restricted Boltzmann machine, SRBM) [16] 、稀疏组受 限制玻尔兹曼机( sparse group restricted Boltzmann machine,SGRBM) [17] 、分类受限制玻尔兹曼机(class restricted Boltzmann machine,CRBM) [18] 等。 更详细 的描述内容参见文献[19]。 1.2.2 深度信念网络 深度信念网络(deep belief networks,DBN)是由 多个受限制玻尔兹曼机(RBM)叠加而成的深度网 络。 深度信念网络的典型结构如图 3 所示,它通过 无监督预训练和有监督微调来训练整个深度信念网 络[7] 。 预训练时用无标签数据单独训练每一层受 限制玻尔兹曼机,通过自下而上的方式,将下层受限 制玻尔兹曼机输出作为上层受限制玻尔兹曼机输 入。 当预训练完成后,网络会获得一个较好的网络 初始值,但这还不是最优的[20] 。 再采用有标签数据 去训练网络,误差自顶向下传播,一般采用梯度下降 法对网络进行微调。 深度信念网络的出现是深度学 习的转折点,目前深度信念网络已应用于语音、图像 处理等方面,尤其是在大数据方面[10] 。 图 3 深度信念网络典型结构 Fig.3 The illustration of deep belief network framework 深度信念网络的变种模型有卷积深度信念网 (convolutional deep belief networks,CDBN) [21] 、稀疏 深度信念网(sparse deep belief networks,SDBN) [22] 、 判别深度信念网(discriminative deep belief networks, DDBN) [23]等。 1.2.3 深度玻尔兹曼机 深度 玻 尔 兹 曼 机 ( deep Boltzmann machine, DBM)与深度信念网络相似,都是以受限制玻尔兹 曼机叠加而成。 但是,与深度信念网络不同,层间均 为无向连接,省略了由上至下的反馈参数调节。 训 练方式也与深度信念网络相似,先采用无监督预训 练方法,得到初始权值,再运用场均值算法,最后采 用有监督微方式进行微调。 1.3 堆叠自动编码器 1.3.1 自动编码器 自动编码器(auto encoder,AE)由编码器与解码 器组成,其原理如图 4 所示。 核心思想是将输入信 号进行编码,使用编码之后的信号重建原始信号,目 的是让重建信号与原始信号相比重建误差最小[24] 。 编码器将输入数据映射到特征空间,解码器将特征 映射回数据空间,完成对输入数据的重建。 图 4 自动编码器原理图 Fig.4 The illustration of autoencoder 自动编码器演化的模型如图 5 所示,自动编码 器演化的模型有去噪自动编码器(denoising auto en⁃ coder,DAE) [25] 、稀疏自动编码器( sparse auto en⁃ coder,SAE) [26] 、收缩自动编码器 ( contractive auto encoder,CAE) [27] 、卷积自动编码( convolutional auto encoder,CAE) [28]等。 更详细的描述内容参见文献 [29⁃31]。 图 5 自动编码器的演变模型 Fig.5 The evolution model of autoencoder 1.3.2 堆叠自动编码器原理 堆叠自动编码器( stacked auto encoders,SAE) 与深度信念网络类似,其结构如图 6 所示,都是由简 单结构叠加起来的深层网络。 简单来说,就是将 DBN 中的 RBM 替换成 AE 就得到了 SAE。 自动编 码器的训练过程也是使用贪心逐层预训练算法,但 第 5 期 刘帅师,等:深度学习方法研究新进展 ·569·
·570 智能系统学报 第11卷 因为是通过重构误差来进行训练,相比较而言比受 语言模型时在谷歌语音搜索任务词错率达到 限制玻尔兹曼机训练容易[)。 14.2%,当结合语言模型时词错率达到11.2%。 以自动编码器及其变种模型的为核心的深度网 2.2计算机视觉 络称之为深度自动编码(deep auto encoders,DAE)。 2012年Hinton[39]和他的2个学生在著名的m- 文献[32]对深度自动编码器进行了详细的描述。 ageNet问题上用更深的卷积神经网络取得世界最好 堆叠自动编码器就是一种典型的深度自动编码。类 结果,赢得了冠军,使得图像识别大踏步前进。随 似的还有堆叠去噪自动编码器(stacked denoising 后,深度学习在图像处理方面取得突破性进展,如物 auto-encoders,SDAE)[2]、堆叠稀疏自动编码器 体定位[o]、脸部识别[4]和人体姿势估计[2]等。 (stacked sparse auto encoders,SSAE)[3]等。 2015年深海团队[4)利用卷积神经网络对3万个例 子进行121种浮游生物分类。Denton等[4]利用卷 第n层 000 重构 积神经网络通过用户的性别、年龄、城市和图片等特 AE 构造1 00 征进行整合。在Facebook上对用户上传的图片进 0000 行标签、分类。 第2层 构造 重构 2.2.1图像语义分割 AE ○OOO O0O 图像包括很多层信息,例如这幅图像是否有特 第1层 构造「 重构 定的物体(如汽车)。所谓的图像语义分割,就是描 AE OOO○ ○○OO 述图片中包含哪些物体、包括街头的场景分割、三维 扫描、对3-D人体解剖分割定位等。因为是基于像 图6堆叠自动编码器结构 Fig.6 The illustration of stacked Autoencoder framework 素分类方法,所以这个问题会带来巨大的计算量。 2015年Long等[4]提出了利用全卷积网络(fly 2深度学习应用 convolutional networks,FCN,)的概念去进行图像语 义分割。同年Behnke等[6]提出了语义RGB-D感 2.1语音处理 知器的概念,使得基于深度学习的图像语义分割得 长期以来,语音识别技术普遍采用的是声学模 型混合高斯模型。但这种混合高斯模型本质上是一 到进一步发展。 2.2.2人脸识别 种浅层网络建模,不能充分描述特征的状态空间分 Linkface开发了基于深度学习的人脸检测创新 布3)。2011年微软[3)将深度学习引入语音识别领 算法。无论场景中是单人还是多人,是侧脸、半遮 域,提出深度神经网络DNN,本质上是把混合高斯 挡还是模糊等情景中,均能进行精准检测。据全球 模型替换成了深度神经网络模型大大提高识别率。 最具权威的人脸检测评测平台FDDB最新数据, 该模型在Switchboard标准数据集上的识别错误率 Linkface的人脸检测算法达到了世界领先的水平。 比最低错误率降低了33%。2014年Van等6在网 2014年Facebook开发一种叫DeepFacet)技术。其 络音乐平台Spotify使用深度卷积神经网络做基于 贡献在于对人脸对齐和人脸表示环节的改进。通过 内容的音乐推荐,以及实现依靠音频信号预测听众 革新的3-D人脸建模勾勒出脸部特征,然后通过颜 的收听喜好,然后采用WMF(weighted matrix factori- 色过滤做出一个刻画特定脸部元素的平面模型。 zation)模型进行评分预测。百度的深度学习语音识 Facebook建立了一个来自于4030个人的440万张 别系统DeepSpeech[]可以在饭店等嘈杂环境下实 标签化的人脸池,Facebook称这是迄今为止最大规 现将近81%的辨识准确率。2015年Chan等38]提 模的人脸池。它是一个拥有9层的深度卷积神经网 出了LAS(listen,attend and spell)系统。该系统利 络,网络有超过1.2亿个参数。该技术在LFW数据 用金字塔式双向的RNN网络。不同于传统的模型, 集上取得了97.25%的平均精度.已经接近人类的识 不需要完整的端对端的CTC(connectionist temporal 别水平。2015年Google提出FaceNet!)]进行人脸 classification),实现跳过音素直接把语音识别为字 验证。它直接学习图像到欧式空间上点的映射,然 符,合成了约4万小时音频。当不依赖语音词典和 后基于这个编码再做人脸识别、人脸验证和人脸聚
因为是通过重构误差来进行训练,相比较而言比受 限制玻尔兹曼机训练容易[7] 。 以自动编码器及其变种模型的为核心的深度网 络称之为深度自动编码(deep auto encoders,DAE)。 文献[32] 对深度自动编码器进行了详细的描述。 堆叠自动编码器就是一种典型的深度自动编码。 类 似的还有堆叠去噪自动编码器( stacked denoising auto⁃encoders, SDAE ) [25] 、 堆 叠 稀 疏 自 动 编 码 器 (stacked sparse auto encoders,SSAE) [33]等。 图 6 堆叠自动编码器结构 Fig.6 The illustration of stacked Autoencoder framework 2 深度学习应用 2.1 语音处理 长期以来,语音识别技术普遍采用的是声学模 型混合高斯模型。 但这种混合高斯模型本质上是一 种浅层网络建模,不能充分描述特征的状态空间分 布[34] 。 2011 年微软[35]将深度学习引入语音识别领 域,提出深度神经网络 DNN,本质上是把混合高斯 模型替换成了深度神经网络模型大大提高识别率。 该模型在 Switchboard 标准数据集上的识别错误率 比最低错误率降低了 33%。 2014 年 Van 等[36] 在网 络音乐平台 Spotify 使用深度卷积神经网络做基于 内容的音乐推荐,以及实现依靠音频信号预测听众 的收听喜好,然后采用 WMF(weighted matrix factori⁃ zation)模型进行评分预测。 百度的深度学习语音识 别系统 DeepSpeech [37] 可以在饭店等嘈杂环境下实 现将近 81% 的辨识准确率。 2015 年 Chan 等[38] 提 出了 LAS( listen, attend and spell )系统。 该系统利 用金字塔式双向的 RNN 网络。 不同于传统的模型, 不需要完整的端对端的 CTC( connectionist temporal classification),实现跳过音素直接把语音识别为字 符,合成了约 4 万小时音频。 当不依赖语音词典和 语言 模 型 时 在 谷 歌 语 音 搜 索 任 务 词 错 率 达 到 14.2%,当结合语言模型时词错率达到11.2%。 2.2 计算机视觉 2012 年 Hinton [39]和他的 2 个学生在著名的 Im⁃ ageNet 问题上用更深的卷积神经网络取得世界最好 结果,赢得了冠军,使得图像识别大踏步前进。 随 后,深度学习在图像处理方面取得突破性进展,如物 体定位[40] 、 脸部识别[41] 和人体姿势估 计[42] 等。 2015 年深海团队[43]利用卷积神经网络对 3 万个例 子进行 121 种浮游生物分类。 Denton 等[44] 利用卷 积神经网络通过用户的性别、年龄、城市和图片等特 征进行整合。 在 Facebook 上对用户上传的图片进 行标签、分类。 2.2.1 图像语义分割 图像包括很多层信息,例如这幅图像是否有特 定的物体(如汽车)。 所谓的图像语义分割,就是描 述图片中包含哪些物体、包括街头的场景分割、三维 扫描、对 3⁃D 人体解剖分割定位等。 因为是基于像 素分类方法,所以这个问题会带来巨大的计算量。 2015 年 Long 等[45] 提出了利用全卷积网络 ( fully convolutional networks,FCN,) 的概念去进行图像语 义分割。 同年 Behnke 等[46] 提出了语义 RGB⁃D 感 知器的概念,使得基于深度学习的图像语义分割得 到进一步发展。 2.2.2 人脸识别 Linkface 开发了基于深度学习的人脸检测创新 算法 。 无论场景中是单人还是多人,是侧脸、半遮 挡还是模糊等情景中,均能进行精准检测。 据全球 最具权威的人脸检测评测平台 FDDB 最新数据, Linkface 的人脸检测算法达到了世界领先的水平。 2014 年 Facebook 开发一种叫 DeepFace [41]技术。 其 贡献在于对人脸对齐和人脸表示环节的改进。 通过 革新的 3⁃D 人脸建模勾勒出脸部特征,然后通过颜 色过滤做出一个刻画特定脸部元素的平面模型。 Facebook 建立了一个来自于 4 030 个人的 440 万张 标签化的人脸池,Facebook 称这是迄今为止最大规 模的人脸池。 它是一个拥有 9 层的深度卷积神经网 络,网络有超过 1.2 亿个参数。 该技术在 LFW 数据 集上取得了 97.25%的平均精度,已经接近人类的识 别水平。 2015 年 Google 提出 FaceNet [47] 进行人脸 验证。 它直接学习图像到欧式空间上点的映射,然 后基于这个编码再做人脸识别、人脸验证和人脸聚 ·570· 智 能 系 统 学 报 第 11 卷
第5期 刘帅师,等:深度学习方法研究新进展 ·571· 类等。其中两张图像所对应的特征欧式空间上的点 的数据集上准确率达到47.67%。 之间的距离直接对应着两个图像是否相似。 2.3自然语言处理 FaceNet并没有像DeepFace和DeepID那样需要对 Sashihithlu等eo]采用递归自编码方法(recur- 齐。FaceNet得到最终表示后不用像DeepID那样需 sive auto encoders,RAE)来解决较为复杂的情感分 要再训练模型进行分类,直接计算距离就可以,简单 析问题。Johnson等[6l]提出一种基于卷积神经网络 而有效。在Youtube数据集上测试准确率为95.12%。 直接在词袋模型(BoW)上用做文本分类任务。 目前,传统人脸识别技术主要集中在可见光谱 2015年谷歌的Good等利用深度神经网络开发了字 的范畴,对于跨模态人脸识别问题尚无好的解决方 镜头(word lens)实时视频翻译性能和通话实时翻译 法。2015年Sarfraz等[48]利用深度神经网络,成功 功能。它可以实现拿着手机摄像头对着实物,实物 将红外热图像与可见光图像进行匹配,实现了跨模 中的文字就可被即时识别出,并被翻译成目标语言, 态人脸匹配。该网络可以在短短35ms的时间内,能 目前该技术可支持20多种语言的即时视觉翻译。 够将红外热图像匹配到其可见光图像,可以实现实 更重要的是即使它在不联网的状态下也能进行工 时运行。 作,所有深度学习的庞大计算都是在手机上完成的。 2.2.3表情识别 李婷等[6]利用堆叠去噪自动编码器(stack denoising 目前,大部分研究者把卷积神经网络应用在表 auto encoder,SDAE)识别盲文。 情识别上。例如,2013年Liu等[4提出了构建一个 2.4、医疗应用 新的深层结构(AU-aware deep networks,AUDN),基 Deep Genomics公司开始把基因组和深度学习 于卷积神经网络进行特征提取,连接SVM做表情分 结合起来,Deep Genomics已经推出了他们的第一款 类器。2014年0 uellet等[so0]使用卷积神经网络对电 产品SPIDEX。只需将测试结果和细胞类型导入, 脑前的游戏玩家进行实时表情识别。Somg等[s)]利 SPIDEX便可分析出某一变异对RNA剪切的影响, 用了一种5层卷积神经网络,实现了每幅图像在服 并计算出该变异与疾病之间的关系。Koziol等[] 务器的预测时间为50ms,每个图像的往返时间小 利用一种受限玻尔兹曼机用于肝细胞癌的分类。 于100ms,在智能手机上实现实时表情识别。jia 2015年Fauw等[641利用20多层的卷积神经网络检 等[s2]用Kinect深度传感器得到的图片作为表情识 测糖尿病视网膜病变的眼底图像。 别的对象,并在卷积神经网络进行表情识别取得了 较好的效果。Byeon等s使用3D卷积神经网络去 3模型总结及面临的挑战 识别视频人脸表情。文献[54]证明在实时表情识 3.1深度学习模型 别系统,卷积神经网络比深层神经网络具有更好的 本文对深度学习模型进行分类、概括,在此以模 效果。 型的结构为序,对深度学习模型进行总结如表1~表 还有一部分研究者利用其他深度学习模型进行 3所示。 表情识别。例如,McLaughlin等[s提出一种基于深 1)模型结构。目前,大部分的深度学习模型都 度信念网络的实时表情识别系统,但只能检测4种 是以卷积神经网络、深度信念网络、深度玻尔滋曼 表情。2013年He等[]利用深度玻尔兹曼机对红 机、堆叠自动编码器等几种基本模型为基础演变而 外热图像进行表情识别。 来。除此之外,还有像递归神经网络(recurrentneu- 此外,一些研究者们将多种深度学习模型结合 ral networks,RNN)[、深度凸形网络(deep convex 起来进行表情识别。例如,2014年LYU等s)将深 net,DCN)【]等其他类型的新型深度模型。 度信念网络与自编码器相结合来进行识别。2015 2)训练方式。深度学习模型的训练方式主要 年Jung等s]将卷积神经网络与深度神经网络合起 有有监督学习和无监督学习2种。训练方式因模型 来。Kahou等s9提出一种视频表情识别系统 结构而异,一般以卷积神经网络为核心的模型一般 EmoNets。卷积神经网络捕捉视频信息,检测人脸。 采取有监督训练方式。而以受限制玻尔兹曼机与自 深度信念网络捕捉音频信息,自编码器捕捉人肢体 动编码器为核心的模型,大部分采用无监督学习方 行为。该理论赢得了2013 EmotiW挑战赛,在2014 式预训练,配合有监督微调模式进行参数训练
类等。 其中两张图像所对应的特征欧式空间上的点 之间 的 距 离 直 接 对 应 着 两 个 图 像 是 否 相 似。 FaceNet 并没有像 DeepFace 和 DeepID 那样需要对 齐。 FaceNet 得到最终表示后不用像 DeepID 那样需 要再训练模型进行分类,直接计算距离就可以,简单 而有效。 在 Youtube 数据集上测试准确率为95.12%。 目前,传统人脸识别技术主要集中在可见光谱 的范畴,对于跨模态人脸识别问题尚无好的解决方 法。 2015 年 Sarfraz 等[48] 利用深度神经网络,成功 将红外热图像与可见光图像进行匹配,实现了跨模 态人脸匹配。 该网络可以在短短35 ms的时间内,能 够将红外热图像匹配到其可见光图像,可以实现实 时运行。 2.2.3 表情识别 目前,大部分研究者把卷积神经网络应用在表 情识别上。 例如,2013 年 Liu 等[49]提出了构建一个 新的深层结构(AU⁃aware deep networks,AUDN),基 于卷积神经网络进行特征提取,连接 SVM 做表情分 类器。 2014 年 Ouellet 等[50]使用卷积神经网络对电 脑前的游戏玩家进行实时表情识别。 Song 等[51] 利 用了一种 5 层卷积神经网络,实现了每幅图像在服 务器的预测时间为 50 ms,每个图像的往返时间小 于 100 ms,在智能手机上实现实时表情识别。 Ijjina 等[52]用 Kinect 深度传感器得到的图片作为表情识 别的对象,并在卷积神经网络进行表情识别取得了 较好的效果。 Byeon 等[53] 使用 3D 卷积神经网络去 识别视频人脸表情。 文献[54] 证明在实时表情识 别系统,卷积神经网络比深层神经网络具有更好的 效果。 还有一部分研究者利用其他深度学习模型进行 表情识别。 例如,McLaughlin 等[55] 提出一种基于深 度信念网络的实时表情识别系统,但只能检测 4 种 表情。 2013 年 He 等[56] 利用深度玻尔兹曼机对红 外热图像进行表情识别。 此外,一些研究者们将多种深度学习模型结合 起来进行表情识别。 例如,2014 年 LYU 等[57] 将深 度信念网络与自编码器相结合来进行识别。 2015 年 Jung 等[58] 将卷积神经网络与深度神经网络合起 来。 Kahou 等[59] 提 出 一 种 视 频 表 情 识 别 系 统 EmoNets。 卷积神经网络捕捉视频信息,检测人脸。 深度信念网络捕捉音频信息,自编码器捕捉人肢体 行为。 该理论赢得了 2013 EmotiW 挑战赛,在 2014 的数据集上准确率达到 47.67%。 2.3 自然语言处理 Sashihithlu 等[60] 采用递归自编码方法( recur⁃ sive auto encoders,RAE) 来解决较为复杂的情感分 析问题。 Johnson 等[61]提出一种基于卷积神经网络 直接在词袋模型 ( BoW) 上用做文 本 分 类 任 务。 2015 年谷歌的 Good 等利用深度神经网络开发了字 镜头(word lens)实时视频翻译性能和通话实时翻译 功能。 它可以实现拿着手机摄像头对着实物,实物 中的文字就可被即时识别出,并被翻译成目标语言, 目前该技术可支持 20 多种语言的即时视觉翻译。 更重要的是即使它在不联网的状态下也能进行工 作,所有深度学习的庞大计算都是在手机上完成的。 李婷等[62]利用堆叠去噪自动编码器(stack denoising auto encoder,SDAE)识别盲文。 2.4 医疗应用 Deep Genomics 公司开始把基因组和深度学习 结合起来,Deep Genomics 已经推出了他们的第一款 产品 SPIDEX。 只需将测试结果和细胞类型导入, SPIDEX 便可分析出某一变异对 RNA 剪切的影响, 并计算出该变异与疾病之间的关系。 Koziol 等[63] 利用一种受限玻尔兹曼机用于肝细胞癌的分类。 2015 年 Fauw 等[64]利用 20 多层的卷积神经网络检 测糖尿病视网膜病变的眼底图像。 3 模型总结及面临的挑战 3.1 深度学习模型 本文对深度学习模型进行分类、概括,在此以模 型的结构为序,对深度学习模型进行总结如表 1~表 3 所示。 1)模型结构。 目前,大部分的深度学习模型都 是以卷积神经网络、深度信念网络、深度玻尔兹曼 机、堆叠自动编码器等几种基本模型为基础演变而 来。 除此之外,还有像递归神经网络( recurrentneu⁃ ral networks,RNN) [74] 、深度凸形网络( deep convex net,DCN) [75]等其他类型的新型深度模型。 2)训练方式。 深度学习模型的训练方式主要 有有监督学习和无监督学习 2 种。 训练方式因模型 结构而异,一般以卷积神经网络为核心的模型一般 采取有监督训练方式。 而以受限制玻尔兹曼机与自 动编码器为核心的模型,大部分采用无监督学习方 式预训练,配合有监督微调模式进行参数训练。 第 5 期 刘帅师,等:深度学习方法研究新进展 ·571·