·6 智能系统学报 第14卷 部最优解。也有研究表明,预训练能够起到正 隐层 则化的作用,增强模型的推广能力(泛化性能)。 3.2卷积神经网络 卷积神经网络(convolutional neural network, 可见层 (b3 CNN)是一种深层前馈型神经网络,最常用于图 3 (a)限制性玻耳兹曼(RBM 像领域的监督学习问题,比如图像识别、计算机 视觉等。早在1989年,LeCun等就提出了最初 隐层3 000000000 的CNN模型,并在之后进行了完善,在AlexNet 取得2012年ImageNet竞赛冠军之后2,CNN在 隐层2 000000000 图像识别领域几乎成为深度学习的代名词,在其 他领域中也得到越来越多的应用。 隐层1 ○○OOOO○OO 卷积神经网络通常包含卷积层、降采样层、 RBM 全连接层与输出层,卷积层和降采样层可以有多 可见层○○○○○○○○○) 个。一个经典卷积神经网络LeNet如图4a)所示。 (b)深度置信网络 卷积层的作用是进行特征提取。对于一幅输 入图像,一层卷积层中包含多个卷积核,每个卷 图3限制性玻耳兹曼机与深度置信网络 Fig.3 Restricted Boltzmann machine and deep belief net- 积核都能与输入图像进行卷积运算产生新的图 work 像,新图像上的每个像素即卷积核所覆盖的一小 为了达到刻画原数据分布的目的,希望理论 片区域内图像的一种特征,用多个卷积核分别对 的边缘分布p()与实际观测到的数据分布q)尽 图像进行卷积即可提取不同种类的特征。比如, 可能相吻合,于是应用KL散度作为衡量分布相 在图4(a)的例子中,C,层中输人为6幅特征图, 似程度的指标,也就是我们的训练目标: 包含16个卷积核,最终产生了16幅特征图的输 KL(glp)=∑qn(g》-∑qn(p(w 出,本层的特征图是上一层提取到的特征图的不 同组合。 式中:2为参数空间;左边第一项表示数据的熵,为常 数项:左边第项可用样本进行估计.即2加(0 6×28×28 ×32×32 6×14×14 6×10×10 120x1×1 16×5x5 ×1 84 原始 10x1 图像 其中S为样本集。这样KL散度的优化问题可以 转化为最大似然问题,求解过程仍然使用梯度下 卷积层 层 降法更新参数。与自编码机类似,限制性玻耳兹 曼机也可以通过增加惩罚项的方式来获取样本的 (a)经典卷积神经网络LeNet 稀疏特征表示o。 全连接层 在深度学习的应用中,自编码机与限制性玻 全连接层 耳兹曼机常常用于参数的预训练。如图3(b)所 全连接层 示,可以将自编码机和限制性玻耳兹曼机堆叠起 降采样层,核3×3,步幅2 来构成深度置信网络1。该网络可以采用逐层 卷积层,核3×3,步幅1 训练的方式训练参数,即每轮训练中,输入固定 卷积层,核3×3,步幅1 不变,训练网络得到一层的参数与输出,将输出 卷积层,核3×3,步幅1 传输到下一层网络中并固定,之后训练得到下一 降采样层,核3×3,步幅2 层网络的参数,如此循环直至每一层自编码机与 卷积层.核5×5.步幅2 限制性玻耳兹曼机都训练完成。训练完成之后, 可以将网络参数保留组成多层感知器进行监督学 降采样层,核3×3,步幅2 卷积层,核11×11.步幅4 习任务,使用BP算法对预训练的参数初始值进 行微调。这样初始化多层感知器的方式能够将初 人 始值放在一个较好的地方,从而收敛到较好的局 (b)深度卷积神经网络AlexNet
p(v) q(v) 为了达到刻画原数据分布的目的,希望理论 的边缘分布 与实际观测到的数据分布 尽 可能相吻合,于是应用 KL 散度作为衡量分布相 似程度的指标,也就是我们的训练目标: KL(q||p) = ∑ v∈Ω q(v)ln(q(v))− ∑ v∈Ω q(v)ln(p(v)) 1 l ∑ v∈S ln(p(v)) S 式中:Ω 为参数空间;左边第一项表示数据的熵,为常 数项;左边第二项可用样本进行估计,即 , 其中 为样本集。这样 KL 散度的优化问题可以 转化为最大似然问题,求解过程仍然使用梯度下 降法更新参数。与自编码机类似,限制性玻耳兹 曼机也可以通过增加惩罚项的方式来获取样本的 稀疏特征表示[40]。 在深度学习的应用中,自编码机与限制性玻 耳兹曼机常常用于参数的预训练。如图 3(b) 所 示,可以将自编码机和限制性玻耳兹曼机堆叠起 来构成深度置信网络[41-42]。该网络可以采用逐层 训练的方式训练参数,即每轮训练中,输入固定 不变,训练网络得到一层的参数与输出,将输出 传输到下一层网络中并固定,之后训练得到下一 层网络的参数,如此循环直至每一层自编码机与 限制性玻耳兹曼机都训练完成。训练完成之后, 可以将网络参数保留组成多层感知器进行监督学 习任务,使用 BP 算法对预训练的参数初始值进 行微调。这样初始化多层感知器的方式能够将初 始值放在一个较好的地方,从而收敛到较好的局 部最优解[36]。也有研究表明,预训练能够起到正 则化的作用,增强模型的推广能力 (泛化性能) [39]。 3.2 卷积神经网络 卷积神经网络 (convolutional neural network , CNN) 是一种深层前馈型神经网络,最常用于图 像领域的监督学习问题,比如图像识别、计算机 视觉等。早在 1989 年,LeCun 等 [43] 就提出了最初 的 CNN 模型,并在之后进行了完善[44] ,在 AlexNet 取得 2012 年 ImageNet 竞赛冠军之后[25] ,CNN 在 图像识别领域几乎成为深度学习的代名词,在其 他领域中也得到越来越多的应用。 卷积神经网络通常包含卷积层、降采样层、 全连接层与输出层,卷积层和降采样层可以有多 个。一个经典卷积神经网络 LeNet 如图 4(a) 所示。 卷积层的作用是进行特征提取。对于一幅输 入图像,一层卷积层中包含多个卷积核,每个卷 积核都能与输入图像进行卷积运算产生新的图 像,新图像上的每个像素即卷积核所覆盖的一小 片区域内图像的一种特征,用多个卷积核分别对 图像进行卷积即可提取不同种类的特征。比如, 在图 4(a) 的例子中,C2 层中输入为 6 幅特征图, 包含 16 个卷积核,最终产生了 16 幅特征图的输 出,本层的特征图是上一层提取到的特征图的不 同组合。 (b) 深度置信网络 ... ... 隐层 可见层 W cn c1 c2 c3 h1 h2 h3 hn bn b1 b2 b3 v1 v2 v3 vn 隐层3 隐层2 隐层1 可见层 RBM (a) 限制性玻耳兹曼 (RBM) 图 3 限制性玻耳兹曼机与深度置信网络 Fig. 3 Restricted Boltzmann machine and deep belief network (a) 经典卷积神经网络 LeNet 1×32×32 6×28×28 6×14×14 16×10×10 16×5×5 120×1×1 84×1×1 原始 10×1×1 图像 全连接层 F2 卷积层 C3 (1 920 核) 卷积层 C1 (6 核) 卷积层 C2 (16 核) 降采样层 S1 降采样层 S2 全连接层 F1 全连接层 全连接层 全连接层 降采样层,核 3×3,步幅 2 卷积层,核 5×5,步幅 2 降采样层,核 3×3,步幅 2 卷积层,核 11×11,步幅 4 降采样层,核 3×3,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 输入 (b) 深度卷积神经网络 AlexNet ·6· 智 能 系 统 学 报 第 14 卷
第1期 胡越,等:关于深度学习的综述与讨论 。7· 全连接层 入 全连接层 7×7卷积,64核,步幅2 全连接层 降采样,步幅2 降采样层,核2x2.步幅2 卷积层,核3×3.步幅1 5×3卷积,64网 卷积层.核3×3.步幅1 B×3卷积,64阂 降采样层,核2×2,步幅2 B×3卷积,64摑 卷积层,核3×3,步幅1 B×3卷积,64摑 卷积层,核3×3,步幅1 3×3卷积,64摑 降采样层,核2×2,步幅2 卷积层,核3×3,步幅1 B×3卷积,64摑 卷积层,核3×3,步幅1 3×3卷积,128核,步幅2 降采样层,核2×2,步幅2 ×3卷积,128核 卷积层,核3×3,步幅1 B×3卷积,128核 卷积层,核3×3,步幅1 3×3卷积,128核 降采样层,核2×2,步幅2 卷积层。核3×3,步幅1 B×3卷积,128核 卷积层,核3×3,步幅1 B×3卷积,128枫 入 重复的类似层结构 (c)深度卷积神经网络VGGNet 5×3卷积,256核,步幅2 (输出3 B×3卷积,256核 Softmax B×3卷积,256梭 全连接 B×3卷积,256摑 降采样 (输出2 Inception Softmax B×3卷积,256核 Inception 全连接 5×3卷积,256枫 全连接 降采样 卷积 降采样 Inception 降采样 全连接] Inception 输出 (①深度卷积神经网络ResNet Inception Softmax Inception 全连接 单层网路 Inception 全连接 卷积 F(x) 降采样 降采样 单层网络 Inception Inception F(x)+x 降采样 归一化 (g)ResNetr中的捷径连接Shorteut 卷积 卷积 图4多种深度神经网络示意图 归一化 降采样 Fig.4 Schematics of different deep neural networks struc- 卷积 tures (输) 这样复杂的网络构成,如果直接采用BP算 (d)深度卷积神经网络GoogLeNet 法进行学习将过分复杂,需要适当的设计才能有 级联层】 效地进行学习。卷积层设计背后最重要的思想是 5×5卷积 稀疏连接与权值共享。稀疏连接即每一个输出特 ×1卷积 5×3卷利 ×1卷积 征图的像素都只与上一层特征图的小区域相关。 1×1卷积 ×1卷积 B×3卷积 这一方面契合了动物视觉细胞的感受野现象, 前一层的输出 另一方面能够保证特征具有平移不变性,这在图 (e)GoogLeNetr中的nception单元 像识别领域是非常重要的。权值共享指每次都使
这样复杂的网络构成,如果直接采用 BP 算 法进行学习将过分复杂,需要适当的设计才能有 效地进行学习。卷积层设计背后最重要的思想是 稀疏连接与权值共享。稀疏连接即每一个输出特 征图的像素都只与上一层特征图的小区域相关。 这一方面契合了动物视觉细胞的感受野现象[45] , 另一方面能够保证特征具有平移不变性,这在图 像识别领域是非常重要的。权值共享指每次都使 输入 重复的类似层结构 (f) 深度卷积神经网络ResNet 7 × 7卷积,64核,步幅2 降采样,步幅2 3 × 3卷积,64核 3 × 3卷积,64核 3 × 3卷积,64核 3 × 3卷积,64核 3 × 3卷积,64核 3 × 3卷积,64核 3 × 3卷积,128核 3 × 3卷积,128核 3 × 3卷积,128核 3 × 3卷积,128核 3 × 3卷积,128核 3 × 3卷积,128核,步幅2 3 × 3卷积,256核 3 × 3卷积,256核 3 × 3卷积,256核 3 × 3卷积,256核 降采样 3 × 3卷积,256核 全连接 3 × 3卷积,256核,步幅2 ... (g) ResNet中的捷径连接 Shortcut 单层网络 单层网络 x F (x) F (x) + x 图 4 多种深度神经网络示意图 Fig. 4 Schematics of different deep neural networks structures 输出2 输出1 Softmax 全连接 全连接 卷积 降采样 Softmax 全连接 全连接 卷积 降采样 输入 Inception Inception 降采样 归一化 卷积 卷积 归一化 降采样 卷积 Inception Inception Inception Inception Inception 降采样 Inception Inception 输出3 Softmax 全连接 降采样 降采样 1 × 1卷积 (d) 深度卷积神经网络GoogLeNet 前一层的输出 级联层 (e) GoogLeNet中的Inception单元 1 × 1卷积 1 × 1卷积 1 × 1卷积 3 × 3卷积 3 × 3卷积 5 × 5卷积 全连接层 全连接层 全连接层 降采样层,核 2×2,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 降采样层,核 2×2,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 降采样层,核 2×2,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 降采样层,核 2×2,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 降采样层,核 2×2,步幅 2 卷积层,核 3×3,步幅 1 卷积层,核 3×3,步幅 1 输入 (c) 深度卷积神经网络 VGGNet 第 1 期 胡越,等:关于深度学习的综述与讨论 ·7·