第14卷第1期 智能系统学报 Vol.14 No.1 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201805002 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究 刘彪2,黄蓉蓉,林和,苏伟 (1.兰州大学信息科学与工程学院,甘肃兰州730000:2.解放军69230部队,新疆乌苏833000) 摘要:盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题,信息科学与技术的迅速发展 为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案,但其存在识别效率低和兼 容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验,通过研究提出并设计 了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后,通过多次反复迭代训练,模 型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明,该模型的识别有效性和较强的泛化能力为盲 文音乐作品的识别提供了一种新的解决方案。 关键词:机器学习;盲文音乐识别;卷积神经网络;深度学习;计算机视觉;图像识别;人工智能:图像处理 中图分类号:TP39 文献标志码:A 文章编号:1673-4785(2019)01-0186-08 中文引用格式:刘彪,黄蓉蓉,林和,等.基于卷积神经网络的盲文音乐识别研究.智能系统学报,2019,14(1):186-193. 英文引用格式:LIU Biao,HUANG Rongrong,LNHe,etal.Research on braille music recognition based on convolutional neural networksJ.CAAI transactions on intelligent systems,2019,14(1):186-193. Research on braille music recognition based on convolutional neural networks LIU Biao,HUANG Rongrong',LIN He',SU Wei' (1.School of Information Science and Engineering,Lanzhou University,Lanzhou 730000,China;2.No.69230 Troops of PLA,Wusu 833000.China) Abstract:Blind musicians are confronted with the problems of manual conversion and low efficiency in the communic- ation of musical works.The rapid development of information science and technology has provided many solutions to these problems.However,most of the recognition schemes for braille music works lack recognition efficiency and com- patibility.In consideration of this deficiency,whereby traditional schemes rely heavily on artificial experience in braille music picture extraction,a convolution neural network-based recognition model has been developed.After prepro- cessing the sample data of braille music pictures through repeated iterative training,the recognition model was able learn the characteristics of music notation in braille music pictures.The experimental results showed the recognition ef- fectiveness and strong generalization ability of the model,which provides a new idea for the recognition of braille mu- sic works. Keywords:machine learning;braille music recognition;convolution neural network;deep learning;computer vision; image recognition;artificial intelligence;,image processing 我国的盲人数量约为752万人,是全球盲人 要方式,但用其创作的音乐作品仍然需要人工的 数量最多的国家山。随着从事音乐工作的盲人越 转换和翻译,所以急需一种自动盲文音乐识别方 来越多,盲文成为盲人与常人进行书面交流的主 案。文献[2]最早使用硬件设备采集普通盲文内 容的图片,虽然可通过光学识别出相应内容,但 收稿日期:2018-05-04.网络出版日期:2018-09-30. 基金项目:广西科技计划项目(桂科AA17204096.桂科AD16380076). 是缺乏与用户的交互性。文献[3]设计了一个单 通信作者:林和.E-mail:linhe@lzu.edu.cn. 面盲文图片的智能识别系统,包括图像采集、噪
DOI: 10.11992/tis.201805002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究 刘彪1,2,黄蓉蓉1,林和1,苏伟1 (1. 兰州大学 信息科学与工程学院,甘肃 兰州 730000; 2. 解放军 69230 部队,新疆 乌苏 833000) 摘 要:盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题,信息科学与技术的迅速发展 为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案,但其存在识别效率低和兼 容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验,通过研究提出并设计 了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后,通过多次反复迭代训练,模 型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明,该模型的识别有效性和较强的泛化能力为盲 文音乐作品的识别提供了一种新的解决方案。 关键词:机器学习;盲文音乐识别;卷积神经网络;深度学习;计算机视觉;图像识别;人工智能;图像处理 中图分类号:TP39 文献标志码:A 文章编号:1673−4785(2019)01−0186−08 中文引用格式:刘彪, 黄蓉蓉, 林和, 等. 基于卷积神经网络的盲文音乐识别研究 [J]. 智能系统学报, 2019, 14(1): 186–193. 英文引用格式:LIU Biao, HUANG Rongrong, LIN He, et al. Research on braille music recognition based on convolutional neural networks[J]. CAAI transactions on intelligent systems, 2019, 14(1): 186–193. Research on braille music recognition based on convolutional neural networks LIU Biao1,2 ,HUANG Rongrong1 ,LIN He1 ,SU Wei1 (1. School of Information Science and Engineering, Lanzhou University, Lanzhou 730000, China; 2. No.69230 Troops of PLA, Wusu 833000, China) Abstract: Blind musicians are confronted with the problems of manual conversion and low efficiency in the communication of musical works. The rapid development of information science and technology has provided many solutions to these problems. However, most of the recognition schemes for braille music works lack recognition efficiency and compatibility. In consideration of this deficiency, whereby traditional schemes rely heavily on artificial experience in braille music picture extraction, a convolution neural network-based recognition model has been developed. After preprocessing the sample data of braille music pictures through repeated iterative training, the recognition model was able learn the characteristics of music notation in braille music pictures. The experimental results showed the recognition effectiveness and strong generalization ability of the model, which provides a new idea for the recognition of braille music works. Keywords: machine learning; braille music recognition; convolution neural network; deep learning; computer vision; image recognition; artificial intelligence; image processing 我国的盲人数量约为 752 万人,是全球盲人 数量最多的国家[1]。随着从事音乐工作的盲人越 来越多,盲文成为盲人与常人进行书面交流的主 要方式,但用其创作的音乐作品仍然需要人工的 转换和翻译,所以急需一种自动盲文音乐识别方 案。文献 [2] 最早使用硬件设备采集普通盲文内 容的图片,虽然可通过光学识别出相应内容,但 是缺乏与用户的交互性。文献 [3] 设计了一个单 面盲文图片的智能识别系统,包括图像采集、噪 收稿日期:2018−05−04. 网络出版日期:2018−09−30. 基金项目:广西科技计划项目 (桂科 AA17204096,桂科 AD16380076). 通信作者:林和. E-mail:linhe@lzu.edu.cn. 第 14 卷第 1 期 智 能 系 统 学 报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·187· 声消除、图像分割、特征提取和字符识别等步骤, 1识别模型 其识别率达到94.39%,但使用了固定盲文单元大 小和盲文点的位置来识别盲文符号,其可扩展性 卷积神经网络(convolutional neural network, 极其有限。文献「4]提出了一种用于识别双面盲 CNN因其具有独特的结构1,在进行图像特征 文内容的高效算法,即通过对凸点和凹点的灰度 提取的同时,还能够提取更细节的图像信息。这 值变化来区分正面点和反面点,识别率虽然比较 样不仅解决了多数的传统神经网络中参数较多、 乐观,但其局限性在于当正面点和反面点重叠较 训练缓慢的难题,而且还防止了过拟合的出现。 多时,对每个盲文点的质心检测和识别会出现很 自2016年AlphaGo战胜世界围棋冠军李世石以 多歧义,其识别效果也因此受到较大影响。文 来,卷积神经网络再一次被推向浪潮,尤其是在 献[5-7]采用传统的方法对盲文音乐符号进行识 计算机视觉领域的研究更是大热。卷积神经网络 别,其中文献[7]以MusicXML作为中间桥梁来实 具有了两个很重要的特点: 现盲文的转换,并由此设计了从MusicXML到盲 1)共享权值6”。传统的神经网络中每一层 文乐谱ASCIⅡ码的自动转换软件。文献[8]提出 的权值w仅使用一次,而当下一次使用时便会重 一种基于深度学习模型识别盲文字符的方法,使 新生成不同的权值w。但在卷积网络中,卷积核 用堆叠去噪自动编码器来解决盲文识别过程中特 要与图像中的每个像素值(输入向量)进行卷积 征自动提取与降维等问题,利用SDAE自动学习 运算,所以仅需要一组权值即可。当输入向量与 盲文点字的图片特征,使用Softmax分类器进行 该组权值运算完毕时,则表明该次卷积操作结 盲文识别。文献[9]提出将双面阿姆哈拉盲文图 束。共享权值的设计在前向传播阶段并未缩减消 片翻译为阿姆哈拉文的系统。该系统使用方向场 耗时间,但是却在某种程度上将整个模型所需要 张量从背景中分割盲文点,使用梯度场识别正面 的权重参数的数量大大降低,很大程度上提高了 点和反面点;对于重叠盲文点的分割是该文的核 计算机的运算性能。在进行卷积运算时,卷积核 心内容,使用盲文点的属性(质心和面积)来分割 按照给定的步长s在输入图像上从左到右、从上 重叠点并且提出了相应的正面点和反面点识别算 到下依次进行滑动,直至操作结束。相对于传统 法。文献[10]使用人工神经网络对单面的阿姆哈 的神经网络而言,卷积神经网络的参数数量不仅 拉图片进行识别,采用自适应直方图均衡化和形 降低了,而且其运算速度也在一定程度上提高了。 态学操作相结合来对文件中的不同等级的噪声进 2)稀疏连接。为了挖掘图像空间局部关联 行降噪处理,并在识别阶段采用人工神经网络和 的信息,卷积神经网络采用了通过加强神经网络 二进制编码相结合的形式进行盲文图像识别,识 中相邻层之间节点的局部连接模式,而摒弃了全 别率达到95.5%。文献[11]采用BP神经网络对 连接的方式,即采用核少于输入的方式来完成。 英语盲文数字(0~9)图像进行识别。该文展示了 例如,如果有m个输入n个输出,传统的神经网 BP神经网络的参数设置以及图像的特征提取过 络会把每个输出与每个输入进行矩阵乘法运算, 程,其训练精度达到97.1%,测试精度达到85%。 则时间复杂度为Om×n),而卷积神经网络只提取 文献[12]在FCM和KNN的启发下,提出了一个 其中有意义的k个输入,其时间复杂度为Ok×), 模糊的聚类算法和一种新的数字特征检测算法, 因为在实际应用中,k一般远小于m,并更有实际 称之为斑点检测算法,即在4个扫描方向上扫描 意义,这一方面降低了时间复杂度,也提升了存 1个盲文单元,从而生成1个八进制编码。然后 储的效率。 模糊分类算法根据生成的八进制编码来识别相应 2盲文音乐识别方法 的盲文字符,识别精度达到83%。上述这些研究 存在识别过程较烦琐、识别度较低、泛化能力较 在传统的盲文音乐识别方法中,人工介入的 差等问题。 工作量较大。尽管目前部分传统模型提出的算法 为了使研究具有较强泛化能力和较高识别 在一定程度上能够实现对盲文图像的特征提取 度,同时简化其识别过程,本文从盲文音乐图片 但是对于以点状为基本组成且难以分辨的盲文音 的结构出发,应用卷积神经网络的识别模型,并 乐图片而言,其识别的效果并不理想,这归咎于 在Tensorflow深度学习框架下进行实验。实验表 其弱学习能力和弱适应性。而相比之下,近年来 明,采用卷积神经网络模型来识别盲文音乐图片 发展迅速的CNN的效果却较为乐观90,表现出 具有较为乐观的结果。 较高的识别精准率和较强的泛化能力
声消除、图像分割、特征提取和字符识别等步骤, 其识别率达到 94.39%,但使用了固定盲文单元大 小和盲文点的位置来识别盲文符号,其可扩展性 极其有限。文献 [4] 提出了一种用于识别双面盲 文内容的高效算法,即通过对凸点和凹点的灰度 值变化来区分正面点和反面点,识别率虽然比较 乐观,但其局限性在于当正面点和反面点重叠较 多时,对每个盲文点的质心检测和识别会出现很 多歧义,其识别效果也因此受到较大影响。文 献 [5-7] 采用传统的方法对盲文音乐符号进行识 别,其中文献 [7] 以 MusicXML 作为中间桥梁来实 现盲文的转换,并由此设计了从 MusicXML 到盲 文乐谱 ASCII 码的自动转换软件。文献 [8] 提出 一种基于深度学习模型识别盲文字符的方法,使 用堆叠去噪自动编码器来解决盲文识别过程中特 征自动提取与降维等问题,利用 SDAE 自动学习 盲文点字的图片特征,使用 Softmax 分类器进行 盲文识别。文献 [9] 提出将双面阿姆哈拉盲文图 片翻译为阿姆哈拉文的系统。该系统使用方向场 张量从背景中分割盲文点,使用梯度场识别正面 点和反面点;对于重叠盲文点的分割是该文的核 心内容,使用盲文点的属性 (质心和面积) 来分割 重叠点并且提出了相应的正面点和反面点识别算 法。文献 [10] 使用人工神经网络对单面的阿姆哈 拉图片进行识别,采用自适应直方图均衡化和形 态学操作相结合来对文件中的不同等级的噪声进 行降噪处理,并在识别阶段采用人工神经网络和 二进制编码相结合的形式进行盲文图像识别,识 别率达到 95.5%。文献 [11] 采用 BP 神经网络对 英语盲文数字 (0~9) 图像进行识别。该文展示了 BP 神经网络的参数设置以及图像的特征提取过 程,其训练精度达到 97.1%,测试精度达到 85%。 文献 [12] 在 FCM 和 KNN 的启发下,提出了一个 模糊的聚类算法和一种新的数字特征检测算法, 称之为斑点检测算法,即在 4 个扫描方向上扫描 1 个盲文单元,从而生成 1 个八进制编码。然后 模糊分类算法根据生成的八进制编码来识别相应 的盲文字符,识别精度达到 83%。上述这些研究 存在识别过程较烦琐、识别度较低、泛化能力较 差等问题。 为了使研究具有较强泛化能力和较高识别 度,同时简化其识别过程,本文从盲文音乐图片 的结构出发,应用卷积神经网络的识别模型,并 在 Tensorflow 深度学习框架下进行实验。实验表 明,采用卷积神经网络模型来识别盲文音乐图片 具有较为乐观的结果。 1 识别模型 卷积神经网络 (convolutional neural network, CNN) 因其具有独特的结构[13-15] ,在进行图像特征 提取的同时,还能够提取更细节的图像信息。这 样不仅解决了多数的传统神经网络中参数较多、 训练缓慢的难题,而且还防止了过拟合的出现。 自 2016 年 AlphaGo 战胜世界围棋冠军李世石以 来,卷积神经网络再一次被推向浪潮,尤其是在 计算机视觉领域的研究更是大热。卷积神经网络 具有了两个很重要的特点: 1) 共享权值[16-17]。传统的神经网络中每一层 的权值 w 仅使用一次 ,而当下一次使用时便会重 新生成不同的权值 w。但在卷积网络中,卷积核 要与图像中的每个像素值 (输入向量) 进行卷积 运算,所以仅需要一组权值即可。当输入向量与 该组权值运算完毕时,则表明该次卷积操作结 束。共享权值的设计在前向传播阶段并未缩减消 耗时间,但是却在某种程度上将整个模型所需要 的权重参数的数量大大降低,很大程度上提高了 计算机的运算性能。在进行卷积运算时,卷积核 按照给定的步长 s 在输入图像上从左到右、从上 到下依次进行滑动,直至操作结束。相对于传统 的神经网络而言,卷积神经网络的参数数量不仅 降低了,而且其运算速度也在一定程度上提高了。 O(m×n) O(k×n) 2) 稀疏连接[18]。为了挖掘图像空间局部关联 的信息,卷积神经网络采用了通过加强神经网络 中相邻层之间节点的局部连接模式,而摒弃了全 连接的方式,即采用核少于输入的方式来完成。 例如,如果有 m 个输入 n 个输出,传统的神经网 络会把每个输出与每个输入进行矩阵乘法运算, 则时间复杂度为 ,而卷积神经网络只提取 其中有意义的 k 个输入,其时间复杂度为 , 因为在实际应用中,k 一般远小于 m,并更有实际 意义,这一方面降低了时间复杂度,也提升了存 储的效率。 2 盲文音乐识别方法 在传统的盲文音乐识别方法中,人工介入的 工作量较大。尽管目前部分传统模型提出的算法 在一定程度上能够实现对盲文图像的特征提取, 但是对于以点状为基本组成且难以分辨的盲文音 乐图片而言,其识别的效果并不理想,这归咎于 其弱学习能力和弱适应性。而相比之下,近年来 发展迅速的 CNN 的效果却较为乐观[19-20] ,表现出 较高的识别精准率和较强的泛化能力。 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·187·
·188· 智能系统学报 第14卷 2.1图像预处理 2)C,层。主要作用是首次进行提取图像的特 盲文音乐图片的分辨率因受多种因素的影响 征参数,它会过滤掉多余的特征。C,层与输人层 而不尽相同,为了达到良好的识别效果,还需要 传入的数据进行模板匹配运算,从而得到了给定 进行一定的图像处理过程。本文在对盲文音乐图 数量的输出特征四。卷积核的作用并不是单纯地 像识别前,先对图像进行了预处理操作,包括降 计算卷积操作后的结果,而是在给定的权重矩阵 噪处理、倾斜校正、形态学处理、水平/垂直投影 下对输入的图像数据进行匹配运算操作。若卷积 分割、点位标记、盲文单元切割等,其预处理前后 核尺寸过大,网络参数会增多,网络速度会降低, 的对比效果如图1所示。 过小则会影响特征提取的精度,所以卷积核的大 小选择尤为关键。在此次卷积神经网络的识别模 型中,每个卷积层均采用大小为3×3的卷积核,可 ξ· 以降低该模型的参数数量。给定输入层的维度 为32×64,C,层的卷积核大小设置为3×3,并设置 32个卷积核,步长为1。图4为卷积神经网络的 卷积操作过程。 班 特图征32 ▣ (a)处理前 (b)处理后 图1盲文音乐图片倾斜校正 Fig.1 Braille music image before tilt correction process 2.2模型的构建 图2为盲文音乐图像识别的卷积神经网络模 型结构。该识别模型有1个输入层,3个卷积层 (C、C、C),2个池化层(S2,S),2个全连接层以 及1个输出层2。卷积层的作用是:对盲文音乐 图像进行特征提取,进而确定其周围特征参数的 位置关系,实验采用多层卷积层,以便可以获得 特图征1 更深层次的特征图。池化层是特征映射层,其主 图4卷积操作示意图 要作用是:对输入的特征图进行压缩,简化网络 Fig.4 Convolution operation diagram 计算复杂度,提取主要特征。输出层即展示盲文 通过该卷积操作就可获得大小为30×62的特 音乐图像的分类结果。 征图。为了保证卷积前后的图像大小保持一致 在这里采用“same”卷积方式,从而保证卷积后得 角出层 到特征图的大小仍为32×64。为了保证不丢失图 像的边缘信息,在后面的卷积层(C、C)都采用 该操作。 由于每个滤波器会得到一个特征图,经过 全连接层 输入层 S C C,层的卷积操作,如图5所示,图2中的盲文音 乐图像可得到32个不同的特征图。某些特征图 图2识别模型结构图 中的盲文点边界比较清晰,例如第1行第7个特 Fig.2 Identification model structure 征图,这说明该卷积层提取到了图像中盲文音乐 1)输入层。将预处理后的图像作为该模型的 符号的主干信息。其次也可以看出每个特征图的 输入。图3为训练集中的多个样例图片,每个图 具体状态迥异,这是因为每个卷积核的权值信息 像的大小为32×64,即该识别模型的输入维度为 不同,因而学习到的特征不同。 2048. 3)S2层。该池化层的主要作用是对特征的具 ●●●●●◆● 体位置进行淡化。当提取某个特征之后,只需了 ●● 身色● ● ●。●●0●●9●●电 解该特征与其他特征的相对位置,例如图3中的 图3训练集中的样例图片 盲文音乐字符,当得到上层的特征之后,就不用 Fig.3 Sample images in the training set 再考虑其字符的具体位置,只要得到下面对应的
2.1 图像预处理 盲文音乐图片的分辨率因受多种因素的影响 而不尽相同,为了达到良好的识别效果,还需要 进行一定的图像处理过程。本文在对盲文音乐图 像识别前,先对图像进行了预处理操作,包括降 噪处理、倾斜校正、形态学处理、水平/垂直投影 分割、点位标记、盲文单元切割等,其预处理前后 的对比效果如图 1 所示。 ⠇⠁⠝ ⠵⠓⠕ ⠥⠀⠥⠝ ⠊⠧⠑ ⠗⠎⠊ ⠞⠽⠀⠇ ⠊⠥⠃ ⠊⠁⠕⠀ (a) 处理前 (b) 处理后 图 1 盲文音乐图片倾斜校正 Fig. 1 Braille music image before tilt correction process 2.2 模型的构建 图 2 为盲文音乐图像识别的卷积神经网络模 型结构。该识别模型有 1 个输入层,3 个卷积层 (C1、C3、C5 ),2 个池化层 (S2,S4 ),2 个全连接层以 及 1 个输出层[21]。卷积层的作用是:对盲文音乐 图像进行特征提取,进而确定其周围特征参数的 位置关系,实验采用多层卷积层,以便可以获得 更深层次的特征图。池化层是特征映射层,其主 要作用是:对输入的特征图进行压缩,简化网络 计算复杂度,提取主要特征。输出层即展示盲文 音乐图像的分类结果。 S 输入层 C1 4 S2 C3 输出层 C5 全连接层 图 2 识别模型结构图 Fig. 2 Identification model structure 1) 输入层。将预处理后的图像作为该模型的 输入。图 3 为训练集中的多个样例图片,每个图 像的大小为 32×64,即该识别模型的输入维度为 2 048。 图 3 训练集中的样例图片 Fig. 3 Sample images in the training set 2)C1 层。主要作用是首次进行提取图像的特 征参数,它会过滤掉多余的特征。C1 层与输入层 传入的数据进行模板匹配运算,从而得到了给定 数量的输出特征[22]。卷积核的作用并不是单纯地 计算卷积操作后的结果,而是在给定的权重矩阵 下对输入的图像数据进行匹配运算操作。若卷积 核尺寸过大,网络参数会增多,网络速度会降低, 过小则会影响特征提取的精度,所以卷积核的大 小选择尤为关键。在此次卷积神经网络的识别模 型中,每个卷积层均采用大小为 3×3 的卷积核,可 以降低该模型的参数数量。给定输入层的维度 为 32×64,C1 层的卷积核大小设置为 3×3,并设置 32 个卷积核,步长为 1。图 4 为卷积神经网络的 卷积操作过程。 特图征 32 特图征 1 图 4 卷积操作示意图 Fig. 4 Convolution operation diagram 通过该卷积操作就可获得大小为 30×62 的特 征图。为了保证卷积前后的图像大小保持一致, 在这里采用“same”卷积方式,从而保证卷积后得 到特征图的大小仍为 32×64。为了保证不丢失图 像的边缘信息,在后面的卷积层 (C3、C5 ) 都采用 该操作。 由于每个滤波器会得到一个特征图,经过 C1 层的卷积操作,如图 5 所示,图 2 中的盲文音 乐图像可得到 32 个不同的特征图。某些特征图 中的盲文点边界比较清晰,例如第 1 行第 7 个特 征图,这说明该卷积层提取到了图像中盲文音乐 符号的主干信息。其次也可以看出每个特征图的 具体状态迥异,这是因为每个卷积核的权值信息 不同,因而学习到的特征不同。 3)S2 层。该池化层的主要作用是对特征的具 体位置进行淡化。当提取某个特征之后,只需了 解该特征与其他特征的相对位置,例如图 3 中的 盲文音乐字符,当得到上层的特征之后,就不用 再考虑其字符的具体位置,只要得到下面对应的 ·188· 智 能 系 统 学 报 第 14 卷
第1期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189· 特征,并将上下二者有效地组合在一起便是要识 4)C:层。C层的卷积操作建立在S,层的基 别的盲文音乐字符。 础上,其卷积操作与C,层类似。主要是对S2层 的输出进行再卷积操作,进行特征再提取。在 C3层中,将卷积核的数目设置为64,即可得出 64个大小为14×30且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中32个S,层 图5C,卷积后的特征图 的特征图作为C;层的输入,最终得出了如图8所 Fig.5 The feature map after C convolution 示的64个C3层的结果特征图。在图8中可以发 在卷积神经网络中,特征所对应的具体位置 现,其盲文点的边缘信息越来越突出。 将不再重要。对C,层卷积后的结果进行池化操 作,即得到32个大小为16×32的结果,输出的维 国 图 图 E 度相比该层输入的维度缩减了一半。该层是通过 ■ 池化操作实现二次特征提取的,有效地减少了输 国 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 ■ 8 图 输出在角度变形或拉伸变化方面的敏感程度,进 目 图 ■ ■ 行主要特征提取。 E 如图6为整个池化操作过程,该操作是利用 国 医 国 墨 池化参数来进行最大下采样操作,池化层中的步 ■ 长s设置为1,其权值矩阵设置为2×2。在C,层 图 图 题 图 的输出特征图中,对每个特征图中进行下采样操 图8C:层卷积操作后的特征图 作,根据图6所示此规则输出S2层的输出结果, Fig.8 The feature map after C:convolution operation 但是尺寸大小缩小为原来的一半2。 图9所展示的是S2层与C3层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 图6下采样操作 Fig.6 Down sampling operation S2层的下采样操作后得到如图7所示的 32个尺寸大小为16×32的特征图。从图7中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 S,层 C,层 图9S2层和C,层的连接图 Fig.9 Connection diagram of S2 and C3 5)S4层。该层是识别模型最后一个池化层· S,层是对C,层的输出结果进行池化操作,其操作 与S,层的操作类似。通过S4层的下采样操作得 到如图10所示的64个大小为8×16的特征图。 图7S,池化操作后的特征图 6)C层。C层是识别模型的最后一个卷积操 Fig.7 The feature map after S2 pooling 作,作用是进一步提取图像特征。该操作与之前
特征,并将上下二者有效地组合在一起便是要识 别的盲文音乐字符。 图 5 C1 卷积后的特征图 Fig. 5 The feature map after C1 convolution 在卷积神经网络中,特征所对应的具体位置 将不再重要。对 C1 层卷积后的结果进行池化操 作,即得到 32 个大小为 16×32 的结果,输出的维 度相比该层输入的维度缩减了一半。该层是通过 池化操作实现二次特征提取的,有效地减少了输 入数据的参数数量,降低了图像的大小,简化了 网络计算的复杂度。同时,它还可减弱卷积层的 输出在角度变形或拉伸变化方面的敏感程度,进 行主要特征提取。 如图 6 为整个池化操作过程,该操作是利用 池化参数来进行最大下采样操作,池化层中的步 长 s 设置为 1,其权值矩阵设置为 2×2。在 C1 层 的输出特征图中,对每个特征图中进行下采样操 作,根据图 6 所示此规则输出 S2 层的输出结果, 但是尺寸大小缩小为原来的一半[22]。 1 5 6 2 7 3 1 8 6 9 4 3 7 8 7 8 5 6 9 6 图 6 下采样操作 Fig. 6 Down sampling operation S 2 层的下采样操作后得到如 图 7 所 示 的 32 个尺寸大小为 16×32 的特征图。从图 7 中可以 看出,除了图像的尺寸大小发生了变化之外,还 忽略了部分盲文音乐符号的细节信息。 图 7 S2 池化操作后的特征图 Fig. 7 The feature map after S2 pooling 4)C3 层。C3 层的卷积操作建立在 S2 层的基 础上,其卷积操作与 C1 层类似。主要是对 S2 层 的输出进行再卷积操作,进行特征再提取。在 C3 层中,将卷积核的数目设置为 64,即可得出 64 个大小为 14×30 且图像内容各不相同的特征 图。在该层使用“same”卷积操作后,最后得到特 征图的尺寸大小为 16×32。值得注意的是,输入 与输出的特征图虽然在尺寸上大小相同,但是最 终得到的特征图数目却不一样,其中 32 个 S2 层 的特征图作为 C3 层的输入,最终得出了如图 8 所 示的 64 个 C3 层的结果特征图。在图 8 中可以发 现,其盲文点的边缘信息越来越突出。 图 8 C3 层卷积操作后的特征图 Fig. 8 The feature map after C3 convolution operation 图 9 所展示的是 S2 层与 C3 层之间的关联和 映射,从图中可以看出这些连接并不是一一对应 的关系。卷积神经网络这样设计的优点是:消除 了网络的对称性,从而让映射的数量保持在一定 的范围之内;增加了特征映射的多样性,从而实 现了不同特征的有效提取和传递。 S2 层 C3 层 图 9 S2 层和 C3 层的连接图 Fig. 9 Connection diagram of S2 and C3 5)S4 层。该层是识别模型最后一个池化层, S4 层是对 C3 层的输出结果进行池化操作,其操作 与 S2 层的操作类似。通过 S4 层的下采样操作得 到如图 10 所示的 64 个大小为 8×16 的特征图。 6)C5 层。C5 层是识别模型的最后一个卷积操 作,作用是进一步提取图像特征。该操作与之前 第 1 期 刘彪,等:基于卷积神经网络的盲文音乐识别研究 ·189·
·190· 智能系统学报 第14卷 的卷积操作类似,但是此处将卷积核的个数设置 获得较高质量的盲文图片,组成较好的数据集。 为128。因此得到128个大小为8×16的特征图, 另外,受限于版权,实验采集到的前2种盲文音乐 如图11所示。 图片数量极其有限,主要是采用第3种盲文音乐 图片作为训练集,后期的研究可以在取得相应许 图 唇 國 国 图 图 可后进行大规模数据的采集,以便于模型本身能 目 目 图 是 图 够有更好的兼容性。 图 图 ■ 3 E 图 本文采集的6400张经过预处理后的盲文音 国 型 ■ 图 显 图 乐符号图片(10个盲文数字、28种常用符号和 图 0 日 图 图 26个英文大写字母)中,总共有64个盲文音乐符 号,每个符号对应100张图片。对于每个盲文音 图 图 乐符号,实验随机选择其中的80张作为训练集, 国 图 透 日 剩余的20张作为测试集。其主要的划分情况如 罗 目 ■ 表1所示。 图10S,层操作后的特征图 表1训练集和测试集 Fig.10 The feature map after S pool Table 1 Training sets and test sets 序号 盲文符号 训练集张 测试集/张 1 数字09 800 200 2 常用符号 2240 560 3 英文字母 2080 520 现实中电子版的盲文字符表现形式有多种,主要 ■图E 形式如图12所示,该图展示了测试集中的样例图片。 。∷…∷。∷。。°。°∷ ::::识沿日 图11C层卷积后的特征图 Fig.11 The feature map after Cs convolution 。: 7)输出层。为了确保输出层的分类数量与实 图12测试集中的样例图片 际的64个盲文符号数相一致,实验的模型在最后 Fig.12 Sample images in the test sets 采用了两个全连接层使得卷积层C,能够和输出 分类关联上,即输出层有64个神经元数量。在输 4算法的设计 出结果时,本文使用softmax函数对盲文音乐符 结合构建的基于卷积神经网络的盲文音乐识 号进行分类,用dropout函数来防止过拟合现象。 别模型,本节编写出相应的盲文音乐图像训练算 3图像数据集 法以及测试算法,对应的伪码描述分别如算法 1和算法2所示。 为了增强此次盲文所训练的基于卷积神经网 算法1CNN盲文识别模型训练算法 络识别模型的泛化能力,前期需要大量具有代表 输入TRAIN IMAGES是训练集,EPOCH 性的训练样本,供其学习并获得可观的模型。然 是迭代次数,BATCH SIZE是迭代量,TRAIN ERROR 而,由于盲文本身的局限性图像化的数据集更是 是错误率; 相对匮乏,目前公认的数据集主要来源于:)线 下纸质的扫描文件,主要通过现有的OC技术对 输出y是分类结果。 图像中的盲文字符进行提取,但这种提取质量很 1)random(w); 大程度上受限于扫描文件本身的质量(分辨率)、 2)random(b); OCR技术的缺陷(光线敏感)、纸质盲文的规整 3)for i=1 in EPOCH: 性;2)线上互联网共享的盲文图片,图片的分辨 4)x=BATCH SIZE: 率、位深等属性较为可观,通常可以取得较好的 5)y_true=batchy;x中每个元素对应的正确 识别效果:3)电子版音乐文件,可以通过预处理 值y_true;
的卷积操作类似,但是此处将卷积核的个数设置 为 128。因此得到 128 个大小为 8×16 的特征图, 如图 11 所示。 图 10 S4 层操作后的特征图 Fig. 10 The feature map after S4 pool 图 11 C5 层卷积后的特征图 Fig. 11 The feature map after C5 convolution 7) 输出层。为了确保输出层的分类数量与实 际的 64 个盲文符号数相一致,实验的模型在最后 采用了两个全连接层使得卷积层 C5 能够和输出 分类关联上,即输出层有 64 个神经元数量。在输 出结果时,本文使用 softmax 函数对盲文音乐符 号进行分类,用 dropout 函数来防止过拟合现象。 3 图像数据集 为了增强此次盲文所训练的基于卷积神经网 络识别模型的泛化能力,前期需要大量具有代表 性的训练样本,供其学习并获得可观的模型。然 而,由于盲文本身的局限性图像化的数据集更是 相对匮乏,目前公认的数据集主要来源于:1) 线 下纸质的扫描文件,主要通过现有的 OCR 技术对 图像中的盲文字符进行提取,但这种提取质量很 大程度上受限于扫描文件本身的质量 (分辨率)、 OCR 技术的缺陷 (光线敏感)、纸质盲文的规整 性;2) 线上互联网共享的盲文图片,图片的分辨 率、位深等属性较为可观,通常可以取得较好的 识别效果;3) 电子版音乐文件,可以通过预处理 获得较高质量的盲文图片,组成较好的数据集。 另外,受限于版权,实验采集到的前 2 种盲文音乐 图片数量极其有限,主要是采用第 3 种盲文音乐 图片作为训练集,后期的研究可以在取得相应许 可后进行大规模数据的采集,以便于模型本身能 够有更好的兼容性。 本文采集的 6 400 张经过预处理后的盲文音 乐符号图片 (10 个盲文数字、28 种常用符号和 26 个英文大写字母) 中,总共有 64 个盲文音乐符 号,每个符号对应 100 张图片。对于每个盲文音 乐符号,实验随机选择其中的 80 张作为训练集, 剩余的 20 张作为测试集。其主要的划分情况如 表 1 所示。 表 1 训练集和测试集 Table 1 Training sets and test sets 序号 盲文符号 训练集/张 测试集/张 1 数字0~9 800 200 2 常用符号 2 240 560 3 英文字母 2 080 520 现实中电子版的盲文字符表现形式有多种,主要 形式如图 12 所示,该图展示了测试集中的样例图片。 图 12 测试集中的样例图片 Fig. 12 Sample images in the test sets 4 算法的设计 结合构建的基于卷积神经网络的盲文音乐识 别模型,本节编写出相应的盲文音乐图像训练算 法以及测试算法,对应的伪码描述分别如算法 1 和算法 2 所示。 算法 1 CNN 盲文识别模型训练算法 输入 TRAIN_IMAGES 是训练集,EPOCH 是迭代次数,BATCH_SIZE 是迭代量,TRAIN_ERROR 是错误率; 输出 y 是分类结果。 1) random(w); 2) random(b); 3) for i=1 in EPOCH : 4) x = BATCH_SIZE ; 5) y_true = batch_y ;x 中每个元素对应的正确 值 y_true; ·190· 智 能 系 统 学 报 第 14 卷