当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器感知与模式识别】基于卷积神经网络的盲文音乐识别研究

文件格式：PDF，文件大小：1.19MB，售价：3.12元

文档详细内容（约8页）

第14卷第1期智能系统学报 Vol.14 No.1 2019年1月 CAAI Transactions on Intelligent Systems Jan.2019 D0:10.11992/tis.201805002 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究刘彪2，黄蓉蓉，林和，苏伟 (1.兰州大学信息科学与工程学院，甘肃兰州730000：2.解放军69230部队，新疆乌苏833000) 摘要：盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题，信息科学与技术的迅速发展为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案，但其存在识别效率低和兼容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验，通过研究提出并设计了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后，通过多次反复迭代训练，模型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明，该模型的识别有效性和较强的泛化能力为盲文音乐作品的识别提供了一种新的解决方案。关键词：机器学习；盲文音乐识别；卷积神经网络；深度学习；计算机视觉；图像识别；人工智能：图像处理中图分类号：TP39 文献标志码：A 文章编号：1673-4785(2019)01-0186-08 中文引用格式：刘彪，黄蓉蓉，林和，等.基于卷积神经网络的盲文音乐识别研究.智能系统学报，2019,14(1)：186-193. 英文引用格式：LIU Biao,HUANG Rongrong,LNHe,etal.Research on braille music recognition based on convolutional neural networksJ.CAAI transactions on intelligent systems,2019,14(1):186-193. Research on braille music recognition based on convolutional neural networks LIU Biao,HUANG Rongrong',LIN He',SU Wei' (1.School of Information Science and Engineering,Lanzhou University,Lanzhou 730000,China;2.No.69230 Troops of PLA,Wusu 833000.China) Abstract:Blind musicians are confronted with the problems of manual conversion and low efficiency in the communic- ation of musical works.The rapid development of information science and technology has provided many solutions to these problems.However,most of the recognition schemes for braille music works lack recognition efficiency and com- patibility.In consideration of this deficiency,whereby traditional schemes rely heavily on artificial experience in braille music picture extraction,a convolution neural network-based recognition model has been developed.After prepro- cessing the sample data of braille music pictures through repeated iterative training,the recognition model was able learn the characteristics of music notation in braille music pictures.The experimental results showed the recognition ef- fectiveness and strong generalization ability of the model,which provides a new idea for the recognition of braille mu- sic works. Keywords:machine learning;braille music recognition;convolution neural network;deep learning;computer vision; image recognition;artificial intelligence;,image processing 我国的盲人数量约为752万人，是全球盲人要方式，但用其创作的音乐作品仍然需要人工的数量最多的国家山。随着从事音乐工作的盲人越转换和翻译，所以急需一种自动盲文音乐识别方来越多，盲文成为盲人与常人进行书面交流的主案。文献[2]最早使用硬件设备采集普通盲文内容的图片，虽然可通过光学识别出相应内容，但收稿日期：2018-05-04.网络出版日期：2018-09-30. 基金项目：广西科技计划项目（桂科AA17204096.桂科AD16380076). 是缺乏与用户的交互性。文献[3]设计了一个单通信作者：林和.E-mail:linhe@lzu.edu.cn. 面盲文图片的智能识别系统，包括图像采集、噪

DOI: 10.11992/tis.201805002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180928.1338.002.html 基于卷积神经网络的盲文音乐识别研究刘彪1,2，黄蓉蓉1，林和1，苏伟1 （1. 兰州大学信息科学与工程学院，甘肃兰州 730000; 2. 解放军 69230 部队，新疆乌苏 833000）摘要：盲人音乐家在交流创作的音乐作品时面临着人工转换和效率较低的问题，信息科学与技术的迅速发展为解决此类问题提供了许多解决方案。虽然目前有许多盲文音乐作品的识别方案，但其存在识别效率低和兼容能力不足等缺点。为了避免传统方案在盲文音乐图片特征提取时过多依赖人工经验，通过研究提出并设计了基于卷积神经网络的识别模型。在对盲文音乐图片的样例数据进行预处理之后，通过多次反复迭代训练，模型就可学习到盲文音乐图片中音乐符号的特征。实验结果表明，该模型的识别有效性和较强的泛化能力为盲文音乐作品的识别提供了一种新的解决方案。关键词：机器学习；盲文音乐识别；卷积神经网络；深度学习；计算机视觉；图像识别；人工智能；图像处理中图分类号：TP39 文献标志码：A 文章编号：1673−4785(2019)01−0186−08 中文引用格式：刘彪, 黄蓉蓉, 林和, 等. 基于卷积神经网络的盲文音乐识别研究 [J]. 智能系统学报, 2019, 14(1): 186–193. 英文引用格式：LIU Biao, HUANG Rongrong, LIN He, et al. Research on braille music recognition based on convolutional neural networks[J]. CAAI transactions on intelligent systems, 2019, 14(1): 186–193. Research on braille music recognition based on convolutional neural networks LIU Biao1,2 ，HUANG Rongrong1 ，LIN He1 ，SU Wei1 (1. School of Information Science and Engineering, Lanzhou University, Lanzhou 730000, China; 2. No.69230 Troops of PLA, Wusu 833000, China) Abstract: Blind musicians are confronted with the problems of manual conversion and low efficiency in the communication of musical works. The rapid development of information science and technology has provided many solutions to these problems. However, most of the recognition schemes for braille music works lack recognition efficiency and compatibility. In consideration of this deficiency, whereby traditional schemes rely heavily on artificial experience in braille music picture extraction, a convolution neural network-based recognition model has been developed. After preprocessing the sample data of braille music pictures through repeated iterative training, the recognition model was able learn the characteristics of music notation in braille music pictures. The experimental results showed the recognition effectiveness and strong generalization ability of the model, which provides a new idea for the recognition of braille music works. Keywords: machine learning; braille music recognition; convolution neural network; deep learning; computer vision; image recognition; artificial intelligence; image processing 我国的盲人数量约为 752 万人，是全球盲人数量最多的国家[1]。随着从事音乐工作的盲人越来越多，盲文成为盲人与常人进行书面交流的主要方式，但用其创作的音乐作品仍然需要人工的转换和翻译，所以急需一种自动盲文音乐识别方案。文献 [2] 最早使用硬件设备采集普通盲文内容的图片，虽然可通过光学识别出相应内容，但是缺乏与用户的交互性。文献 [3] 设计了一个单面盲文图片的智能识别系统，包括图像采集、噪收稿日期：2018−05−04. 网络出版日期：2018−09−30. 基金项目：广西科技计划项目 (桂科 AA17204096，桂科 AD16380076). 通信作者：林和. E-mail：linhe@lzu.edu.cn. 第 14 卷第 1 期智能系统学报 Vol.14 No.1 2019 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2019

第1期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·187· 声消除、图像分割、特征提取和字符识别等步骤， 1识别模型其识别率达到94.39%，但使用了固定盲文单元大小和盲文点的位置来识别盲文符号，其可扩展性卷积神经网络(convolutional neural network, 极其有限。文献「4]提出了一种用于识别双面盲 CNN因其具有独特的结构1，在进行图像特征文内容的高效算法，即通过对凸点和凹点的灰度提取的同时，还能够提取更细节的图像信息。这值变化来区分正面点和反面点，识别率虽然比较样不仅解决了多数的传统神经网络中参数较多、乐观，但其局限性在于当正面点和反面点重叠较训练缓慢的难题，而且还防止了过拟合的出现。多时，对每个盲文点的质心检测和识别会出现很自2016年AlphaGo战胜世界围棋冠军李世石以多歧义，其识别效果也因此受到较大影响。文来，卷积神经网络再一次被推向浪潮，尤其是在献[5-7]采用传统的方法对盲文音乐符号进行识计算机视觉领域的研究更是大热。卷积神经网络别，其中文献[7]以MusicXML作为中间桥梁来实具有了两个很重要的特点：现盲文的转换，并由此设计了从MusicXML到盲 1)共享权值6”。传统的神经网络中每一层文乐谱ASCIⅡ码的自动转换软件。文献[8]提出的权值w仅使用一次，而当下一次使用时便会重一种基于深度学习模型识别盲文字符的方法，使新生成不同的权值w。但在卷积网络中，卷积核用堆叠去噪自动编码器来解决盲文识别过程中特要与图像中的每个像素值（输入向量）进行卷积征自动提取与降维等问题，利用SDAE自动学习运算，所以仅需要一组权值即可。当输入向量与盲文点字的图片特征，使用Softmax分类器进行该组权值运算完毕时，则表明该次卷积操作结盲文识别。文献[9]提出将双面阿姆哈拉盲文图束。共享权值的设计在前向传播阶段并未缩减消片翻译为阿姆哈拉文的系统。该系统使用方向场耗时间，但是却在某种程度上将整个模型所需要张量从背景中分割盲文点，使用梯度场识别正面的权重参数的数量大大降低，很大程度上提高了点和反面点；对于重叠盲文点的分割是该文的核计算机的运算性能。在进行卷积运算时，卷积核心内容，使用盲文点的属性（质心和面积）来分割按照给定的步长s在输入图像上从左到右、从上重叠点并且提出了相应的正面点和反面点识别算到下依次进行滑动，直至操作结束。相对于传统法。文献[10]使用人工神经网络对单面的阿姆哈的神经网络而言，卷积神经网络的参数数量不仅拉图片进行识别，采用自适应直方图均衡化和形降低了，而且其运算速度也在一定程度上提高了。态学操作相结合来对文件中的不同等级的噪声进 2)稀疏连接。为了挖掘图像空间局部关联行降噪处理，并在识别阶段采用人工神经网络和的信息，卷积神经网络采用了通过加强神经网络二进制编码相结合的形式进行盲文图像识别，识中相邻层之间节点的局部连接模式，而摒弃了全别率达到95.5%。文献[11]采用BP神经网络对连接的方式，即采用核少于输入的方式来完成。英语盲文数字(0~9)图像进行识别。该文展示了例如，如果有m个输入n个输出，传统的神经网 BP神经网络的参数设置以及图像的特征提取过络会把每个输出与每个输入进行矩阵乘法运算，程，其训练精度达到97.1%，测试精度达到85%。则时间复杂度为Om×n),而卷积神经网络只提取文献[12]在FCM和KNN的启发下，提出了一个其中有意义的k个输入，其时间复杂度为Ok×), 模糊的聚类算法和一种新的数字特征检测算法，因为在实际应用中，k一般远小于m,并更有实际称之为斑点检测算法，即在4个扫描方向上扫描意义，这一方面降低了时间复杂度，也提升了存 1个盲文单元，从而生成1个八进制编码。然后储的效率。模糊分类算法根据生成的八进制编码来识别相应 2盲文音乐识别方法的盲文字符，识别精度达到83%。上述这些研究存在识别过程较烦琐、识别度较低、泛化能力较在传统的盲文音乐识别方法中，人工介入的差等问题。工作量较大。尽管目前部分传统模型提出的算法为了使研究具有较强泛化能力和较高识别在一定程度上能够实现对盲文图像的特征提取度，同时简化其识别过程，本文从盲文音乐图片但是对于以点状为基本组成且难以分辨的盲文音的结构出发，应用卷积神经网络的识别模型，并乐图片而言，其识别的效果并不理想，这归咎于在Tensorflow深度学习框架下进行实验。实验表其弱学习能力和弱适应性。而相比之下，近年来明，采用卷积神经网络模型来识别盲文音乐图片发展迅速的CNN的效果却较为乐观90，表现出具有较为乐观的结果。较高的识别精准率和较强的泛化能力

声消除、图像分割、特征提取和字符识别等步骤，其识别率达到 94.39%，但使用了固定盲文单元大小和盲文点的位置来识别盲文符号，其可扩展性极其有限。文献 [4] 提出了一种用于识别双面盲文内容的高效算法，即通过对凸点和凹点的灰度值变化来区分正面点和反面点，识别率虽然比较乐观，但其局限性在于当正面点和反面点重叠较多时，对每个盲文点的质心检测和识别会出现很多歧义，其识别效果也因此受到较大影响。文献 [5-7] 采用传统的方法对盲文音乐符号进行识别，其中文献 [7] 以 MusicXML 作为中间桥梁来实现盲文的转换，并由此设计了从 MusicXML 到盲文乐谱 ASCII 码的自动转换软件。文献 [8] 提出一种基于深度学习模型识别盲文字符的方法，使用堆叠去噪自动编码器来解决盲文识别过程中特征自动提取与降维等问题，利用 SDAE 自动学习盲文点字的图片特征，使用 Softmax 分类器进行盲文识别。文献 [9] 提出将双面阿姆哈拉盲文图片翻译为阿姆哈拉文的系统。该系统使用方向场张量从背景中分割盲文点，使用梯度场识别正面点和反面点；对于重叠盲文点的分割是该文的核心内容，使用盲文点的属性 (质心和面积) 来分割重叠点并且提出了相应的正面点和反面点识别算法。文献 [10] 使用人工神经网络对单面的阿姆哈拉图片进行识别，采用自适应直方图均衡化和形态学操作相结合来对文件中的不同等级的噪声进行降噪处理，并在识别阶段采用人工神经网络和二进制编码相结合的形式进行盲文图像识别，识别率达到 95.5%。文献 [11] 采用 BP 神经网络对英语盲文数字 (0~9) 图像进行识别。该文展示了 BP 神经网络的参数设置以及图像的特征提取过程，其训练精度达到 97.1%，测试精度达到 85%。文献 [12] 在 FCM 和 KNN 的启发下，提出了一个模糊的聚类算法和一种新的数字特征检测算法，称之为斑点检测算法，即在 4 个扫描方向上扫描 1 个盲文单元，从而生成 1 个八进制编码。然后模糊分类算法根据生成的八进制编码来识别相应的盲文字符，识别精度达到 83%。上述这些研究存在识别过程较烦琐、识别度较低、泛化能力较差等问题。为了使研究具有较强泛化能力和较高识别度，同时简化其识别过程，本文从盲文音乐图片的结构出发，应用卷积神经网络的识别模型，并在 Tensorflow 深度学习框架下进行实验。实验表明，采用卷积神经网络模型来识别盲文音乐图片具有较为乐观的结果。 1 识别模型卷积神经网络 (convolutional neural network, CNN) 因其具有独特的结构[13-15] ，在进行图像特征提取的同时，还能够提取更细节的图像信息。这样不仅解决了多数的传统神经网络中参数较多、训练缓慢的难题，而且还防止了过拟合的出现。自 2016 年 AlphaGo 战胜世界围棋冠军李世石以来，卷积神经网络再一次被推向浪潮，尤其是在计算机视觉领域的研究更是大热。卷积神经网络具有了两个很重要的特点： 1) 共享权值[16-17]。传统的神经网络中每一层的权值 w 仅使用一次，而当下一次使用时便会重新生成不同的权值 w。但在卷积网络中，卷积核要与图像中的每个像素值 (输入向量) 进行卷积运算，所以仅需要一组权值即可。当输入向量与该组权值运算完毕时，则表明该次卷积操作结束。共享权值的设计在前向传播阶段并未缩减消耗时间，但是却在某种程度上将整个模型所需要的权重参数的数量大大降低，很大程度上提高了计算机的运算性能。在进行卷积运算时，卷积核按照给定的步长 s 在输入图像上从左到右、从上到下依次进行滑动，直至操作结束。相对于传统的神经网络而言，卷积神经网络的参数数量不仅降低了，而且其运算速度也在一定程度上提高了。 O(m×n) O(k×n) 2) 稀疏连接[18]。为了挖掘图像空间局部关联的信息，卷积神经网络采用了通过加强神经网络中相邻层之间节点的局部连接模式，而摒弃了全连接的方式，即采用核少于输入的方式来完成。例如，如果有 m 个输入 n 个输出，传统的神经网络会把每个输出与每个输入进行矩阵乘法运算，则时间复杂度为，而卷积神经网络只提取其中有意义的 k 个输入，其时间复杂度为，因为在实际应用中，k 一般远小于 m，并更有实际意义，这一方面降低了时间复杂度，也提升了存储的效率。 2 盲文音乐识别方法在传统的盲文音乐识别方法中，人工介入的工作量较大。尽管目前部分传统模型提出的算法在一定程度上能够实现对盲文图像的特征提取，但是对于以点状为基本组成且难以分辨的盲文音乐图片而言，其识别的效果并不理想，这归咎于其弱学习能力和弱适应性。而相比之下，近年来发展迅速的 CNN 的效果却较为乐观[19-20] ，表现出较高的识别精准率和较强的泛化能力。第 1 期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·187·

·188· 智能系统学报第14卷 2.1图像预处理 2)C,层。主要作用是首次进行提取图像的特盲文音乐图片的分辨率因受多种因素的影响征参数，它会过滤掉多余的特征。C,层与输人层而不尽相同，为了达到良好的识别效果，还需要传入的数据进行模板匹配运算，从而得到了给定进行一定的图像处理过程。本文在对盲文音乐图数量的输出特征四。卷积核的作用并不是单纯地像识别前，先对图像进行了预处理操作，包括降计算卷积操作后的结果，而是在给定的权重矩阵噪处理、倾斜校正、形态学处理、水平/垂直投影下对输入的图像数据进行匹配运算操作。若卷积分割、点位标记、盲文单元切割等，其预处理前后核尺寸过大，网络参数会增多，网络速度会降低，的对比效果如图1所示。过小则会影响特征提取的精度，所以卷积核的大小选择尤为关键。在此次卷积神经网络的识别模型中，每个卷积层均采用大小为3×3的卷积核，可 ξ· 以降低该模型的参数数量。给定输入层的维度为32×64，C,层的卷积核大小设置为3×3，并设置 32个卷积核，步长为1。图4为卷积神经网络的卷积操作过程。班特图征32 ▣ (a)处理前 (b)处理后图1盲文音乐图片倾斜校正 Fig.1 Braille music image before tilt correction process 2.2模型的构建图2为盲文音乐图像识别的卷积神经网络模型结构。该识别模型有1个输入层，3个卷积层 (C、C、C),2个池化层(S2,S),2个全连接层以及1个输出层2。卷积层的作用是：对盲文音乐图像进行特征提取，进而确定其周围特征参数的位置关系，实验采用多层卷积层，以便可以获得特图征1 更深层次的特征图。池化层是特征映射层，其主图4卷积操作示意图要作用是：对输入的特征图进行压缩，简化网络 Fig.4 Convolution operation diagram 计算复杂度，提取主要特征。输出层即展示盲文通过该卷积操作就可获得大小为30×62的特音乐图像的分类结果。征图。为了保证卷积前后的图像大小保持一致在这里采用“same”卷积方式，从而保证卷积后得角出层到特征图的大小仍为32×64。为了保证不丢失图像的边缘信息，在后面的卷积层(C、C)都采用该操作。由于每个滤波器会得到一个特征图，经过全连接层输入层 S C C,层的卷积操作，如图5所示，图2中的盲文音乐图像可得到32个不同的特征图。某些特征图图2识别模型结构图中的盲文点边界比较清晰，例如第1行第7个特 Fig.2 Identification model structure 征图，这说明该卷积层提取到了图像中盲文音乐 1)输入层。将预处理后的图像作为该模型的符号的主干信息。其次也可以看出每个特征图的输入。图3为训练集中的多个样例图片，每个图具体状态迥异，这是因为每个卷积核的权值信息像的大小为32×64，即该识别模型的输入维度为不同，因而学习到的特征不同。 2048. 3)S2层。该池化层的主要作用是对特征的具 ●●●●●◆● 体位置进行淡化。当提取某个特征之后，只需了 ●● 身色● ● ●。●●0●●9●●电解该特征与其他特征的相对位置，例如图3中的图3训练集中的样例图片盲文音乐字符，当得到上层的特征之后，就不用 Fig.3 Sample images in the training set 再考虑其字符的具体位置，只要得到下面对应的

2.1 图像预处理盲文音乐图片的分辨率因受多种因素的影响而不尽相同，为了达到良好的识别效果，还需要进行一定的图像处理过程。本文在对盲文音乐图像识别前，先对图像进行了预处理操作，包括降噪处理、倾斜校正、形态学处理、水平/垂直投影分割、点位标记、盲文单元切割等，其预处理前后的对比效果如图 1 所示。 ⠇⠁⠝ ⠵⠓⠕ ⠥⠀⠥⠝ ⠊⠧⠑ ⠗⠎⠊ ⠞⠽⠀⠇ ⠊⠥⠃ ⠊⠁⠕⠀ (a) 处理前 (b) 处理后图 1 盲文音乐图片倾斜校正 Fig. 1 Braille music image before tilt correction process 2.2 模型的构建图 2 为盲文音乐图像识别的卷积神经网络模型结构。该识别模型有 1 个输入层，3 个卷积层 (C1、C3、C5 )，2 个池化层 (S2，S4 )，2 个全连接层以及 1 个输出层[21]。卷积层的作用是：对盲文音乐图像进行特征提取，进而确定其周围特征参数的位置关系，实验采用多层卷积层，以便可以获得更深层次的特征图。池化层是特征映射层，其主要作用是：对输入的特征图进行压缩，简化网络计算复杂度，提取主要特征。输出层即展示盲文音乐图像的分类结果。 S 输入层 C1 4 S2 C3 输出层 C5 全连接层图 2 识别模型结构图 Fig. 2 Identification model structure 1) 输入层。将预处理后的图像作为该模型的输入。图 3 为训练集中的多个样例图片，每个图像的大小为 32×64，即该识别模型的输入维度为 2 048。图 3 训练集中的样例图片 Fig. 3 Sample images in the training set 2)C1 层。主要作用是首次进行提取图像的特征参数，它会过滤掉多余的特征。C1 层与输入层传入的数据进行模板匹配运算，从而得到了给定数量的输出特征[22]。卷积核的作用并不是单纯地计算卷积操作后的结果，而是在给定的权重矩阵下对输入的图像数据进行匹配运算操作。若卷积核尺寸过大，网络参数会增多，网络速度会降低，过小则会影响特征提取的精度，所以卷积核的大小选择尤为关键。在此次卷积神经网络的识别模型中，每个卷积层均采用大小为 3×3 的卷积核，可以降低该模型的参数数量。给定输入层的维度为 32×64，C1 层的卷积核大小设置为 3×3，并设置 32 个卷积核，步长为 1。图 4 为卷积神经网络的卷积操作过程。特图征 32 特图征 1 图 4 卷积操作示意图 Fig. 4 Convolution operation diagram 通过该卷积操作就可获得大小为 30×62 的特征图。为了保证卷积前后的图像大小保持一致，在这里采用“same”卷积方式，从而保证卷积后得到特征图的大小仍为 32×64。为了保证不丢失图像的边缘信息，在后面的卷积层 (C3、C5 ) 都采用该操作。由于每个滤波器会得到一个特征图，经过 C1 层的卷积操作，如图 5 所示，图 2 中的盲文音乐图像可得到 32 个不同的特征图。某些特征图中的盲文点边界比较清晰，例如第 1 行第 7 个特征图，这说明该卷积层提取到了图像中盲文音乐符号的主干信息。其次也可以看出每个特征图的具体状态迥异，这是因为每个卷积核的权值信息不同，因而学习到的特征不同。 3)S2 层。该池化层的主要作用是对特征的具体位置进行淡化。当提取某个特征之后，只需了解该特征与其他特征的相对位置，例如图 3 中的盲文音乐字符，当得到上层的特征之后，就不用再考虑其字符的具体位置，只要得到下面对应的 ·188· 智能系统学报第 14 卷

第1期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·189· 特征，并将上下二者有效地组合在一起便是要识 4)C:层。C层的卷积操作建立在S,层的基别的盲文音乐字符。础上，其卷积操作与C,层类似。主要是对S2层的输出进行再卷积操作，进行特征再提取。在 C3层中，将卷积核的数目设置为64，即可得出 64个大小为14×30且图像内容各不相同的特征图。在该层使用“same”卷积操作后，最后得到特征图的尺寸大小为16×32。值得注意的是，输入与输出的特征图虽然在尺寸上大小相同，但是最终得到的特征图数目却不一样，其中32个S,层图5C,卷积后的特征图的特征图作为C;层的输入，最终得出了如图8所 Fig.5 The feature map after C convolution 示的64个C3层的结果特征图。在图8中可以发在卷积神经网络中，特征所对应的具体位置现，其盲文点的边缘信息越来越突出。将不再重要。对C,层卷积后的结果进行池化操作，即得到32个大小为16×32的结果，输出的维国图图 E 度相比该层输入的维度缩减了一半。该层是通过 ■ 池化操作实现二次特征提取的，有效地减少了输国入数据的参数数量，降低了图像的大小，简化了网络计算的复杂度。同时，它还可减弱卷积层的 ■ 8 图输出在角度变形或拉伸变化方面的敏感程度，进目图 ■ ■ 行主要特征提取。 E 如图6为整个池化操作过程，该操作是利用国医国墨池化参数来进行最大下采样操作，池化层中的步 ■ 长s设置为1，其权值矩阵设置为2×2。在C,层图图题图的输出特征图中，对每个特征图中进行下采样操图8C:层卷积操作后的特征图作，根据图6所示此规则输出S2层的输出结果， Fig.8 The feature map after C:convolution operation 但是尺寸大小缩小为原来的一半2。图9所展示的是S2层与C3层之间的关联和映射，从图中可以看出这些连接并不是一一对应的关系。卷积神经网络这样设计的优点是：消除了网络的对称性，从而让映射的数量保持在一定的范围之内；增加了特征映射的多样性，从而实现了不同特征的有效提取和传递。图6下采样操作 Fig.6 Down sampling operation S2层的下采样操作后得到如图7所示的 32个尺寸大小为16×32的特征图。从图7中可以看出，除了图像的尺寸大小发生了变化之外，还忽略了部分盲文音乐符号的细节信息。 S,层 C,层图9S2层和C,层的连接图 Fig.9 Connection diagram of S2 and C3 5)S4层。该层是识别模型最后一个池化层· S,层是对C,层的输出结果进行池化操作，其操作与S,层的操作类似。通过S4层的下采样操作得到如图10所示的64个大小为8×16的特征图。图7S,池化操作后的特征图 6)C层。C层是识别模型的最后一个卷积操 Fig.7 The feature map after S2 pooling 作，作用是进一步提取图像特征。该操作与之前

特征，并将上下二者有效地组合在一起便是要识别的盲文音乐字符。图 5 C1 卷积后的特征图 Fig. 5 The feature map after C1 convolution 在卷积神经网络中，特征所对应的具体位置将不再重要。对 C1 层卷积后的结果进行池化操作，即得到 32 个大小为 16×32 的结果，输出的维度相比该层输入的维度缩减了一半。该层是通过池化操作实现二次特征提取的，有效地减少了输入数据的参数数量，降低了图像的大小，简化了网络计算的复杂度。同时，它还可减弱卷积层的输出在角度变形或拉伸变化方面的敏感程度，进行主要特征提取。如图 6 为整个池化操作过程，该操作是利用池化参数来进行最大下采样操作，池化层中的步长 s 设置为 1，其权值矩阵设置为 2×2。在 C1 层的输出特征图中，对每个特征图中进行下采样操作，根据图 6 所示此规则输出 S2 层的输出结果，但是尺寸大小缩小为原来的一半[22]。 1 5 6 2 7 3 1 8 6 9 4 3 7 8 7 8 5 6 9 6 图 6 下采样操作 Fig. 6 Down sampling operation S 2 层的下采样操作后得到如图 7 所示的 32 个尺寸大小为 16×32 的特征图。从图 7 中可以看出，除了图像的尺寸大小发生了变化之外，还忽略了部分盲文音乐符号的细节信息。图 7 S2 池化操作后的特征图 Fig. 7 The feature map after S2 pooling 4)C3 层。C3 层的卷积操作建立在 S2 层的基础上，其卷积操作与 C1 层类似。主要是对 S2 层的输出进行再卷积操作，进行特征再提取。在 C3 层中，将卷积核的数目设置为 64，即可得出 64 个大小为 14×30 且图像内容各不相同的特征图。在该层使用“same”卷积操作后，最后得到特征图的尺寸大小为 16×32。值得注意的是，输入与输出的特征图虽然在尺寸上大小相同，但是最终得到的特征图数目却不一样，其中 32 个 S2 层的特征图作为 C3 层的输入，最终得出了如图 8 所示的 64 个 C3 层的结果特征图。在图 8 中可以发现，其盲文点的边缘信息越来越突出。图 8 C3 层卷积操作后的特征图 Fig. 8 The feature map after C3 convolution operation 图 9 所展示的是 S2 层与 C3 层之间的关联和映射，从图中可以看出这些连接并不是一一对应的关系。卷积神经网络这样设计的优点是：消除了网络的对称性，从而让映射的数量保持在一定的范围之内；增加了特征映射的多样性，从而实现了不同特征的有效提取和传递。 S2 层 C3 层图 9 S2 层和 C3 层的连接图 Fig. 9 Connection diagram of S2 and C3 5)S4 层。该层是识别模型最后一个池化层， S4 层是对 C3 层的输出结果进行池化操作，其操作与 S2 层的操作类似。通过 S4 层的下采样操作得到如图 10 所示的 64 个大小为 8×16 的特征图。 6)C5 层。C5 层是识别模型的最后一个卷积操作，作用是进一步提取图像特征。该操作与之前第 1 期刘彪，等：基于卷积神经网络的盲文音乐识别研究 ·189·

·190· 智能系统学报第14卷的卷积操作类似，但是此处将卷积核的个数设置获得较高质量的盲文图片，组成较好的数据集。为128。因此得到128个大小为8×16的特征图，另外，受限于版权，实验采集到的前2种盲文音乐如图11所示。图片数量极其有限，主要是采用第3种盲文音乐图片作为训练集，后期的研究可以在取得相应许图唇國国图图可后进行大规模数据的采集，以便于模型本身能目目图是图够有更好的兼容性。图图 ■ 3 E 图本文采集的6400张经过预处理后的盲文音国型 ■ 图显图乐符号图片(10个盲文数字、28种常用符号和图 0 日图图 26个英文大写字母)中，总共有64个盲文音乐符号，每个符号对应100张图片。对于每个盲文音图图乐符号，实验随机选择其中的80张作为训练集，国图透日剩余的20张作为测试集。其主要的划分情况如罗目 ■ 表1所示。图10S,层操作后的特征图表1训练集和测试集 Fig.10 The feature map after S pool Table 1 Training sets and test sets 序号盲文符号训练集张测试集/张 1 数字09 800 200 2 常用符号 2240 560 3 英文字母 2080 520 现实中电子版的盲文字符表现形式有多种，主要 ■图E 形式如图12所示，该图展示了测试集中的样例图片。。∷…∷。∷。。°。°∷ ::::识沿日图11C层卷积后的特征图 Fig.11 The feature map after Cs convolution 。: 7)输出层。为了确保输出层的分类数量与实图12测试集中的样例图片际的64个盲文符号数相一致，实验的模型在最后 Fig.12 Sample images in the test sets 采用了两个全连接层使得卷积层C,能够和输出分类关联上，即输出层有64个神经元数量。在输 4算法的设计出结果时，本文使用softmax函数对盲文音乐符结合构建的基于卷积神经网络的盲文音乐识号进行分类，用dropout函数来防止过拟合现象。别模型，本节编写出相应的盲文音乐图像训练算 3图像数据集法以及测试算法，对应的伪码描述分别如算法 1和算法2所示。为了增强此次盲文所训练的基于卷积神经网算法1CNN盲文识别模型训练算法络识别模型的泛化能力，前期需要大量具有代表输入TRAIN IMAGES是训练集，EPOCH 性的训练样本，供其学习并获得可观的模型。然是迭代次数，BATCH SIZE是迭代量，TRAIN ERROR 而，由于盲文本身的局限性图像化的数据集更是是错误率；相对匮乏，目前公认的数据集主要来源于：)线下纸质的扫描文件，主要通过现有的OC技术对输出y是分类结果。图像中的盲文字符进行提取，但这种提取质量很 1)random(w); 大程度上受限于扫描文件本身的质量（分辨率）、 2)random(b); OCR技术的缺陷（光线敏感）、纸质盲文的规整 3)for i=1 in EPOCH: 性；2)线上互联网共享的盲文图片，图片的分辨 4)x=BATCH SIZE: 率、位深等属性较为可观，通常可以取得较好的 5)y_true=batchy;x中每个元素对应的正确识别效果：3)电子版音乐文件，可以通过预处理值y_true;

的卷积操作类似，但是此处将卷积核的个数设置为 128。因此得到 128 个大小为 8×16 的特征图，如图 11 所示。图 10 S4 层操作后的特征图 Fig. 10 The feature map after S4 pool 图 11 C5 层卷积后的特征图 Fig. 11 The feature map after C5 convolution 7) 输出层。为了确保输出层的分类数量与实际的 64 个盲文符号数相一致，实验的模型在最后采用了两个全连接层使得卷积层 C5 能够和输出分类关联上，即输出层有 64 个神经元数量。在输出结果时，本文使用 softmax 函数对盲文音乐符号进行分类，用 dropout 函数来防止过拟合现象。 3 图像数据集为了增强此次盲文所训练的基于卷积神经网络识别模型的泛化能力，前期需要大量具有代表性的训练样本，供其学习并获得可观的模型。然而，由于盲文本身的局限性图像化的数据集更是相对匮乏，目前公认的数据集主要来源于：1) 线下纸质的扫描文件，主要通过现有的 OCR 技术对图像中的盲文字符进行提取，但这种提取质量很大程度上受限于扫描文件本身的质量 (分辨率)、 OCR 技术的缺陷 (光线敏感)、纸质盲文的规整性；2) 线上互联网共享的盲文图片，图片的分辨率、位深等属性较为可观，通常可以取得较好的识别效果；3) 电子版音乐文件，可以通过预处理获得较高质量的盲文图片，组成较好的数据集。另外，受限于版权，实验采集到的前 2 种盲文音乐图片数量极其有限，主要是采用第 3 种盲文音乐图片作为训练集，后期的研究可以在取得相应许可后进行大规模数据的采集，以便于模型本身能够有更好的兼容性。本文采集的 6 400 张经过预处理后的盲文音乐符号图片 (10 个盲文数字、28 种常用符号和 26 个英文大写字母) 中，总共有 64 个盲文音乐符号，每个符号对应 100 张图片。对于每个盲文音乐符号，实验随机选择其中的 80 张作为训练集，剩余的 20 张作为测试集。其主要的划分情况如表 1 所示。表 1 训练集和测试集 Table 1 Training sets and test sets 序号盲文符号训练集/张测试集/张 1 数字0~9 800 200 2 常用符号 2 240 560 3 英文字母 2 080 520 现实中电子版的盲文字符表现形式有多种，主要形式如图 12 所示，该图展示了测试集中的样例图片。图 12 测试集中的样例图片 Fig. 12 Sample images in the test sets 4 算法的设计结合构建的基于卷积神经网络的盲文音乐识别模型，本节编写出相应的盲文音乐图像训练算法以及测试算法，对应的伪码描述分别如算法 1 和算法 2 所示。算法 1 CNN 盲文识别模型训练算法输入 TRAIN_IMAGES 是训练集，EPOCH 是迭代次数，BATCH_SIZE 是迭代量，TRAIN_ERROR 是错误率；输出 y 是分类结果。 1) random(w); 2) random(b); 3) for i=1 in EPOCH : 4) x = BATCH_SIZE ; 5) y_true = batch_y ；x 中每个元素对应的正确值 y_true； ·190· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录