当前位置：和泉文库 > 电气与自动化 > 浏览文档

【知识工程】图像情境下的数字序列逻辑学习

文件格式：PDF，文件大小：1.31MB，售价：3.9元

文档详细内容（约10页）

第14卷第6期智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905044 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006html 图像情境下的数字序列逻辑学习梁慧中，曹峰，钱宇华23，郭倩，梁新彦 (1,山西大学大数据科学与产业研究院，山西太原030006,2.山西大学计算智能与中文信息处理教育部重点实验室，山西太原030006：3.山西大学计算机与信息技术学院，山西太原030006) 摘要：针对未知的数字和规则的模式构建问题，本文提供了一种从图像角度解决数字序列逻辑学习问题的手段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下，让计算机自主地学习出其中包含的内在逻辑模式，从而进行数字序列的预测。本文构建了4个大型数据集：Linear序列、Multiplication序列、Fio序列和Nstd序列.然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务，并对实验结果加以分析比较，事实证明，本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题，这为一系列未知逻辑模式构建任务提供了一种可能性。关键词：人工智能：逻辑推理；逻辑学习；深度学习：数字序列；图像处理；神经网络：模式构建中图分类号：TP181文献标志码：A文章编号：1673-4785(2019)06-1189-10 中文引用格式：梁慧，曹峰，钱宇华，等.图像情境下的数字序列逻辑学习.智能系统学报，2019,14(6)：1189-1198. 英文引用格式：LIANG Hui,,CAO Feng,QIAN Yuhua,etal.Number sequence logic learning in image context Jl..CAAI transac-. tions on intelligent systems,2019,14(6):1189-1198. Number sequence logic learning in image context LIANG Hui'3,CAO Feng'3,QIAN Yuhua',GUO Qian'3,LIANG Xinyan'3 (1.Research Institute of Big Data Science and Industry,Shanxi University,Taiyuan 030006,China,2.Key Laboratory of Computa- tional Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China;3. School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:To solve the problem of pattern construction of unknown numbers and rules,in this paper,we provide a meth- od to solve the problems of number sequence logic learning from the image perspective.The method allows the com- puter to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence.Four large datasets were constructed:linear se- quences,multiplication sequences,fio sequences,and nested sequences,and then several representative deep neural net- works were used to complete the number sequence logic learning task.By analyzing the experimental results,the meth- od was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords:artificial intelligence;logical reasoning;logical learning;deep learning;number sequences;image pro- cessing;neural network;pattern construction 数字序列逻辑学习的发展可以说是经历了漫收稿日期：2019-04-15.网络出版日期：2019-09-10 长的岁月，其可以追溯到人类早期历史。例如，基金项目：国家自然科学基金项目(61672332,61432011， U1435212.61872226):山西省海外归国人员研究项古时满月的预测山，并且其仍然是当今研究的活目(2017023)：山西省自然科学基金计划资助项目跃领域，在股市中，我们经常会听到有神奇数字 201701D121052). 通信作者：钱字华.E-mail:jinchengqyh@126.com 时间之窗这一说法，其用到的波浪理论的数字基

DOI: 10.11992/tis.201905044 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006.html 图像情境下的数字序列逻辑学习梁慧1,3，曹峰1,3，钱宇华1,2,3，郭倩1,3，梁新彦1,3 （1. 山西大学大数据科学与产业研究院，山西太原 030006; 2. 山西大学计算智能与中文信息处理教育部重点实验室，山西太原 030006; 3. 山西大学计算机与信息技术学院，山西太原 030006）摘要：针对未知的数字和规则的模式构建问题，本文提供了一种从图像角度解决数字序列逻辑学习问题的手段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下，让计算机自主地学习出其中包含的内在逻辑模式，从而进行数字序列的预测。本文构建了 4 个大型数据集：Linear 序列、Multiplication 序列、Fio 序列和 Nested 序列，然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务，并对实验结果加以分析比较，事实证明，本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题，这为一系列未知逻辑模式构建任务提供了一种可能性。关键词：人工智能；逻辑推理；逻辑学习；深度学习；数字序列；图像处理；神经网络；模式构建中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2019)06−1189−10 中文引用格式：梁慧, 曹峰, 钱宇华, 等. 图像情境下的数字序列逻辑学习 [J]. 智能系统学报, 2019, 14(6): 1189–1198. 英文引用格式：LIANG Hui, CAO Feng, QIAN Yuhua, et al. Number sequence logic learning in image context[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1189–1198. Number sequence logic learning in image context LIANG Hui1,3 ，CAO Feng1,3 ，QIAN Yuhua1,2,3 ，GUO Qian1,3 ，LIANG Xinyan1,3 (1. Research Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006, China; 2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China; 3. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract: To solve the problem of pattern construction of unknown numbers and rules, in this paper, we provide a method to solve the problems of number sequence logic learning from the image perspective. The method allows the computer to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence. Four large datasets were constructed: linear sequences, multiplication sequences, fio sequences, and nested sequences, and then several representative deep neural networks were used to complete the number sequence logic learning task. By analyzing the experimental results, the method was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords: artificial intelligence; logical reasoning; logical learning; deep learning; number sequences; image processing; neural network; pattern construction 数字序列逻辑学习的发展可以说是经历了漫长的岁月，其可以追溯到人类早期历史。例如，古时满月的预测[1] ，并且其仍然是当今研究的活跃领域，在股市中，我们经常会听到有神奇数字时间之窗这一说法，其用到的波浪理论的数字基收稿日期：2019−04−15. 网络出版日期：2019−09−10. 基金项目：国家自然科学基金项目 (61672332， 61432011， U1435212，61872226)；山西省海外归国人员研究项目 (2017023)；山西省自然科学基金计划资助项目 (201701D121052). 通信作者：钱宇华. E-mail：jinchengqyh@126.com. 第 14 卷第 6 期智能系统学报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019

·1190· 智能系统学报第14卷础就是一系列的数列，此数列称为fibonacci序传统数字序列逻辑学习也存在一定的不足，它很列。大自然中还有很多与fibonacci序列有关的奇难解决未知数字和规则的模式构建的数字序列预妙现象，如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以测问题。例如，每月的天数序列、Nested序列、交及星系内星球的分布等。替序列、带负数的序列等。举一个更为具体的例数字序列逻辑学习问题是归纳推理和模式发子：1)2,4,6810,12，…，2)1,2,3,5,4,4,2，…，对于第现的经典问题之一)，这些问题在哲学和数学领 1个序列，可以明显地观察到其是一个加2的规域中已经研究了数千年，在心理学和计算机科学律，这样就可以构建一个满足该规律的模式，传领域中也已经研究了数十年。近些年来随着机统数字序列技术可以很容易地解决此类预测问器学习和深度学习的不断发展别，序列预测问题题。对于第2个序列，难以看出其中的规律，且很更是吸引了大家的广泛研究。数字序列预测问题难用传统方法得到一种满足此序列的模式来预测在各个领域的应用也是相当的广泛。其可以编码该序列，实际上该序列是书写汉字如一二三四等渐进矩阵问题，该问题是用二维矩阵表示的，科需要的笔画数，故而下一个预测结果应为2。学预测问题包括股票的预测、智商测试等，以及针对传统数字序列逻辑学习的不足，本文提许多归纳推理问题u0-121。早在1963年，Simon 出了图像数字序列逻辑学习任务，以从另一个角等1就提出了针对一系列字母序列来预测的模度来解决数字序列预测问题，其可以很好地解决式描述程序，并解释了人类如何从记忆中的概念传统数字序列难以解决的未知数字和规则的模式或规则产生连续模式。Sanghi等提出了一种用构建的序列预测问题。在传统数字序列逻辑学习于智力测试的程序，该程序还解决了各种数字序中，数字的含义及其规则都已被事先定义。而本列预测问题。且针对数字序列预测问题的解决已文提出的图像数字序列逻辑学习是在不知道图像有很多方法，例如：反统一算法成功应用于交替间关系和图像内包含的内容的意义的前提下，仍序列和斐波纳契序列。Siebers等I1提出了一种可以自动学习出其包含的内在逻辑模式。在本文半分析方法用以解决自然数序列归纳问题，这实中，图像序列中的所有图像都是15×85像素的黑则是一种典型的智力测试任务，该方法通过术语白图像，且每张图像包含一个多位数。然后将图结构的启发式枚举来猜测给定数字序列的术语结像传递给计算机，且并不告诉计算机图像中包含构，最后利用数字序列评估系统来评估该方法，最终结果精度达到93.2%。然而，其缺点是枚举的内容是什么，让计算机自动学习图像之间的内在逻辑模式，并且预测下一张图像中的内容。由和搜索受到一种看似合理的偏见的严格限制。 Strannegard等1提出了IQ测试中数字序列预测此看来，图像数字序列逻辑学习不仅可以解决数问题的计算方法。该计算方法是通过开发ASov- 字序列预测问题，更是为解决一系列未知逻辑模 er来实现的，ASolver是一种基于有限工作记忆思式构建任务提供了一种可能。想的拟人化认知系统，其利用了人类推理的模型。 1 研究方法结果表明，该算法的性能优于Maple和Wolfram- Alpha等数学工具。Hofmann等)证明了归纳程本节主要介绍了图像数字序列逻辑学习的基序系统IGOR2可以解决数字序列预测问题，其不本任务，并详细描述了4种有代表性的深度神经同于上述专门用于解决数字序列域中问题的系网络的网络结构MLP、LSTM、CNN MLP、ResNet), 统，IGOR2可以解决不同问题解决域中的问题。 1.1 基本任务 IGOR2是一个从小组输入/输出示例中学习功能图像数字序列逻辑学习是从另一个角度来解程序的系统。但不足之处在于其无法很好地处理决数字序列预测问题，其与传统数字序列解决方负数和交替序列。Ragni等u8-1y提出了一种基于案不同。传统数字序列技术是在已知数字和规则人工神经网络(ANNs)的动态学习方法来解决数的前提下构建模式。而本文的方法是在不知道图字序列的预测问题。其总体结果与人类水平相像间关系和图像内包含的内容的意义下来预测序当，但误差分布差异很大，且无法解决Nested序列，然后利用深度神经网络来完成数字序列逻辑列问题（见2.1）。学习任务，该任务的输入是几张相关的图像序上述方法都是传统的方法，它是基于已知的列，其输出仍然是图像，展示的是下一张图像序数字和规则来构建模式，然后预测数字。然而，列预测的结果

础就是一系列的数列，此数列称为 fibonacci 序列。大自然中还有很多与 fibonacci 序列有关的奇妙现象，如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以及星系内星球的分布等。数字序列逻辑学习问题是归纳推理和模式发现的经典问题之一[2-3] ，这些问题在哲学和数学领域中已经研究了数千年，在心理学和计算机科学领域中也已经研究了数十年[4]。近些年来随着机器学习和深度学习的不断发展[5-8] ，序列预测问题更是吸引了大家的广泛研究。数字序列预测问题在各个领域的应用也是相当的广泛。其可以编码渐进矩阵问题[9] ，该问题是用二维矩阵表示的，科学预测问题包括股票的预测、智商测试等，以及许多归纳推理问题[ 1 0 - 1 2 ]。早在 1963 年，Simon 等 [13] 就提出了针对一系列字母序列来预测的模式描述程序，并解释了人类如何从记忆中的概念或规则产生连续模式。Sanghi 等 [14] 提出了一种用于智力测试的程序，该程序还解决了各种数字序列预测问题。且针对数字序列预测问题的解决已有很多方法，例如：反统一算法成功应用于交替序列和斐波纳契序列。Siebers 等 [15] 提出了一种半分析方法用以解决自然数序列归纳问题，这实则是一种典型的智力测试任务，该方法通过术语结构的启发式枚举来猜测给定数字序列的术语结构，最后利用数字序列评估系统来评估该方法，最终结果精度达到 93.2%。然而，其缺点是枚举和搜索受到一种看似合理的偏见的严格限制。 Strannegard 等 [16] 提出了 IQ 测试中数字序列预测问题的计算方法。该计算方法是通过开发 ASolver 来实现的，ASolver 是一种基于有限工作记忆思想的拟人化认知系统，其利用了人类推理的模型。结果表明，该算法的性能优于 Maple 和 WolframAlpha 等数学工具。Hofmann 等 [17] 证明了归纳程序系统 IGOR2 可以解决数字序列预测问题，其不同于上述专门用于解决数字序列域中问题的系统，IGOR2 可以解决不同问题解决域中的问题。 IGOR2 是一个从小组输入/输出示例中学习功能程序的系统。但不足之处在于其无法很好地处理负数和交替序列。Ragni 等 [18-19] 提出了一种基于人工神经网络 (ANNs) 的动态学习方法来解决数字序列的预测问题。其总体结果与人类水平相当，但误差分布差异很大，且无法解决 Nested 序列问题 (见 2.1)。上述方法都是传统的方法，它是基于已知的数字和规则来构建模式，然后预测数字。然而， 1) 2,4,6,8,10,12,··· , 2) 1,2,3,5,4,4,2,··· , 传统数字序列逻辑学习也存在一定的不足，它很难解决未知数字和规则的模式构建的数字序列预测问题。例如，每月的天数序列、Nested 序列、交替序列、带负数的序列等。举一个更为具体的例子：对于第 1 个序列，可以明显地观察到其是一个加 2 的规律，这样就可以构建一个满足该规律的模式，传统数字序列技术可以很容易地解决此类预测问题。对于第 2 个序列，难以看出其中的规律，且很难用传统方法得到一种满足此序列的模式来预测该序列，实际上该序列是书写汉字如一二三四等需要的笔画数，故而下一个预测结果应为 2。针对传统数字序列逻辑学习的不足，本文提出了图像数字序列逻辑学习任务，以从另一个角度来解决数字序列预测问题，其可以很好地解决传统数字序列难以解决的未知数字和规则的模式构建的序列预测问题。在传统数字序列逻辑学习中，数字的含义及其规则都已被事先定义。而本文提出的图像数字序列逻辑学习是在不知道图像间关系和图像内包含的内容的意义的前提下，仍可以自动学习出其包含的内在逻辑模式。在本文中，图像序列中的所有图像都是 15×85 像素的黑白图像，且每张图像包含一个多位数。然后将图像传递给计算机，且并不告诉计算机图像中包含的内容是什么，让计算机自动学习图像之间的内在逻辑模式，并且预测下一张图像中的内容。由此看来，图像数字序列逻辑学习不仅可以解决数字序列预测问题，更是为解决一系列未知逻辑模式构建任务提供了一种可能。 1 研究方法本节主要介绍了图像数字序列逻辑学习的基本任务，并详细描述了 4 种有代表性的深度神经网络的网络结构 (MLP、LSTM、CNN_MLP、ResNet)。 1.1 基本任务图像数字序列逻辑学习是从另一个角度来解决数字序列预测问题，其与传统数字序列解决方案不同。传统数字序列技术是在已知数字和规则的前提下构建模式。而本文的方法是在不知道图像间关系和图像内包含的内容的意义下来预测序列，然后利用深度神经网络来完成数字序列逻辑学习任务，该任务的输入是几张相关的图像序列，其输出仍然是图像，展示的是下一张图像序列预测的结果。 ·1190· 智能系统学报第 14 卷

第6期梁慧，等：图像情境下的数字序列逻辑学习 ·1191· 首先将图像序列传送给计算机，让计算机在 k-1张图像传入模型中，测试生成的图像是否不知道图像间关系和图像内包含的内容的意义的正确。前提下自动学习出其内在逻辑模式，从而进行数 258293760 2066350080 字序列的预测。所有这些图像都是黑白图像，右 (a)位数为9位 b)位数为10位（正数）对齐，大小归一化(15×85)，每张图像包含一个多位数，其可以是正数或负数，每张图像中的最大 B2282246720 -3391078400 (c)位数为11位位数设置为10。如图1所示，其中图1(a)的位数 (d位数为11位（负数）设置为9位，图1(b)位数设置为10位，图1(c)位图1图像展示 Fig.1 Image display 数设置为11位，原本数字为32282246720，由于 1.2网络结构超出位数的设定，图像中最左位的数字无法完全本文在构造的数据集上比较了几种有代表性显示，图1(d)为负数情形，位数设置为10位（除符的深度神经网络的性能(MLP、LSTM、CNN 号位)。然后本文使用几种代表性的深度神经网 MLP、ResNet)。数据集的构造详见2.I。全部模络来完成数字序列逻辑学习任务，并加以比较分型均使用均方误差(MSE)损失作为优化函数，析。给出网络结构的详细描述。最后，为了测试 ADAM20作为优化器，衰减率参数设置为B,=0.9 本文的网络性能，本文以某种逻辑关系随机生成 B,=0.999。每个网络的详细结构和超参数设置如一批测试样本，每个样本包括k张图像，将前图2。 Input Layer Output Layher Recument Network STM STM STM 15x8 x p 15x85 15x85x4 15x8 (a)MLP (b)LSTM nout lave 15x85 Sigmoid 15x85x4 32164 32164 BN 3x21x64 74264 (c)CNN-MLP Dropout-0.5 (d)ResNet-18 15x85 图24种神经网络结构 Fig.2 Four neural network structures. 多层感知机(MLP)在本文中，使用一个长短期记忆网络(LSTM)本文采用标准的 4层的多层感知机网络来构建模型，该模型包含 LSTM网络结构，它是一种特殊的RNN,主要是输入层、隐藏层和输出层。采用一个3层架构的为了解决长序列训练过程中的梯度消失等问题。隐藏层，每个隐藏层将线性整流函数(ReLU)2山而且由于LSTM是按顺序地接收输入数据，这非作为激活函数。使用Sigmoid函数作为网络的输常适合于本文的序列预测问题。本文将图像特征出层。网络结构如图2(a)所示。向量(x)按顺序地传入LSTM中以编码隐藏状

首先将图像序列传送给计算机，让计算机在不知道图像间关系和图像内包含的内容的意义的前提下自动学习出其内在逻辑模式，从而进行数字序列的预测。所有这些图像都是黑白图像，右对齐，大小归一化 (15×85)，每张图像包含一个多位数，其可以是正数或负数，每张图像中的最大位数设置为 10。如图 1 所示，其中图 1(a) 的位数设置为 9 位，图 1(b) 位数设置为 10 位，图 1(c) 位数设置为 11 位，原本数字为 32 282 246 720，由于超出位数的设定，图像中最左位的数字无法完全显示，图 1(d) 为负数情形，位数设置为 10 位 (除符号位)。然后本文使用几种代表性的深度神经网络来完成数字序列逻辑学习任务，并加以比较分析。给出网络结构的详细描述。最后，为了测试本文的网络性能，本文以某种逻辑关系随机生成一批测试样本，每个样本包括 k 张图像，将前 k−1 张图像传入模型中，测试生成的图像是否正确。 (a) 位数为9位 (c) 位数为11位 (d) 位数为11位（负数） (b) 位数为10位（正数）图 1 图像展示 Fig. 1 Image display 1.2 网络结构本文在构造的数据集上比较了几种有代表性的深度神经网络的性能 (MLP、LSTM、CNN_ MLP、ResNet)。数据集的构造详见 2.1。全部模型均使用均方误差 (MSE) 损失作为优化函数， ADAM[20] 作为优化器，衰减率参数设置为 β1=0.9， β2=0.999。每个网络的详细结构和超参数设置如图 2。 Input Layer (a) MLP (c) CNN-MLP (d) ResNet-18 (b) LSTM HL1 HL2 HL3 Output Layher Input image FC 256 units Relu FC 1275 units Sigmoid resize 64 Feature maps Input Layer Conv 3×4 Conv 3×4 Conv 3×4 Conv 3×4 Input image Input image Pooling 2×2 Pooling 2×2 BN Relu BN Relu BN Relu BN Relu BN Relu BN Relu 64 Feature maps 64 Feature maps 64 Feature maps FC 256 units Full Full resize resize Sigmoid Dropout=0.5 Output image Output image connoction connoction FC 1275 units h0 h1 h2 h3 h4 Output image Input image1 Input image2 Input image3 Input image4 15×85×4 7×42×64 3×21×64 3×21×64 3×21×64 15×85 15×85 15×85 15×85 15×85 LSTM LSTM LSTM LSTM Output image ϕ(x1) ϕ(x2) ϕ(x3) ϕ(x4) x1 x2 x3 x4 Recument Network 15×85×4 15×85×4 7×7oonv64/2 Pool/2 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv128/2 3×3oonv256/2 3×3oonv512/2 3×3oonv256 3×3oonv256 3×3oonv256 3×3oonv212 3×3oonv212 3×3oonv212 3×3oonv128 3×3oonv128 3×3oonv128 avg pool Fc 1275 图 2 4 种神经网络结构 Fig. 2 Four neural network structures. 多层感知机 (MLP) 在本文中，使用一个 4 层的多层感知机网络来构建模型，该模型包含输入层、隐藏层和输出层。采用一个 3 层架构的隐藏层，每个隐藏层将线性整流函数 (ReLU)[21] 作为激活函数。使用 Sigmoid 函数作为网络的输出层。网络结构如图 2(a) 所示。 ϕ(xi) 长短期记忆网络 (LSTM) 本文采用标准的 LSTM 网络结构，它是一种特殊的 RNN，主要是为了解决长序列训练过程中的梯度消失等问题[22]。而且由于 LSTM 是按顺序地接收输入数据，这非常适合于本文的序列预测问题。本文将图像特征向量按顺序地传入 LSTM 中以编码隐藏状第 6 期梁慧，等：图像情境下的数字序列逻辑学习 ·1191·

·1192· 智能系统学报第14卷态h,其输出h,依赖于以前的状态h-l,当前的观数字和规则的模式构建的序列预测的有效性。察(x)以及上一时刻的单元状态c-1。其单元状态和隐藏状态公式如下： 2实验及分析 c((x).C-1)=f.c+i.c (1) 本节详细介绍了图像序列数据集的构造过程 h((x),h1)=o.tanh(c) (2) 及原则，并在所构造数据集上利用深度神经网络式中：c是t时刻的单元状态；f、i和o分别表示对各维度的图像数字序列的预测加以分析比较。遗忘门、输入门和输出门：G表示当前输入的单 2.1数据集元状态。结构如图2(b)所示。正如本文前面所提及，图像数字序列预测问卷积-全连接神经网络(CNN-MLP)本文使题的解决方法与传统数字序列的解决方法不同，用一个标准的4层卷积神经网络2，并将ReLU 它从另一种角度来解决数字序列预测问题。传统非线性函数作为卷积层的激活函数，在卷积输数字序列是在已知数字的意义下，然后根据序列出层后连接一个2层的全连接层(MLP)。为防止背景知识、结构复杂性等进行模式的构建，从而过拟合在第一个全连接层上使用丢失率为0.5的求解数字序列，而本文的方法是计算机在不知道 dropout21技术。结构及其超参数设置如图2(c) 如图3所示的a、b、c、d以及A、B、C、D间关系的所示。前提下自动地学习出其中所包含的内在逻辑模深度残差网络(ResNet)深度残差网络有很式，进而预测出所要求解的图像。多不同的结构26，包括ResNet18、34、50、101、本文构造了4个大的数据集，其包含各种图像序列，在本文中，根据其解决方案的不同将数 152等，在本文实验中，这几种网络的实验效果相差无几，所以在这里仅展示了ResNet18的实验结据集分为4种不同的类型，分别为：Linear、Mul- tiplication、Fio和Nested。.各类型图像序列的详细果。其结构如图2(d)所示。描述如下：l)Linear序列下一张图像的生成仅与本文的具体步骤如下：在训练阶段，传递给计前一张图像内容相关联，与其他项内容无关，其算机N张图像，每张图像包含一个多位数，如图3 仅涉及“+”和“-”两种数学运算，例如等差序列就所示（假设W=4),而且并不告知计算机每张图像是Linear序列的一个特例；2)Multiplication序列仅中包含的内容是什么，然后使用以上所提及的深包含“×”运算符，并且其每张图像的生成原理与度神经网络来完成数字序列逻辑学习任务，以便 Linear序列的生成原理相同，即仅与前一张图像计算机可以从前3张图像间的逻辑模式自动学习内容相关；3)Fo序列不仅与前一张图像的内容相第4张图像。在测试阶段，以某种逻辑关系随机关联，而且与前2张图像的内容相关联，所涉及的生成一批测试样本，每个样本包括4张图像，将运算符包括“+”和“-”。例如Fibonacci序列就是前3张图像放人模型中，以查看是否可以生成正 Fio序列的一个特例；4)对于Nested序列而言，其确的预测图像。包含更多的操作运算符：“+”、“-”和“×”，并且其运算不仅仅与前2项相关，还与任意的随机常数项相关联。用数学公式可以表述为： fn)=fn-1)±f(n-2)±b (3) 300 fn)=[fn-1)±fn-2)]×b (4) 图3计算机不知道给定图像中所包含的内容是什么 Fig.3 The computer doesn't know what the content in the 式中：fm)表示当前图像；fn-1)表示前一张图 given image is 像。式(3)~(4)均是Nested序列的数学表述。对于数据分析，本文系统地改变学习速率、从另一层面来讲，它可以说是Multiplication序批量大小、隐藏节点的数量和训练迭代等。这些列、Linear序列和Fio序列的复杂混合序列。变化应该允许将不同的神经网络模型与经验结果本文整个数据集的构造原则：)为方便构造进行比较。此外，本文将在所构造的数据集上对数据集，本文只考虑整数图像序列，图像序列可比分析不同的深度神经网络模型的性能，进一步以包含正数或负数；2)每张图像都包含一个多位验证本文所提出的图像数字序列逻辑学习对未知数，且每张图像中的最大位数设置为10。所有这

hi ht ht−1 ϕ(xt) ct−1 态，其输出依赖于以前的状态，当前的观察以及上一时刻的单元状态。其单元状态和隐藏状态公式如下： ct(ϕ(xt), ct−1) = f · ct−1 +i· ct (1) ht(ϕ(xt),ht−1) = o ·tanh(ct) (2) ct t f i o ct 式中：是时刻的单元状态；、和分别表示遗忘门、输入门和输出门；表示当前输入的单元状态。结构如图 2(b) 所示。卷积-全连接神经网络 (CNN-MLP) 本文使用一个标准的４层卷积神经网络[23-24] ，并将 ReLU 非线性函数作为卷积层的激活函数，在卷积输出层后连接一个２层的全连接层 (MLP)。为防止过拟合在第一个全连接层上使用丢失率为 0.5 的 dropout[25] 技术。结构及其超参数设置如图 2(c) 所示。深度残差网络 (ResNet) 深度残差网络有很多不同的结构[26] ，包括 ResNet18、34、50、101、 152 等，在本文实验中，这几种网络的实验效果相差无几，所以在这里仅展示了 ResNet18 的实验结果。其结构如图 2(d) 所示。本文的具体步骤如下：在训练阶段，传递给计算机 N 张图像，每张图像包含一个多位数，如图 3 所示 (假设 N=4)，而且并不告知计算机每张图像中包含的内容是什么，然后使用以上所提及的深度神经网络来完成数字序列逻辑学习任务，以便计算机可以从前 3 张图像间的逻辑模式自动学习第 4 张图像。在测试阶段，以某种逻辑关系随机生成一批测试样本，每个样本包括 4 张图像，将前 3 张图像放入模型中，以查看是否可以生成正确的预测图像。 a A B C D −51 −765 5661 136 b c d 图 3 计算机不知道给定图像中所包含的内容是什么 Fig. 3 The computer doesn't know what the content in the given image is 对于数据分析，本文系统地改变学习速率、批量大小、隐藏节点的数量和训练迭代等。这些变化应该允许将不同的神经网络模型与经验结果进行比较。此外，本文将在所构造的数据集上对比分析不同的深度神经网络模型的性能，进一步验证本文所提出的图像数字序列逻辑学习对未知数字和规则的模式构建的序列预测的有效性。 2 实验及分析本节详细介绍了图像序列数据集的构造过程及原则，并在所构造数据集上利用深度神经网络对各维度的图像数字序列的预测加以分析比较。 2.1 数据集正如本文前面所提及，图像数字序列预测问题的解决方法与传统数字序列的解决方法不同，它从另一种角度来解决数字序列预测问题。传统数字序列是在已知数字的意义下，然后根据序列背景知识、结构复杂性等进行模式的构建，从而求解数字序列，而本文的方法是计算机在不知道如图 3 所示的 a、b、c、d 以及 A、B、C、D 间关系的前提下自动地学习出其中所包含的内在逻辑模式，进而预测出所要求解的图像。本文构造了 4 个大的数据集，其包含各种图像序列，在本文中，根据其解决方案的不同将数据集分为 4 种不同的类型，分别为：Linear、Multiplication、Fio 和 Nested。各类型图像序列的详细描述如下：1)Linear 序列下一张图像的生成仅与前一张图像内容相关联，与其他项内容无关，其仅涉及“+”和“−”两种数学运算，例如等差序列就是 Linear 序列的一个特例；2)Multiplication 序列仅包含“×”运算符，并且其每张图像的生成原理与 Linear 序列的生成原理相同，即仅与前一张图像内容相关；3)Fio 序列不仅与前一张图像的内容相关联，而且与前 2 张图像的内容相关联，所涉及的运算符包括“+”和“−”。例如 Fibonacci 序列就是 Fio 序列的一个特例；4) 对于 Nested 序列而言，其包含更多的操作运算符：“+”、“−”和“×”，并且其运算不仅仅与前 2 项相关，还与任意的随机常数项相关联。用数学公式可以表述为： f(n) = f(n−1)± f(n−2)±b (3) f(n) = [f(n−1)± f(n−2)]×b (4) 式中： f(n) 表示当前图像； f(n−1) 表示前一张图像。式 (3) ~ (4) 均是 Nested 序列的数学表述。从另一层面来讲，它可以说是 Multiplication 序列、Linear 序列和 Fio 序列的复杂混合序列。本文整个数据集的构造原则：1) 为方便构造数据集，本文只考虑整数图像序列，图像序列可以包含正数或负数；2) 每张图像都包含一个多位数，且每张图像中的最大位数设置为 10。所有这 ·1192· 智能系统学报第 14 卷

第6期梁慧，等：图像情境下的数字序列逻辑学习 ·1193· 些图像均是黑白图像，对齐和尺寸标准化(15× 即输入节点的数量对最终预测结果的准确率有极 85):3)每张图像位数的设置最大为10位，本文选大的影响。Ragni等提出了一种基于人工神经择的数据集仅是一个小样本集，其在总集（即我网络的动态学习方法来解决数字序列预测问题，们数据的变动范围[-9999999999,999999999) 该实验结果表明：输入节点的最佳配置为4个节中的占比很小，也就是说，本文确保训练集、测试点。因此，本文对输入维度，即输人的图像数进集互不相交。本文为每种类型的数据集均选择行了实验并加以分析比较。了60000的图像数字序列，其中50000用于训练，本文对已构建的4个数据集进行了维度上的 l0O00用于测试。Linear序列、Multiplication序扩展，分别扩展为4维图像序列、5维图像序列和列、Fio序列和Nested序列的部分数据集如 6维图像序列，这里并没有扩展3维图像序列，因图47所示（以4维的图像数字序列为例）。为它的不确定性太大，例如本文的F0序列，其并 58 1035 158 2029 非简单地与最后一个数字有关，而是与最后2个 926 101 数字相关联。关于数据集及其分类部分在3.1节中已有详细介绍，此处将不再赘述。 31 3620 3524 对于实验1，首先给定计算机4张图像，与此 3 39 485 47 同时并不告知计算机每张图像中包含的内容是什图4 Linear序列么，在学习过程中，本文利用4种代表性的深度神 Fig.4 Linear sequences 经网络(MLP、LSTM、CNN MLP、ResNet)来完成 6257 4379 306593 2146151 数字序列逻辑学习任务，以便计算机可以从前 609 4263 29841 3张图像间的逻辑模式自动学习出第4张图像。 512 在测试阶段，本文任意输入4维图像序列，并将 15 271的 46182 前3张图像放入模型中进行测试，使用OC℉工具阿来识别得到的预测图像，将OCR的结果与期望输图5 Multiplication序列出进行比较，并计算预测正确的百分比。 Fig.5 Multiplication sequences 对于实验2，其步骤与实验1几乎相同。区别 12 255 之处在于：在学习阶段，本文给计算机提供5张图 48g 253 74 995 像，让计算机自动学习每张图像间的内在逻辑模 92 43 135 178 式。在测试阶段，输入5维图像序列，并将前4张 4740 2 4535 4330 图像传递到模型中以预测结果的正确性。对于实验3，步骤与前2个实验几乎相同。不图6Fi0序列 Fig.6 Fio sequences 同的是，在学习阶段，本文给计算机提供6张图像，让计算机自动学习出每张图像间的逻辑模 506 1332 式。在测试阶段，本文输入6维图像序列，并将 2680 2708 21089 前5张图像传入模型进行测试，以检测本文是否 658 126 288 5116 可以生成具有正确结果的图像。 18 278 本文利用上述提及的4种深度神经网络模型图7 Nested序列对每个实验进行了准确度的测试，实验结果如表1 Fig.7 Nested sequences 所示，从表1可以看到4种神经网络模型可以很 2.2实验结果及分析好地预测Linear序列和Fio序列，且维度越高，预到目前为止，解决数字序列预测的方法几乎测准确率越高。对Multiplication序列和Nested序都是在基于给定数字的含义下，通过归纳序列的列而言，MLP模型和LSTM模型对这2种序列的潜在规律，构建出满足该数字序列规律的模式，预测均呈现一种维度越高准确率越低的趋势。相从而预测数字。而且，对于传统数字序列而言，反，CNN MLP模型和ResNet模型呈现一种维度其模式的长度与最终的预测结果有很大的关系，越高，预测的准确率越高的情形，且ResNet模型

些图像均是黑白图像，对齐和尺寸标准化 (15× 85)；3) 每张图像位数的设置最大为 10 位，本文选择的数据集仅是一个小样本集，其在总集 (即我们数据的变动范围 [−999 999 999 9, 999 999 999]) 中的占比很小，也就是说，本文确保训练集、测试集互不相交。本文为每种类型的数据集均选择了 60 000 的图像数字序列，其中 50 000 用于训练， 10 000 用于测试。Linear 序列、Multiplication 序列、 F i o 序列和 Neste d 序列的部分数据集如图 4~7 所示 (以 4 维的图像数字序列为例)。图 4 Linear 序列 Fig. 4 Linear sequences 图 5 Multiplication 序列 Fig. 5 Multiplication sequences 图 6 Fio 序列 Fig. 6 Fio sequences 图 7 Nested 序列 Fig. 7 Nested sequences 2.2 实验结果及分析到目前为止，解决数字序列预测的方法几乎都是在基于给定数字的含义下，通过归纳序列的潜在规律，构建出满足该数字序列规律的模式，从而预测数字。而且，对于传统数字序列而言，其模式的长度与最终的预测结果有很大的关系，即输入节点的数量对最终预测结果的准确率有极大的影响。Ragni 等 [18] 提出了一种基于人工神经网络的动态学习方法来解决数字序列预测问题，该实验结果表明：输入节点的最佳配置为 4 个节点。因此，本文对输入维度，即输入的图像数进行了实验并加以分析比较。本文对已构建的 4 个数据集进行了维度上的扩展，分别扩展为 4 维图像序列、5 维图像序列和 6 维图像序列，这里并没有扩展 3 维图像序列，因为它的不确定性太大，例如本文的 Fio 序列，其并非简单地与最后一个数字有关，而是与最后 2 个数字相关联。关于数据集及其分类部分在 3.1 节中已有详细介绍，此处将不再赘述。对于实验 1，首先给定计算机 4 张图像，与此同时并不告知计算机每张图像中包含的内容是什么，在学习过程中，本文利用 4 种代表性的深度神经网络 (MLP、LSTM、CNN_MLP、ResNet) 来完成数字序列逻辑学习任务，以便计算机可以从前 3 张图像间的逻辑模式自动学习出第 4 张图像。在测试阶段，本文任意输入 4 维图像序列，并将前 3 张图像放入模型中进行测试，使用 OCR 工具[27] 来识别得到的预测图像，将 OCR 的结果与期望输出进行比较，并计算预测正确的百分比。对于实验 2，其步骤与实验 1 几乎相同。区别之处在于：在学习阶段，本文给计算机提供 5 张图像，让计算机自动学习每张图像间的内在逻辑模式。在测试阶段，输入 5 维图像序列，并将前 4 张图像传递到模型中以预测结果的正确性。对于实验 3，步骤与前 2 个实验几乎相同。不同的是，在学习阶段，本文给计算机提供 6 张图像，让计算机自动学习出每张图像间的逻辑模式。在测试阶段，本文输入 6 维图像序列，并将前 5 张图像传入模型进行测试，以检测本文是否可以生成具有正确结果的图像。本文利用上述提及的 4 种深度神经网络模型对每个实验进行了准确度的测试，实验结果如表 1 所示，从表 1 可以看到 4 种神经网络模型可以很好地预测 Linear 序列和 Fio 序列，且维度越高，预测准确率越高。对 Multiplication 序列和 Nested 序列而言，MLP 模型和 LSTM 模型对这 2 种序列的预测均呈现一种维度越高准确率越低的趋势。相反，CNN_MLP 模型和 ResNet 模型呈现一种维度越高，预测的准确率越高的情形，且 ResNet 模型第 6 期梁慧，等：图像情境下的数字序列逻辑学习 ·1193·

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录