第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905044 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006html 图像情境下的数字序列逻辑学习 梁慧中,曹峰,钱宇华23,郭倩,梁新彦 (1,山西大学大数据科学与产业研究院,山西太原030006,2.山西大学计算智能与中文信息处理教育部重点 实验室,山西太原030006:3.山西大学计算机与信息技术学院,山西太原030006) 摘要:针对未知的数字和规则的模式构建问题,本文提供了一种从图像角度解决数字序列逻辑学习问题的手 段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下,让计算机自主地学习出其中 包含的内在逻辑模式,从而进行数字序列的预测。本文构建了4个大型数据集:Linear序列、Multiplication序 列、Fio序列和Nstd序列.然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务,并对实验结 果加以分析比较,事实证明,本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题,这 为一系列未知逻辑模式构建任务提供了一种可能性。 关键词:人工智能:逻辑推理;逻辑学习;深度学习:数字序列;图像处理;神经网络:模式构建 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)06-1189-10 中文引用格式:梁慧,曹峰,钱宇华,等.图像情境下的数字序列逻辑学习.智能系统学报,2019,14(6):1189-1198. 英文引用格式:LIANG Hui,,CAO Feng,QIAN Yuhua,etal.Number sequence logic learning in image context Jl..CAAI transac-. tions on intelligent systems,2019,14(6):1189-1198. Number sequence logic learning in image context LIANG Hui'3,CAO Feng'3,QIAN Yuhua',GUO Qian'3,LIANG Xinyan'3 (1.Research Institute of Big Data Science and Industry,Shanxi University,Taiyuan 030006,China,2.Key Laboratory of Computa- tional Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China;3. School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:To solve the problem of pattern construction of unknown numbers and rules,in this paper,we provide a meth- od to solve the problems of number sequence logic learning from the image perspective.The method allows the com- puter to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence.Four large datasets were constructed:linear se- quences,multiplication sequences,fio sequences,and nested sequences,and then several representative deep neural net- works were used to complete the number sequence logic learning task.By analyzing the experimental results,the meth- od was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords:artificial intelligence;logical reasoning;logical learning;deep learning;number sequences;image pro- cessing;neural network;pattern construction 数字序列逻辑学习的发展可以说是经历了漫 收稿日期:2019-04-15.网络出版日期:2019-09-10 长的岁月,其可以追溯到人类早期历史。例如, 基金项目:国家自然科学基金项目(61672332,61432011, U1435212.61872226):山西省海外归国人员研究项 古时满月的预测山,并且其仍然是当今研究的活 目(2017023):山西省自然科学基金计划资助项目 跃领域,在股市中,我们经常会听到有神奇数字 201701D121052). 通信作者:钱字华.E-mail:jinchengqyh@126.com 时间之窗这一说法,其用到的波浪理论的数字基
DOI: 10.11992/tis.201905044 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006.html 图像情境下的数字序列逻辑学习 梁慧1,3,曹峰1,3,钱宇华1,2,3,郭倩1,3,梁新彦1,3 (1. 山西大学 大数据科学与产业研究院,山西 太原 030006; 2. 山西大学 计算智能与中文信息处理教育部重点 实验室,山西 太原 030006; 3. 山西大学 计算机与信息技术学院,山西 太原 030006) 摘 要:针对未知的数字和规则的模式构建问题,本文提供了一种从图像角度解决数字序列逻辑学习问题的手 段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下,让计算机自主地学习出其中 包含的内在逻辑模式,从而进行数字序列的预测。本文构建了 4 个大型数据集:Linear 序列、Multiplication 序 列、Fio 序列和 Nested 序列,然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务,并对实验结 果加以分析比较,事实证明,本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题,这 为一系列未知逻辑模式构建任务提供了一种可能性。 关键词:人工智能;逻辑推理;逻辑学习;深度学习;数字序列;图像处理;神经网络;模式构建 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)06−1189−10 中文引用格式:梁慧, 曹峰, 钱宇华, 等. 图像情境下的数字序列逻辑学习 [J]. 智能系统学报, 2019, 14(6): 1189–1198. 英文引用格式:LIANG Hui, CAO Feng, QIAN Yuhua, et al. Number sequence logic learning in image context[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1189–1198. Number sequence logic learning in image context LIANG Hui1,3 ,CAO Feng1,3 ,QIAN Yuhua1,2,3 ,GUO Qian1,3 ,LIANG Xinyan1,3 (1. Research Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006, China; 2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China; 3. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract: To solve the problem of pattern construction of unknown numbers and rules, in this paper, we provide a method to solve the problems of number sequence logic learning from the image perspective. The method allows the computer to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence. Four large datasets were constructed: linear sequences, multiplication sequences, fio sequences, and nested sequences, and then several representative deep neural networks were used to complete the number sequence logic learning task. By analyzing the experimental results, the method was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords: artificial intelligence; logical reasoning; logical learning; deep learning; number sequences; image processing; neural network; pattern construction 数字序列逻辑学习的发展可以说是经历了漫 长的岁月,其可以追溯到人类早期历史。例如, 古时满月的预测[1] ,并且其仍然是当今研究的活 跃领域,在股市中,我们经常会听到有神奇数字 时间之窗这一说法,其用到的波浪理论的数字基 收稿日期:2019−04−15. 网络出版日期:2019−09−10. 基金项目:国家自然科学基金项 目 (61672332, 61432011, U1435212,61872226);山西省海外归国人员研究项 目 (2017023);山西省自然科学基金计划资助项目 (201701D121052). 通信作者:钱宇华. E-mail:jinchengqyh@126.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1190· 智能系统学报 第14卷 础就是一系列的数列,此数列称为fibonacci序 传统数字序列逻辑学习也存在一定的不足,它很 列。大自然中还有很多与fibonacci序列有关的奇 难解决未知数字和规则的模式构建的数字序列预 妙现象,如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以 测问题。例如,每月的天数序列、Nested序列、交 及星系内星球的分布等。 替序列、带负数的序列等。举一个更为具体的例 数字序列逻辑学习问题是归纳推理和模式发 子:1)2,4,6810,12,…,2)1,2,3,5,4,4,2,…,对于第 现的经典问题之一),这些问题在哲学和数学领 1个序列,可以明显地观察到其是一个加2的规 域中已经研究了数千年,在心理学和计算机科学 律,这样就可以构建一个满足该规律的模式,传 领域中也已经研究了数十年。近些年来随着机 统数字序列技术可以很容易地解决此类预测问 器学习和深度学习的不断发展别,序列预测问题 题。对于第2个序列,难以看出其中的规律,且很 更是吸引了大家的广泛研究。数字序列预测问题 难用传统方法得到一种满足此序列的模式来预测 在各个领域的应用也是相当的广泛。其可以编码 该序列,实际上该序列是书写汉字如一二三四等 渐进矩阵问题,该问题是用二维矩阵表示的,科 需要的笔画数,故而下一个预测结果应为2。 学预测问题包括股票的预测、智商测试等,以及 针对传统数字序列逻辑学习的不足,本文提 许多归纳推理问题u0-121。早在1963年,Simon 出了图像数字序列逻辑学习任务,以从另一个角 等1就提出了针对一系列字母序列来预测的模 度来解决数字序列预测问题,其可以很好地解决 式描述程序,并解释了人类如何从记忆中的概念 传统数字序列难以解决的未知数字和规则的模式 或规则产生连续模式。Sanghi等提出了一种用 构建的序列预测问题。在传统数字序列逻辑学习 于智力测试的程序,该程序还解决了各种数字序 中,数字的含义及其规则都已被事先定义。而本 列预测问题。且针对数字序列预测问题的解决已 文提出的图像数字序列逻辑学习是在不知道图像 有很多方法,例如:反统一算法成功应用于交替 间关系和图像内包含的内容的意义的前提下,仍 序列和斐波纳契序列。Siebers等I1提出了一种 可以自动学习出其包含的内在逻辑模式。在本文 半分析方法用以解决自然数序列归纳问题,这实 中,图像序列中的所有图像都是15×85像素的黑 则是一种典型的智力测试任务,该方法通过术语 白图像,且每张图像包含一个多位数。然后将图 结构的启发式枚举来猜测给定数字序列的术语结 像传递给计算机,且并不告诉计算机图像中包含 构,最后利用数字序列评估系统来评估该方法, 最终结果精度达到93.2%。然而,其缺点是枚举 的内容是什么,让计算机自动学习图像之间的内 在逻辑模式,并且预测下一张图像中的内容。由 和搜索受到一种看似合理的偏见的严格限制。 Strannegard等1提出了IQ测试中数字序列预测 此看来,图像数字序列逻辑学习不仅可以解决数 问题的计算方法。该计算方法是通过开发ASov- 字序列预测问题,更是为解决一系列未知逻辑模 er来实现的,ASolver是一种基于有限工作记忆思 式构建任务提供了一种可能。 想的拟人化认知系统,其利用了人类推理的模型。 1 研究方法 结果表明,该算法的性能优于Maple和Wolfram- Alpha等数学工具。Hofmann等)证明了归纳程 本节主要介绍了图像数字序列逻辑学习的基 序系统IGOR2可以解决数字序列预测问题,其不 本任务,并详细描述了4种有代表性的深度神经 同于上述专门用于解决数字序列域中问题的系 网络的网络结构MLP、LSTM、CNN MLP、ResNet), 统,IGOR2可以解决不同问题解决域中的问题。 1.1 基本任务 IGOR2是一个从小组输入/输出示例中学习功能 图像数字序列逻辑学习是从另一个角度来解 程序的系统。但不足之处在于其无法很好地处理 决数字序列预测问题,其与传统数字序列解决方 负数和交替序列。Ragni等u8-1y提出了一种基于 案不同。传统数字序列技术是在已知数字和规则 人工神经网络(ANNs)的动态学习方法来解决数 的前提下构建模式。而本文的方法是在不知道图 字序列的预测问题。其总体结果与人类水平相 像间关系和图像内包含的内容的意义下来预测序 当,但误差分布差异很大,且无法解决Nested序 列,然后利用深度神经网络来完成数字序列逻辑 列问题(见2.1)。 学习任务,该任务的输入是几张相关的图像序 上述方法都是传统的方法,它是基于已知的 列,其输出仍然是图像,展示的是下一张图像序 数字和规则来构建模式,然后预测数字。然而, 列预测的结果
础就是一系列的数列,此数列称为 fibonacci 序 列。大自然中还有很多与 fibonacci 序列有关的奇 妙现象,如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以 及星系内星球的分布等。 数字序列逻辑学习问题是归纳推理和模式发 现的经典问题之一[2-3] ,这些问题在哲学和数学领 域中已经研究了数千年,在心理学和计算机科学 领域中也已经研究了数十年[4]。近些年来随着机 器学习和深度学习的不断发展[5-8] ,序列预测问题 更是吸引了大家的广泛研究。数字序列预测问题 在各个领域的应用也是相当的广泛。其可以编码 渐进矩阵问题[9] ,该问题是用二维矩阵表示的,科 学预测问题包括股票的预测、智商测试等,以及 许多归纳推理问题[ 1 0 - 1 2 ]。早在 1963 年 ,Simon 等 [13] 就提出了针对一系列字母序列来预测的模 式描述程序,并解释了人类如何从记忆中的概念 或规则产生连续模式。Sanghi 等 [14] 提出了一种用 于智力测试的程序,该程序还解决了各种数字序 列预测问题。且针对数字序列预测问题的解决已 有很多方法,例如:反统一算法成功应用于交替 序列和斐波纳契序列。Siebers 等 [15] 提出了一种 半分析方法用以解决自然数序列归纳问题,这实 则是一种典型的智力测试任务,该方法通过术语 结构的启发式枚举来猜测给定数字序列的术语结 构,最后利用数字序列评估系统来评估该方法, 最终结果精度达到 93.2%。然而,其缺点是枚举 和搜索受到一种看似合理的偏见的严格限制。 Strannegard 等 [16] 提出了 IQ 测试中数字序列预测 问题的计算方法。该计算方法是通过开发 ASolver 来实现的,ASolver 是一种基于有限工作记忆思 想的拟人化认知系统,其利用了人类推理的模型。 结果表明,该算法的性能优于 Maple 和 WolframAlpha 等数学工具。Hofmann 等 [17] 证明了归纳程 序系统 IGOR2 可以解决数字序列预测问题,其不 同于上述专门用于解决数字序列域中问题的系 统,IGOR2 可以解决不同问题解决域中的问题。 IGOR2 是一个从小组输入/输出示例中学习功能 程序的系统。但不足之处在于其无法很好地处理 负数和交替序列。Ragni 等 [18-19] 提出了一种基于 人工神经网络 (ANNs) 的动态学习方法来解决数 字序列的预测问题。其总体结果与人类水平相 当,但误差分布差异很大,且无法解决 Nested 序 列问题 (见 2.1)。 上述方法都是传统的方法,它是基于已知的 数字和规则来构建模式,然后预测数字。然而, 1) 2,4,6,8,10,12,··· , 2) 1,2,3,5,4,4,2,··· , 传统数字序列逻辑学习也存在一定的不足,它很 难解决未知数字和规则的模式构建的数字序列预 测问题。例如,每月的天数序列、Nested 序列、交 替序列、带负数的序列等。举一个更为具体的例 子 : 对于第 1 个序列,可以明显地观察到其是一个加 2 的规 律,这样就可以构建一个满足该规律的模式,传 统数字序列技术可以很容易地解决此类预测问 题。对于第 2 个序列,难以看出其中的规律,且很 难用传统方法得到一种满足此序列的模式来预测 该序列,实际上该序列是书写汉字如一二三四等 需要的笔画数,故而下一个预测结果应为 2。 针对传统数字序列逻辑学习的不足,本文提 出了图像数字序列逻辑学习任务,以从另一个角 度来解决数字序列预测问题,其可以很好地解决 传统数字序列难以解决的未知数字和规则的模式 构建的序列预测问题。在传统数字序列逻辑学习 中,数字的含义及其规则都已被事先定义。而本 文提出的图像数字序列逻辑学习是在不知道图像 间关系和图像内包含的内容的意义的前提下,仍 可以自动学习出其包含的内在逻辑模式。在本文 中,图像序列中的所有图像都是 15×85 像素的黑 白图像,且每张图像包含一个多位数。然后将图 像传递给计算机,且并不告诉计算机图像中包含 的内容是什么,让计算机自动学习图像之间的内 在逻辑模式,并且预测下一张图像中的内容。由 此看来,图像数字序列逻辑学习不仅可以解决数 字序列预测问题,更是为解决一系列未知逻辑模 式构建任务提供了一种可能。 1 研究方法 本节主要介绍了图像数字序列逻辑学习的基 本任务,并详细描述了 4 种有代表性的深度神经 网络的网络结构 (MLP、LSTM、CNN_MLP、ResNet)。 1.1 基本任务 图像数字序列逻辑学习是从另一个角度来解 决数字序列预测问题,其与传统数字序列解决方 案不同。传统数字序列技术是在已知数字和规则 的前提下构建模式。而本文的方法是在不知道图 像间关系和图像内包含的内容的意义下来预测序 列,然后利用深度神经网络来完成数字序列逻辑 学习任务,该任务的输入是几张相关的图像序 列,其输出仍然是图像,展示的是下一张图像序 列预测的结果。 ·1190· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1191· 首先将图像序列传送给计算机,让计算机在 k-1张图像传入模型中,测试生成的图像是否 不知道图像间关系和图像内包含的内容的意义的 正确。 前提下自动学习出其内在逻辑模式,从而进行数 258293760 2066350080 字序列的预测。所有这些图像都是黑白图像,右 (a)位数为9位 b)位数为10位(正数) 对齐,大小归一化(15×85),每张图像包含一个多 位数,其可以是正数或负数,每张图像中的最大 B2282246720 -3391078400 (c)位数为11位 位数设置为10。如图1所示,其中图1(a)的位数 (d位数为11位(负数) 设置为9位,图1(b)位数设置为10位,图1(c)位 图1图像展示 Fig.1 Image display 数设置为11位,原本数字为32282246720,由于 1.2网络结构 超出位数的设定,图像中最左位的数字无法完全 本文在构造的数据集上比较了几种有代表性 显示,图1(d)为负数情形,位数设置为10位(除符 的深度神经网络的性能(MLP、LSTM、CNN 号位)。然后本文使用几种代表性的深度神经网 MLP、ResNet)。数据集的构造详见2.I。全部模 络来完成数字序列逻辑学习任务,并加以比较分 型均使用均方误差(MSE)损失作为优化函数, 析。给出网络结构的详细描述。最后,为了测试 ADAM20作为优化器,衰减率参数设置为B,=0.9 本文的网络性能,本文以某种逻辑关系随机生成 B,=0.999。每个网络的详细结构和超参数设置如 一批测试样本,每个样本包括k张图像,将前 图2。 Input Layer Output Layher Recument Network STM STM STM 15x8 x p 15x85 15x85x4 15x8 (a)MLP (b)LSTM nout lave 15x85 Sigmoid 15x85x4 32164 32164 BN 3x21x64 74264 (c)CNN-MLP Dropout-0.5 (d)ResNet-18 15x85 图24种神经网络结构 Fig.2 Four neural network structures. 多层感知机(MLP)在本文中,使用一个 长短期记忆网络(LSTM)本文采用标准的 4层的多层感知机网络来构建模型,该模型包含 LSTM网络结构,它是一种特殊的RNN,主要是 输入层、隐藏层和输出层。采用一个3层架构的 为了解决长序列训练过程中的梯度消失等问题。 隐藏层,每个隐藏层将线性整流函数(ReLU)2山 而且由于LSTM是按顺序地接收输入数据,这非 作为激活函数。使用Sigmoid函数作为网络的输 常适合于本文的序列预测问题。本文将图像特征 出层。网络结构如图2(a)所示。 向量(x)按顺序地传入LSTM中以编码隐藏状
首先将图像序列传送给计算机,让计算机在 不知道图像间关系和图像内包含的内容的意义的 前提下自动学习出其内在逻辑模式,从而进行数 字序列的预测。所有这些图像都是黑白图像,右 对齐,大小归一化 (15×85),每张图像包含一个多 位数,其可以是正数或负数,每张图像中的最大 位数设置为 10。如图 1 所示,其中图 1(a) 的位数 设置为 9 位,图 1(b) 位数设置为 10 位,图 1(c) 位 数设置为 11 位,原本数字为 32 282 246 720,由于 超出位数的设定,图像中最左位的数字无法完全 显示,图 1(d) 为负数情形,位数设置为 10 位 (除符 号位)。然后本文使用几种代表性的深度神经网 络来完成数字序列逻辑学习任务,并加以比较分 析。给出网络结构的详细描述。最后,为了测试 本文的网络性能,本文以某种逻辑关系随机生成 一批测试样本,每个样本包括 k 张图像,将前 k−1 张图像传入模型中,测试生成的图像是否 正确。 (a) 位数为9位 (c) 位数为11位 (d) 位数为11位(负数) (b) 位数为10位(正数) 图 1 图像展示 Fig. 1 Image display 1.2 网络结构 本文在构造的数据集上比较了几种有代表性 的深度神经网络的性能 (MLP、LSTM、CNN_ MLP、ResNet)。数据集的构造详见 2.1。全部模 型均使用均方误差 (MSE) 损失作为优化函数, ADAM[20] 作为优化器,衰减率参数设置为 β1=0.9, β2=0.999。每个网络的详细结构和超参数设置如 图 2。 Input Layer (a) MLP (c) CNN-MLP (d) ResNet-18 (b) LSTM HL1 HL2 HL3 Output Layher Input image FC 256 units Relu FC 1275 units Sigmoid resize 64 Feature maps Input Layer Conv 3×4 Conv 3×4 Conv 3×4 Conv 3×4 Input image Input image Pooling 2×2 Pooling 2×2 BN Relu BN Relu BN Relu BN Relu BN Relu BN Relu 64 Feature maps 64 Feature maps 64 Feature maps FC 256 units Full Full resize resize Sigmoid Dropout=0.5 Output image Output image connoction connoction FC 1275 units h0 h1 h2 h3 h4 Output image Input image1 Input image2 Input image3 Input image4 15×85×4 7×42×64 3×21×64 3×21×64 3×21×64 15×85 15×85 15×85 15×85 15×85 LSTM LSTM LSTM LSTM Output image ϕ(x1) ϕ(x2) ϕ(x3) ϕ(x4) x1 x2 x3 x4 Recument Network 15×85×4 15×85×4 7×7oonv64/2 Pool/2 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv128/2 3×3oonv256/2 3×3oonv512/2 3×3oonv256 3×3oonv256 3×3oonv256 3×3oonv212 3×3oonv212 3×3oonv212 3×3oonv128 3×3oonv128 3×3oonv128 avg pool Fc 1275 图 2 4 种神经网络结构 Fig. 2 Four neural network structures. 多层感知机 (MLP) 在本文中,使用一个 4 层的多层感知机网络来构建模型,该模型包含 输入层、隐藏层和输出层。采用一个 3 层架构的 隐藏层,每个隐藏层将线性整流函数 (ReLU)[21] 作为激活函数。使用 Sigmoid 函数作为网络的输 出层。网络结构如图 2(a) 所示。 ϕ(xi) 长短期记忆网络 (LSTM) 本文采用标准的 LSTM 网络结构,它是一种特殊的 RNN,主要是 为了解决长序列训练过程中的梯度消失等问题[22]。 而且由于 LSTM 是按顺序地接收输入数据,这非 常适合于本文的序列预测问题。本文将图像特征 向量 按顺序地传入 LSTM 中以编码隐藏状 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1191·
·1192· 智能系统学报 第14卷 态h,其输出h,依赖于以前的状态h-l,当前的观 数字和规则的模式构建的序列预测的有效性。 察(x)以及上一时刻的单元状态c-1。其单元状 态和隐藏状态公式如下: 2实验及分析 c((x).C-1)=f.c+i.c (1) 本节详细介绍了图像序列数据集的构造过程 h((x),h1)=o.tanh(c) (2) 及原则,并在所构造数据集上利用深度神经网络 式中:c是t时刻的单元状态;f、i和o分别表示 对各维度的图像数字序列的预测加以分析比较。 遗忘门、输入门和输出门:G表示当前输入的单 2.1数据集 元状态。结构如图2(b)所示。 正如本文前面所提及,图像数字序列预测问 卷积-全连接神经网络(CNN-MLP)本文使 题的解决方法与传统数字序列的解决方法不同, 用一个标准的4层卷积神经网络2,并将ReLU 它从另一种角度来解决数字序列预测问题。传统 非线性函数作为卷积层的激活函数,在卷积输 数字序列是在已知数字的意义下,然后根据序列 出层后连接一个2层的全连接层(MLP)。为防止 背景知识、结构复杂性等进行模式的构建,从而 过拟合在第一个全连接层上使用丢失率为0.5的 求解数字序列,而本文的方法是计算机在不知道 dropout21技术。结构及其超参数设置如图2(c) 如图3所示的a、b、c、d以及A、B、C、D间关系的 所示。 前提下自动地学习出其中所包含的内在逻辑模 深度残差网络(ResNet)深度残差网络有很 式,进而预测出所要求解的图像。 多不同的结构26,包括ResNet18、34、50、101、 本文构造了4个大的数据集,其包含各种图 像序列,在本文中,根据其解决方案的不同将数 152等,在本文实验中,这几种网络的实验效果相 差无几,所以在这里仅展示了ResNet18的实验结 据集分为4种不同的类型,分别为:Linear、Mul- tiplication、Fio和Nested。.各类型图像序列的详细 果。其结构如图2(d)所示。 描述如下:l)Linear序列下一张图像的生成仅与 本文的具体步骤如下:在训练阶段,传递给计 前一张图像内容相关联,与其他项内容无关,其 算机N张图像,每张图像包含一个多位数,如图3 仅涉及“+”和“-”两种数学运算,例如等差序列就 所示(假设W=4),而且并不告知计算机每张图像 是Linear序列的一个特例;2)Multiplication序列仅 中包含的内容是什么,然后使用以上所提及的深 包含“×”运算符,并且其每张图像的生成原理与 度神经网络来完成数字序列逻辑学习任务,以便 Linear序列的生成原理相同,即仅与前一张图像 计算机可以从前3张图像间的逻辑模式自动学习 内容相关;3)Fo序列不仅与前一张图像的内容相 第4张图像。在测试阶段,以某种逻辑关系随机 关联,而且与前2张图像的内容相关联,所涉及的 生成一批测试样本,每个样本包括4张图像,将 运算符包括“+”和“-”。例如Fibonacci序列就是 前3张图像放人模型中,以查看是否可以生成正 Fio序列的一个特例;4)对于Nested序列而言,其 确的预测图像。 包含更多的操作运算符:“+”、“-”和“×”,并且其 运算不仅仅与前2项相关,还与任意的随机常数 项相关联。用数学公式可以表述为: fn)=fn-1)±f(n-2)±b (3) 300 fn)=[fn-1)±fn-2)]×b (4) 图3计算机不知道给定图像中所包含的内容是什么 Fig.3 The computer doesn't know what the content in the 式中:fm)表示当前图像;fn-1)表示前一张图 given image is 像。式(3)~(4)均是Nested序列的数学表述。 对于数据分析,本文系统地改变学习速率、 从另一层面来讲,它可以说是Multiplication序 批量大小、隐藏节点的数量和训练迭代等。这些 列、Linear序列和Fio序列的复杂混合序列。 变化应该允许将不同的神经网络模型与经验结果 本文整个数据集的构造原则:)为方便构造 进行比较。此外,本文将在所构造的数据集上对 数据集,本文只考虑整数图像序列,图像序列可 比分析不同的深度神经网络模型的性能,进一步 以包含正数或负数;2)每张图像都包含一个多位 验证本文所提出的图像数字序列逻辑学习对未知 数,且每张图像中的最大位数设置为10。所有这
hi ht ht−1 ϕ(xt) ct−1 态 ,其输出 依赖于以前的状态 ,当前的观 察 以及上一时刻的单元状态 。其单元状 态和隐藏状态公式如下: ct(ϕ(xt), ct−1) = f · ct−1 +i· ct (1) ht(ϕ(xt),ht−1) = o ·tanh(ct) (2) ct t f i o ct 式中: 是 时刻的单元状态; 、 和 分别表示 遗忘门、输入门和输出门; 表示当前输入的单 元状态。结构如图 2(b) 所示。 卷积-全连接神经网络 (CNN-MLP) 本文使 用一个标准的4层卷积神经网络[23-24] ,并将 ReLU 非线性函数作为卷积层的激活函数,在卷积输 出层后连接一个2层的全连接层 (MLP)。为防止 过拟合在第一个全连接层上使用丢失率为 0.5 的 dropout[25] 技术。结构及其超参数设置如图 2(c) 所示。 深度残差网络 (ResNet) 深度残差网络有很 多不同的结构[26] ,包括 ResNet18、34、50、101、 152 等,在本文实验中,这几种网络的实验效果相 差无几,所以在这里仅展示了 ResNet18 的实验结 果。其结构如图 2(d) 所示。 本文的具体步骤如下:在训练阶段,传递给计 算机 N 张图像,每张图像包含一个多位数,如图 3 所示 (假设 N=4),而且并不告知计算机每张图像 中包含的内容是什么,然后使用以上所提及的深 度神经网络来完成数字序列逻辑学习任务,以便 计算机可以从前 3 张图像间的逻辑模式自动学习 第 4 张图像。在测试阶段,以某种逻辑关系随机 生成一批测试样本,每个样本包括 4 张图像,将 前 3 张图像放入模型中,以查看是否可以生成正 确的预测图像。 a A B C D −51 −765 5661 136 b c d 图 3 计算机不知道给定图像中所包含的内容是什么 Fig. 3 The computer doesn't know what the content in the given image is 对于数据分析,本文系统地改变学习速率、 批量大小、隐藏节点的数量和训练迭代等。这些 变化应该允许将不同的神经网络模型与经验结果 进行比较。此外,本文将在所构造的数据集上对 比分析不同的深度神经网络模型的性能,进一步 验证本文所提出的图像数字序列逻辑学习对未知 数字和规则的模式构建的序列预测的有效性。 2 实验及分析 本节详细介绍了图像序列数据集的构造过程 及原则,并在所构造数据集上利用深度神经网络 对各维度的图像数字序列的预测加以分析比较。 2.1 数据集 正如本文前面所提及,图像数字序列预测问 题的解决方法与传统数字序列的解决方法不同, 它从另一种角度来解决数字序列预测问题。传统 数字序列是在已知数字的意义下,然后根据序列 背景知识、结构复杂性等进行模式的构建,从而 求解数字序列,而本文的方法是计算机在不知道 如图 3 所示的 a、b、c、d 以及 A、B、C、D 间关系的 前提下自动地学习出其中所包含的内在逻辑模 式,进而预测出所要求解的图像。 本文构造了 4 个大的数据集,其包含各种图 像序列,在本文中,根据其解决方案的不同将数 据集分为 4 种不同的类型,分别为:Linear、Multiplication、Fio 和 Nested。各类型图像序列的详细 描述如下:1)Linear 序列下一张图像的生成仅与 前一张图像内容相关联,与其他项内容无关,其 仅涉及“+”和“−”两种数学运算,例如等差序列就 是 Linear 序列的一个特例;2)Multiplication 序列仅 包含“×”运算符,并且其每张图像的生成原理与 Linear 序列的生成原理相同,即仅与前一张图像 内容相关;3)Fio 序列不仅与前一张图像的内容相 关联,而且与前 2 张图像的内容相关联,所涉及的 运算符包括“+”和“−”。例如 Fibonacci 序列就是 Fio 序列的一个特例;4) 对于 Nested 序列而言,其 包含更多的操作运算符:“+”、“−”和“×”,并且其 运算不仅仅与前 2 项相关,还与任意的随机常数 项相关联。用数学公式可以表述为: f(n) = f(n−1)± f(n−2)±b (3) f(n) = [f(n−1)± f(n−2)]×b (4) 式中: f(n) 表示当前图像; f(n−1) 表示前一张图 像。式 (3) ~ (4) 均是 Nested 序列的数学表述。 从另一层面来讲,它可以说是 Multiplication 序 列、Linear 序列和 Fio 序列的复杂混合序列。 本文整个数据集的构造原则:1) 为方便构造 数据集,本文只考虑整数图像序列,图像序列可 以包含正数或负数;2) 每张图像都包含一个多位 数,且每张图像中的最大位数设置为 10。所有这 ·1192· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1193· 些图像均是黑白图像,对齐和尺寸标准化(15× 即输入节点的数量对最终预测结果的准确率有极 85):3)每张图像位数的设置最大为10位,本文选 大的影响。Ragni等提出了一种基于人工神经 择的数据集仅是一个小样本集,其在总集(即我 网络的动态学习方法来解决数字序列预测问题, 们数据的变动范围[-9999999999,999999999) 该实验结果表明:输入节点的最佳配置为4个节 中的占比很小,也就是说,本文确保训练集、测试 点。因此,本文对输入维度,即输人的图像数进 集互不相交。本文为每种类型的数据集均选择 行了实验并加以分析比较。 了60000的图像数字序列,其中50000用于训练, 本文对已构建的4个数据集进行了维度上的 l0O00用于测试。Linear序列、Multiplication序 扩展,分别扩展为4维图像序列、5维图像序列和 列、Fio序列和Nested序列的部分数据集如 6维图像序列,这里并没有扩展3维图像序列,因 图47所示(以4维的图像数字序列为例)。 为它的不确定性太大,例如本文的F0序列,其并 58 1035 158 2029 非简单地与最后一个数字有关,而是与最后2个 926 101 数字相关联。关于数据集及其分类部分在3.1节 中已有详细介绍,此处将不再赘述。 31 3620 3524 对于实验1,首先给定计算机4张图像,与此 3 39 485 47 同时并不告知计算机每张图像中包含的内容是什 图4 Linear序列 么,在学习过程中,本文利用4种代表性的深度神 Fig.4 Linear sequences 经网络(MLP、LSTM、CNN MLP、ResNet)来完成 6257 4379 306593 2146151 数字序列逻辑学习任务,以便计算机可以从前 609 4263 29841 3张图像间的逻辑模式自动学习出第4张图像。 512 在测试阶段,本文任意输入4维图像序列,并将 15 271的 46182 前3张图像放入模型中进行测试,使用OC℉工具阿 来识别得到的预测图像,将OCR的结果与期望输 图5 Multiplication序列 出进行比较,并计算预测正确的百分比。 Fig.5 Multiplication sequences 对于实验2,其步骤与实验1几乎相同。区别 12 255 之处在于:在学习阶段,本文给计算机提供5张图 48g 253 74 995 像,让计算机自动学习每张图像间的内在逻辑模 92 43 135 178 式。在测试阶段,输入5维图像序列,并将前4张 4740 2 4535 4330 图像传递到模型中以预测结果的正确性。 对于实验3,步骤与前2个实验几乎相同。不 图6Fi0序列 Fig.6 Fio sequences 同的是,在学习阶段,本文给计算机提供6张图 像,让计算机自动学习出每张图像间的逻辑模 506 1332 式。在测试阶段,本文输入6维图像序列,并将 2680 2708 21089 前5张图像传入模型进行测试,以检测本文是否 658 126 288 5116 可以生成具有正确结果的图像。 18 278 本文利用上述提及的4种深度神经网络模型 图7 Nested序列 对每个实验进行了准确度的测试,实验结果如表1 Fig.7 Nested sequences 所示,从表1可以看到4种神经网络模型可以很 2.2实验结果及分析 好地预测Linear序列和Fio序列,且维度越高,预 到目前为止,解决数字序列预测的方法几乎 测准确率越高。对Multiplication序列和Nested序 都是在基于给定数字的含义下,通过归纳序列的 列而言,MLP模型和LSTM模型对这2种序列的 潜在规律,构建出满足该数字序列规律的模式, 预测均呈现一种维度越高准确率越低的趋势。相 从而预测数字。而且,对于传统数字序列而言, 反,CNN MLP模型和ResNet模型呈现一种维度 其模式的长度与最终的预测结果有很大的关系, 越高,预测的准确率越高的情形,且ResNet模型
些图像均是黑白图像,对齐和尺寸标准化 (15× 85);3) 每张图像位数的设置最大为 10 位,本文选 择的数据集仅是一个小样本集,其在总集 (即我 们数据的变动范围 [−999 999 999 9, 999 999 999]) 中的占比很小,也就是说,本文确保训练集、测试 集互不相交。本文为每种类型的数据集均选择 了 60 000 的图像数字序列,其中 50 000 用于训练, 10 000 用于测试。Linear 序列、Multiplication 序 列 、 F i o 序 列 和 Neste d 序列的部分数据集如 图 4~7 所示 (以 4 维的图像数字序列为例)。 图 4 Linear 序列 Fig. 4 Linear sequences 图 5 Multiplication 序列 Fig. 5 Multiplication sequences 图 6 Fio 序列 Fig. 6 Fio sequences 图 7 Nested 序列 Fig. 7 Nested sequences 2.2 实验结果及分析 到目前为止,解决数字序列预测的方法几乎 都是在基于给定数字的含义下,通过归纳序列的 潜在规律,构建出满足该数字序列规律的模式, 从而预测数字。而且,对于传统数字序列而言, 其模式的长度与最终的预测结果有很大的关系, 即输入节点的数量对最终预测结果的准确率有极 大的影响。Ragni 等 [18] 提出了一种基于人工神经 网络的动态学习方法来解决数字序列预测问题, 该实验结果表明:输入节点的最佳配置为 4 个节 点。因此,本文对输入维度,即输入的图像数进 行了实验并加以分析比较。 本文对已构建的 4 个数据集进行了维度上的 扩展,分别扩展为 4 维图像序列、5 维图像序列和 6 维图像序列,这里并没有扩展 3 维图像序列,因 为它的不确定性太大,例如本文的 Fio 序列,其并 非简单地与最后一个数字有关,而是与最后 2 个 数字相关联。关于数据集及其分类部分在 3.1 节 中已有详细介绍,此处将不再赘述。 对于实验 1,首先给定计算机 4 张图像,与此 同时并不告知计算机每张图像中包含的内容是什 么,在学习过程中,本文利用 4 种代表性的深度神 经网络 (MLP、LSTM、CNN_MLP、ResNet) 来完成 数字序列逻辑学习任务,以便计算机可以从前 3 张图像间的逻辑模式自动学习出第 4 张图像。 在测试阶段,本文任意输入 4 维图像序列,并将 前 3 张图像放入模型中进行测试,使用 OCR 工具[27] 来识别得到的预测图像,将 OCR 的结果与期望输 出进行比较,并计算预测正确的百分比。 对于实验 2,其步骤与实验 1 几乎相同。区别 之处在于:在学习阶段,本文给计算机提供 5 张图 像,让计算机自动学习每张图像间的内在逻辑模 式。在测试阶段,输入 5 维图像序列,并将前 4 张 图像传递到模型中以预测结果的正确性。 对于实验 3,步骤与前 2 个实验几乎相同。不 同的是,在学习阶段,本文给计算机提供 6 张图 像,让计算机自动学习出每张图像间的逻辑模 式。在测试阶段,本文输入 6 维图像序列,并将 前 5 张图像传入模型进行测试,以检测本文是否 可以生成具有正确结果的图像。 本文利用上述提及的 4 种深度神经网络模型 对每个实验进行了准确度的测试,实验结果如表 1 所示,从表 1 可以看到 4 种神经网络模型可以很 好地预测 Linear 序列和 Fio 序列,且维度越高,预 测准确率越高。对 Multiplication 序列和 Nested 序 列而言,MLP 模型和 LSTM 模型对这 2 种序列的 预测均呈现一种维度越高准确率越低的趋势。相 反,CNN_MLP 模型和 ResNet 模型呈现一种维度 越高,预测的准确率越高的情形,且 ResNet 模型 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1193·