第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992/tis.201911007 大数据智能:从数据拟合最优解到博弈对抗均衡解 蒋胤傑2,况琨2,吴飞2 (1.浙江大学计算机科学与技术学院,浙江杭州310027,2.浙江大学人工智能研究所,浙江杭州310027) 摘要:数据驱动的机器学习(特别是深度学习)在自然语言处理、计算机视觉分析和语音识别等领域取得了 巨大进展,是人工智能研究的热点。但是传统机器学习是通过各种优化算法拟合训练数据集上的最优模型,即 在模型上的平均损失最小,而在现实生活的很多问题(如商业竞拍、资源分配等)中,人工智能算法学习的目标 应该是是均衡解,即在动态情况下也有较好效果。这就需要将博弈的思想应用于大数据智能。通过蒙特卡洛 树搜索和强化学习等方法,可以将博弈与人工智能相结合,寻求博弈对抗模型的均衡解。从数据拟合的最优解 到博弈对抗的均衡解能让大数据智能有更广阔的应用空间。 关键词:人工智能:大数据:最优拟合;神经网络结构搜索;博弈论;纳什均衡 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)01-0175-08 中文引用格式:蒋胤傑,况琨,吴飞.大数据智能:从数据拟合最优解到博奔对抗均衡解.智能系统学报,2020,15(1)归 175-182. 英文引用格式:JIANG Yinjie,KUANGKun,WU Fei.Big data intelligence:from the optimal solution of data fitting to the equilib- rium solution of game theory[JI.CAAI transactions on intelligent systems,2020,15(1):175-182. Big data intelligence:from the optimal solution of data fitting to the equilibrium solution of game theory JIANG Yinjie2,KUANG Kun'2,WU Fei2 (1.College of Computer Science and Technology,Zhejiang University,Hangzhou 310027,China;2.Institute of Artificial Intelli- gence,Zhejiang University,Hangzhou 310027,China) Abstract:Data-driven machine learning (especially deep learning),which is a hot topic in artificial intelligence re- search,has made great progress in the fields of natural language processing,computer vision analysis and speech recog- nition,etc.The optimization of parameters in traditional machine learning can be regarded as the process of data fitting, the optimal model on the training data set is fitted by various optimization algorithms.However,in real applications such as commodity bidding and resource allocation,the target of artificial intelligence algorithm is not an optimal solu- tion,but an equilibrium solution,which requires the application of the game theory to big data intelligence.Combining game theory with artificial intelligence can expand the application space of big data intelligence. Keywords:artificial intelligence,big data;optimal fitting,neural network architecture search;game theory;Nash equilibrium 自从AlexNet!在2012年的ImageNet Large 深度学习是一种有标注的大数据驱动下,拟合给 Scale Visual Recognition Challenge(ILSVRC) 定数据最优模型的学习方法。这种数据拟合的思 中大放异彩之后,深度学习成为了大数据智能领 想在解决单一任务中取得了较好性能,但是在不 域的一个研究热点。此后,神经网络的结构不断 同数据集上应用相同模型时,或多或少的会对模 地更新,其规模也越来越大,但是从总体上来说, 型的超参数进行一定的改变。如何自动化地针对 问题对模型进行适应性的改进仍是一个难题。 收稿日期:2019-11-11 将深度学习模型应用于实际场景中,当采集 基金项目:国家自然科学基金人工智能基础研究应急管理项 到的数据与数据集的数据有较大的差别时,这种 目(61751209). 通信作者:蒋胤傑.E-mail:jiangyinjic(@zju.edu.cn. 基于数据拟合的最优解方法可能会失效。针对
DOI: 10.11992/tis.201911007 大数据智能:从数据拟合最优解到博弈对抗均衡解 蒋胤傑1,2,况琨1,2,吴飞1,2 (1. 浙江大学 计算机科学与技术学院,浙江 杭州 310027; 2. 浙江大学 人工智能研究所,浙江 杭州 310027) 摘 要:数据驱动的机器学习(特别是深度学习)在自然语言处理、计算机视觉分析和语音识别等领域取得了 巨大进展,是人工智能研究的热点。但是传统机器学习是通过各种优化算法拟合训练数据集上的最优模型,即 在模型上的平均损失最小,而在现实生活的很多问题(如商业竞拍、资源分配等)中,人工智能算法学习的目标 应该是是均衡解,即在动态情况下也有较好效果。这就需要将博弈的思想应用于大数据智能。通过蒙特卡洛 树搜索和强化学习等方法,可以将博弈与人工智能相结合,寻求博弈对抗模型的均衡解。从数据拟合的最优解 到博弈对抗的均衡解能让大数据智能有更广阔的应用空间。 关键词:人工智能;大数据;最优拟合;神经网络结构搜索;博弈论;纳什均衡 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)01−0175−08 中文引用格式:蒋胤傑, 况琨, 吴飞. 大数据智能:从数据拟合最优解到博弈对抗均衡解 [J]. 智能系统学报, 2020, 15(1): 175–182. 英文引用格式:JIANG Yinjie, KUANG Kun, WU Fei. Big data intelligence: from the optimal solution of data fitting to the equilibrium solution of game theory[J]. CAAI transactions on intelligent systems, 2020, 15(1): 175–182. Big data intelligence: from the optimal solution of data fitting to the equilibrium solution of game theory JIANG Yinjie1,2 ,KUANG Kun1,2 ,WU Fei1,2 (1. College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China; 2. Institute of Artificial Intelligence, Zhejiang University, Hangzhou 310027, China) Abstract: Data-driven machine learning (especially deep learning), which is a hot topic in artificial intelligence research, has made great progress in the fields of natural language processing, computer vision analysis and speech recognition, etc. The optimization of parameters in traditional machine learning can be regarded as the process of data fitting, the optimal model on the training data set is fitted by various optimization algorithms. However, in real applications such as commodity bidding and resource allocation, the target of artificial intelligence algorithm is not an optimal solution, but an equilibrium solution, which requires the application of the game theory to big data intelligence. Combining game theory with artificial intelligence can expand the application space of big data intelligence. Keywords: artificial intelligence; big data; optimal fitting; neural network architecture search; game theory; Nash equilibrium 自从 AlexNet[1] 在 2012 年的 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)[2] 比赛 中大放异彩之后,深度学习成为了大数据智能领 域的一个研究热点。此后,神经网络的结构不断 地更新,其规模也越来越大,但是从总体上来说, 深度学习是一种有标注的大数据驱动下,拟合给 定数据最优模型的学习方法。这种数据拟合的思 想在解决单一任务中取得了较好性能,但是在不 同数据集上应用相同模型时,或多或少的会对模 型的超参数进行一定的改变。如何自动化地针对 问题对模型进行适应性的改进仍是一个难题。 将深度学习模型应用于实际场景中,当采集 到的数据与数据集的数据有较大的差别时,这种 基于数据拟合的最优解方法可能会失效[3]。针对 收稿日期:2019−11−11. 基金项目:国家自然科学基金人工智能基础研究应急管理项 目 (61751209). 通信作者:蒋胤傑. E-mail:jiangyinjie@zju.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·176· 智能系统学报 第15卷 模型的对抗样本攻击也证明了这一点。另一方 经元之间的连接方式可以是简单的链式堆叠,也 面,真实世界的数据反映了复杂的社会现象,数 可以是有分支的有向无环图结构。 据拟合的单纯方法难以刻画真实世界中商品竞拍 1.1.2深度学习的参数优化 和博弈对抗等行为。这样,盲目增加模型复杂度 深度学习中优化的参数主要是每个神经元链 只会对数据集“过拟合”,而不会真正提升模型在 接权重大小。在深度学习的模型中,通过不同神 现实世界中的表现。产生这种现象的一个重要原 经元的线性组合以及非线性激活函数输出预测结 因是训练好的模型很难在实际使用中根据现实情 果,并计算预测结果与真实标签的误差,再将误 况的差异做出调整。在这种情况下,对于复杂问 差利用反向传播算法,对参数进行优化。此外, 题,机器学习不应只关注于求解数据拟合的最优 为了防止过拟合,在优化参数时常常会在误差项 解,而应该从博弈的角度出发,通过寻找问题的 后对参数施以一定约束(如参数稀疏等)。记深度 均衡解,找到不同场合下适用的求解方法。博弈 学习的神经网络模型为F,则第i个训练数据x:对 论虽然是经济学的一个分支,但是自现代博弈论 应的预测输出结果为F(x),若这个数据对应的真 创立之初,其就与计算机科学产生了千丝万缕的 实标签为y,则对这个训练数据的误差记作 联系,近年来更是与人工智能相结合,在围棋、德 Loss(F(x),y),对于不同的问题可以采用不同的损 州扑克、星际争霸等游戏中战胜人类选手6。 失函数来计算误差,最终优化的目标就是在数据 1深度学习中的最优解拟合 全集上最小化损失函数。假设训练数据集中共 有N个训练样本,优化目标可以表示为 1.1深度学习的数据拟合 1.1.1从浅层学习到深度学习 min(∑Los(F(x),)) 神经网络最初的研究可以追潮到20世纪 在进行参数优化的过程中,由于训练数据的 50年代所提出的“感知机”模型四,这是一种根据 规模通常较大,所以需要将训练数据分批计算损 生物神经细胞信号传导过程而设计的学习模型。 失函数,再将每一批数据的误差反向传播,应用 神经网络被普遍应用于机器学习等领域是在误差 梯度下降法6对参数进行优化。对于神经网络 反向传播算法01被提出后,这一算法使得具有 模型中的待优化参数,在梯度下降的每一步中 拟合非线性函数能力的“多层感知机“模型的参数 参数都会如下优化更新: 可以通过反向传播算法进行优化。此后类似多层 oloss 感知机的一系列浅层学习的机器学习算法被提 waew=w-刀X 出,包括支持向量机1]和Boosting!等方法。浅 式中:1oss表示由一批训练数据计算所得误差; 层学习往往需要人工定义和构造特征,难以完成 ”表示学习率,是一个模型训练的超参数,表示根 端到端的训练过程。 据每批训练数据进行优化的步长。 2006年,Hinton等首次提出了深度学习的 可以看出,即使利用梯度下降法,在模型参数 概念。深度学习是一种端到端学习(end-to-end 较多和训练数据规模较大的情况下,深度学习的 learning)的机制,在给定输人数据后,可以自动提 数据拟合是一个非常缓慢的过程,尤其是近年来 取其最具区别力的特征,挖掘数据内部的隐含关 神经网络的规模越来越大,例如在自然语言领域 系。此后,深度学习在许多大规模数据上进行的 表现优秀的模型BERT,就有1.1×103.4×108个 实验都表现出了远超过浅层学习的效果,深度学 训练参数7。 习逐步成为当下人工智能的研究热点。 1.2深度学习中的超参数 深度学习的基础仍然是人工神经网络,一个 1.2.1深度学习模型的人工设计 深度学习的模型由多个神经元叠加构成。对于单 随着深度学习在各个领域大放异彩,人们提 个神经元,其输入向量记为a=[a,a2,…,anJ,神 出了大量不同的深度学习模型。但是归根结底, 经元的参数记为w=[w1,w2,…,wJ,神经元内使 深度学习模型可以优化的主要参数为神经元之间 用的非线性激活函数为g,则这个神经元的输 链接权重向量,除此之外神经元之间的连接方式 出为 均通过人工设计完成。目前最广泛使用的两种基 f(a)=g(w.a)=>g(w,×a,) 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 一个深度学习模型包含若干基本神经元,神 在这基础之上的各种不同结构的模型都是针对某
模型的对抗样本攻击也证明了这一点[4]。另一方 面,真实世界的数据反映了复杂的社会现象,数 据拟合的单纯方法难以刻画真实世界中商品竞拍 和博弈对抗等行为。这样,盲目增加模型复杂度 只会对数据集“过拟合”,而不会真正提升模型在 现实世界中的表现。产生这种现象的一个重要原 因是训练好的模型很难在实际使用中根据现实情 况的差异做出调整。在这种情况下,对于复杂问 题,机器学习不应只关注于求解数据拟合的最优 解,而应该从博弈的角度出发,通过寻找问题的 均衡解,找到不同场合下适用的求解方法。博弈 论虽然是经济学的一个分支,但是自现代博弈论 创立之初,其就与计算机科学产生了千丝万缕的 联系,近年来更是与人工智能相结合,在围棋、德 州扑克、星际争霸等游戏中战胜人类选手[5-8]。 1 深度学习中的最优解拟合 1.1 深度学习的数据拟合 1.1.1 从浅层学习到深度学习 神经网络最初的研究可以追溯到 20 世纪 50 年代所提出的“感知机”模型[9] ,这是一种根据 生物神经细胞信号传导过程而设计的学习模型。 神经网络被普遍应用于机器学习等领域是在误差 反向传播算法[10-12] 被提出后,这一算法使得具有 拟合非线性函数能力的“多层感知机”模型的参数 可以通过反向传播算法进行优化。此后类似多层 感知机的一系列浅层学习的机器学习算法被提 出,包括支持向量机[13] 和 Boosting[14] 等方法。浅 层学习往往需要人工定义和构造特征,难以完成 端到端的训练过程。 2006 年,Hinton 等 [15] 首次提出了深度学习的 概念。深度学习是一种端到端学习 (end-to-end learning) 的机制,在给定输入数据后,可以自动提 取其最具区别力的特征,挖掘数据内部的隐含关 系。此后,深度学习在许多大规模数据上进行的 实验都表现出了远超过浅层学习的效果,深度学 习逐步成为当下人工智能的研究热点。 a = [a1,a2,··· ,an] T w = [w1,w2,··· ,wn] T 深度学习的基础仍然是人工神经网络,一个 深度学习的模型由多个神经元叠加构成。对于单 个神经元,其输入向量记为 ,神 经元的参数记为 ,神经元内使 用的非线性激活函数为 g,则这个神经元的输 出为 f (a) = g(w T · a) = ∑n i=1 g(wi ×ai) 一个深度学习模型包含若干基本神经元,神 经元之间的连接方式可以是简单的链式堆叠,也 可以是有分支的有向无环图结构。 1.1.2 深度学习的参数优化 F (xi) Loss(F (xi), yi) 深度学习中优化的参数主要是每个神经元链 接权重大小。在深度学习的模型中,通过不同神 经元的线性组合以及非线性激活函数输出预测结 果,并计算预测结果与真实标签的误差,再将误 差利用反向传播算法,对参数进行优化。此外, 为了防止过拟合,在优化参数时常常会在误差项 后对参数施以一定约束 (如参数稀疏等)。记深度 学习的神经网络模型为 F,则第 i 个训练数据 xi 对 应的预测输出结果为 ,若这个数据对应的真 实标签 为 y i ,则对这个训练数据的误差记作 ,对于不同的问题可以采用不同的损 失函数来计算误差,最终优化的目标就是在数据 全集上最小化损失函数。假设训练数据集中共 有 N 个训练样本,优化目标可以表示为 min(∑N i=1 Loss(F (xi), yi) 在进行参数优化的过程中,由于训练数据的 规模通常较大,所以需要将训练数据分批计算损 失函数,再将每一批数据的误差反向传播,应用 梯度下降法[16] 对参数进行优化。对于神经网络 模型中的待优化参数 w,在梯度下降的每一步中 参数都会如下优化更新: w new = w−η× ∂loss ∂w 式中:loss 表示由一批训练数据计算所得误差; η 表示学习率,是一个模型训练的超参数,表示根 据每批训练数据进行优化的步长。 可以看出,即使利用梯度下降法,在模型参数 较多和训练数据规模较大的情况下,深度学习的 数据拟合是一个非常缓慢的过程,尤其是近年来 神经网络的规模越来越大,例如在自然语言领域 表现优秀的模型 BERT,就有 1.1×108 ~3.4×108 个 训练参数[17]。 1.2 深度学习中的超参数 1.2.1 深度学习模型的人工设计 随着深度学习在各个领域大放异彩,人们提 出了大量不同的深度学习模型。但是归根结底, 深度学习模型可以优化的主要参数为神经元之间 链接权重向量,除此之外神经元之间的连接方式 均通过人工设计完成。目前最广泛使用的两种基 本神经元网络结构有常用于计算机视觉的卷积神 经网络和常用于自然语言处理的递归神经网络。 在这基础之上的各种不同结构的模型都是针对某 ·176· 智 能 系 统 学 报 第 15 卷
第1期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·177· 一种或某一类问题提出的,相比于最简单的多层 设计的模型。此外,面对越来越复杂的模型设计 感知机模型,这些模型能够减少可训练参数的数 工作,人们也亟需一些超出惯常设计思路的模型 量,提升模型的效果。 来突破当前的瓶颈。 除了模型结构的设计,模型大小也是需要人 事实上从组合学的观点来看,在一幅图像中, 为调整的超参数,对单个神经元来说,就是神经 稍微改变物体的方向、方位、遮挡情况所构成的 元的可训练参数数量的多少,即w=[w,w2,…, 场景数量其实是呈指数增长的。在训练时,数据 w]T中n的大小。在单个神经元中,并不是参数 的最优拟合的目标其实是平均情况,而现实情况 越多越好,过多的参数可能造成训练和推理的效 更专注于模型的最坏情况)。例如在自动驾驶领 率下降,甚至可能由于过拟合导致模型的表现也 域,为了保证汽车行驶的安全,就要保证车在最 有所下降,当然过少的参数可能使模型的表达能 坏情况下仍然不会识别失败,否则将会导致严重 力太低,从而不足以拟合训练数据。 的后果。博弈论的思想可以让模型更加注重最坏 对于神经网络来说,神经元中激活函数的选 情况发生的情况,而不是“最优”的平均结果。 择也可以认为是一个超参数。当然目前使用较为 1.3神经网络结构搜索 广泛的激活函数是线性整流函数(ReLU),其数学 1.3.1神经网络结构搜索思想 表达式为 随着深度学习的普及,模型设计的工作量和 ReLU(x)=max(0,x) 难度都有明显的增加,面对越来越复杂的任务, 在多数情况下,使用这一激活函数都能取得 尤其是面对不同的任务需要使用类似模型结构的 不错的效果。 情况下,人们对自动化的模型设计和参数优化有 此外还有一些特定模型中也包含一些针对自 了非常迫切的需求。这样的需求催生了自动化机 身结构特性而设定的超参数,例如卷积神经网络 器学习(auto machine learning,AutoML)领域的发 中卷积核的大小、卷积的步长等,模型的设计者 展。自动化机器学习包括神经网络结构的搜索 通过增加这些与自身特性相关的超参数可以提高 (neural network architecture search,.NAS)、超参数优 所设计模型的泛化能力,使其不止局限于单个问 化(hyperparameter optimization)以及元学习(meta- 题的解决,对不同的问题通过调整超参数都能有 learning)3个主要方面。其中超参数优化主要是 较好的表现。就卷积网络来说,不同的卷积核大 选择机器学习模型中效果最好的超参数,元学习 小可以提取粒度大小不一的局部特征。 主要是找到针对特定问题最合适的机器学习模型 以上这些超参数的人工选择除了需要根据经 或算法,神经网络结构搜索主要是针对特定的任 验进行设定外,往往还需要通过调整不同的超参 务找到最合适的深度学习模型结构,在深度学习 数进行训练、验证的反复实验,根据实验结果选 领域神经网络结构搜索其实包含了超参数优化以 择效果最好的超参数作为最终的网络结构超参 及元学习的任务。 数。这是一个及其耗费时间和人力的过程。 神经网络结构搜索的一般搜索过程如图1 最后,深度学习的模型在训练过程中也需要 所示8。图1利用搜索策略从搜索空间中选取一 提供一些训练相关的参数,包括随机梯度下降法 种神经网络结构,通过模型评价策略获得这个网 中每批数据的大小、训练数据全集遍历的次数以 络结构的效果,通过反馈这个结构效果的好坏, 及学习率的大小。这些训练相关的超参数往往根 搜索策略可以继续搜索其他结构。最终得到效果 据经验和硬件条件来选择。 较好的神经网络结构。对神经网络结构搜索的研 1.2.2深度学习超参调优的弊端 究也主要集中于搜索空间、搜索策略和模型评价 深度学习中可以人为改变的超参数其实是非 策略这3个领域。 常多,在超参数调优的过程中,其实是在拟合训 神经网络结构AcA 练数据集的基准数据,换用不同的数据集可能需 要对超参数进行调整。如果每更新一批数据就要 对超参数进行一次人为改变,那么深度学习模型 搜索空间A 搜索策略 模型评价策略 的应用范围将会受到极大的限制,因为每次超参 数调优都需要有一定的计算资源进行多次实验。 神经网络结构4的效果 一种简单的方法是不改变超参数直接在新的数据 图1神经网络结构搜索流程 集上进行迁移学习,但是这样的效果要差于重新 Fig.1 Process of neural network architecture search
一种或某一类问题提出的,相比于最简单的多层 感知机模型,这些模型能够减少可训练参数的数 量,提升模型的效果。 w = [w1,w2,··· , wn] T 除了模型结构的设计,模型大小也是需要人 为调整的超参数,对单个神经元来说,就是神经 元的可训练参数数量的多少,即 中 n 的大小。在单个神经元中,并不是参数 越多越好,过多的参数可能造成训练和推理的效 率下降,甚至可能由于过拟合导致模型的表现也 有所下降,当然过少的参数可能使模型的表达能 力太低,从而不足以拟合训练数据。 对于神经网络来说,神经元中激活函数的选 择也可以认为是一个超参数。当然目前使用较为 广泛的激活函数是线性整流函数 (ReLU),其数学 表达式为 ReLU(x) = max(0, x) 在多数情况下,使用这一激活函数都能取得 不错的效果。 此外还有一些特定模型中也包含一些针对自 身结构特性而设定的超参数,例如卷积神经网络 中卷积核的大小、卷积的步长等,模型的设计者 通过增加这些与自身特性相关的超参数可以提高 所设计模型的泛化能力,使其不止局限于单个问 题的解决,对不同的问题通过调整超参数都能有 较好的表现。就卷积网络来说,不同的卷积核大 小可以提取粒度大小不一的局部特征。 以上这些超参数的人工选择除了需要根据经 验进行设定外,往往还需要通过调整不同的超参 数进行训练、验证的反复实验,根据实验结果选 择效果最好的超参数作为最终的网络结构超参 数。这是一个及其耗费时间和人力的过程。 最后,深度学习的模型在训练过程中也需要 提供一些训练相关的参数,包括随机梯度下降法 中每批数据的大小、训练数据全集遍历的次数以 及学习率的大小。这些训练相关的超参数往往根 据经验和硬件条件来选择。 1.2.2 深度学习超参调优的弊端 深度学习中可以人为改变的超参数其实是非 常多,在超参数调优的过程中,其实是在拟合训 练数据集的基准数据,换用不同的数据集可能需 要对超参数进行调整。如果每更新一批数据就要 对超参数进行一次人为改变,那么深度学习模型 的应用范围将会受到极大的限制,因为每次超参 数调优都需要有一定的计算资源进行多次实验。 一种简单的方法是不改变超参数直接在新的数据 集上进行迁移学习,但是这样的效果要差于重新 设计的模型。此外,面对越来越复杂的模型设计 工作,人们也亟需一些超出惯常设计思路的模型 来突破当前的瓶颈。 事实上从组合学的观点来看,在一幅图像中, 稍微改变物体的方向、方位、遮挡情况所构成的 场景数量其实是呈指数增长的。在训练时,数据 的最优拟合的目标其实是平均情况,而现实情况 更专注于模型的最坏情况[3]。例如在自动驾驶领 域,为了保证汽车行驶的安全,就要保证车在最 坏情况下仍然不会识别失败,否则将会导致严重 的后果。博弈论的思想可以让模型更加注重最坏 情况发生的情况,而不是“最优”的平均结果。 1.3 神经网络结构搜索 1.3.1 神经网络结构搜索思想 随着深度学习的普及,模型设计的工作量和 难度都有明显的增加,面对越来越复杂的任务, 尤其是面对不同的任务需要使用类似模型结构的 情况下,人们对自动化的模型设计和参数优化有 了非常迫切的需求。这样的需求催生了自动化机 器学习 (auto machine learning, AutoML) 领域的发 展。自动化机器学习包括神经网络结构的搜索 (neural network architecture search, NAS)、超参数优 化 (hyperparameter optimization) 以及元学习 (metalearning)3 个主要方面。其中超参数优化主要是 选择机器学习模型中效果最好的超参数,元学习 主要是找到针对特定问题最合适的机器学习模型 或算法,神经网络结构搜索主要是针对特定的任 务找到最合适的深度学习模型结构,在深度学习 领域神经网络结构搜索其实包含了超参数优化以 及元学习的任务。 神经网络结构搜索的一般搜索过程如图 1 所示[18]。图 1 利用搜索策略从搜索空间中选取一 种神经网络结构,通过模型评价策略获得这个网 络结构的效果,通过反馈这个结构效果的好坏, 搜索策略可以继续搜索其他结构。最终得到效果 较好的神经网络结构。对神经网络结构搜索的研 究也主要集中于搜索空间、搜索策略和模型评价 策略这 3 个领域[18]。 搜索空间A 搜索策略 模型评价策略 神经网络结构A ϵ A 神经网络结构A的效果 图 1 神经网络结构搜索流程 Fig. 1 Process of neural network architecture search 第 1 期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·177·
·178· 智能系统学 报 第15卷 1.3.2神经网络结构搜索的常用方法 距离真正的完全自动化还有一定的距离。 神经网络结构搜索中搜索空间指在搜索过程 中所有可成为搜索对象的神经网络结构。可以想 2博弈论与深度学习 象,在对神经网络的连接方式不做任何限制的情 2.1博弈的基本概念 况下,搜索空间的大小随着规模的增长是呈指数 1944年冯诺伊曼与奥斯卡·摩根斯特恩合著 增长的。在有限的计算资源下进行搜索时,可能 的《博弈论与经济行为》2阿出版,标志着现代博 导致无法搜索较大规模的神经网络。同时,过于 弈论思想登上了历史舞台。博弈论主要研究的是 限制搜索空间的大小,可能并不能搜索出对效果 为博弈的参与者谋取最大利益,也就是“两害相权 有较大提升的神经网络模型。较为简单的神经网 取其轻,两利相权取其重”。 络搜索的搜索空间使用的是链式模型92,即网 博弈中,参与博弈的决策主体被称为玩家或 络的每一层级依次链接,另一种较为复杂的搜索 参与者,这些参与者总能或多或少的获得一些与 空间使用的是分支模型,即允许网络中存在跨层 博弈相关的知识,这些知识被称为信息,如果并 的跳跃链接,整个网络结构是一个有向无环图22。 非所有的参与者都了解其他参与者所有可选的行 使用分支模型的效果明显优于使用链式模型,但 动、每种局势下的收益等信息,这种博弈被称为 是从搜索速度来说,链式模型的搜索空间更小, 不完全信息博弈,反之被称为完全信息博弈。博 搜索时间更短。 弈的参与者还需要遵守一定的规则,符合规则的 搜索策略是根据模型评价反馈的结果不断遍 行动方案被称为策略。 历搜索空间的策略,搜索的过程面临着探索和利 参与者采取了各自的行动之后的博弈状态被 用的权衡,在利用的过程中,要快速找到效果较 称为局势,而在不同的局势下,各个参与者所得 好的神经网络结构,在探索的过程中,要积极遍 到的利益或回报被称为博弈的收益。 历搜索空间中更多的结构避免陷入局部最优解。 博弈的稳定局势即为纳什均衡(Nash equilib 常用的搜索策略主要有随机搜索、进化算法2] rium)P,其指参与者做出了这样一种策略组合, 强化学习19等。 在该策略组合上,任何参与者单独改变策略,其 模型评估是对搜索得到的神经网络结构做一 收益都不会增加。 次性能评价,评价的结果可以指导搜索策略选择 2.2纳什均衡与纳什定理 下一次的神经网络结构,当然如果性能评价是通 2.2.1纳什定理 过在训练集上做训练后,验证集上的表现来评 约翰纳什(John Forbes Nash Jr..)在提出纳什均 估,这样一次完整的搜索过程可能需要几千个 衡的同时,还提出了纳什定理27。纳什定理指出: GPU日(GPUdays)I&2州。如何在保证模型评价准 若参与者有限,每位参与者采取策略的集合有 确性的情况下,提升模型评估的效率是这一问题 限,收益函数为实值函数,则博弈对抗必存在混 的研究重点。 合策略意义下的纳什均衡。所谓混合策略(miⅸed 13.3神经网络结构搜索的优劣 strategy)指参与者可以按照一定的概率来随机选 总体上神经网络结构搜索还处于起步阶段, 择若干不同的行动,相应地,如果参与者能够确 距离真正的应用还有一段距离。但是这种自动化 定地选择行为,这种策略被称为纯策略(pure 的模型结构设计能够极大程度的减少人力物力, strategy). 让深度学习更广泛地应用于更多领域,而且相比 纳什定理仅仅是一个存在性定理,但是这一 人为设计,自动化的搜索能够显著提升网络的效 定理为许多博弈论相关研究提供了理论基础。 果,甚至能够删除网络中的冗余部分,提升网络 2.2.2均衡解与最优解 推理速度,使其更容易应用于前端芯片。 在博弈论的观点中,所有博弈的参与者都是 当然,神经网络结构搜索还存在一些问题,目 足够理性的,也就是他们都会采取使自己收益最 前普遍的搜索方法都需要耗费大量的计算资源, 大化的行动,这样做的最终结果就是导致博弈最 这是导致神经网络结构搜索难以真正投入应用的 终的局势总是稳定的,也就是最终总会达成纳什 关键问题。此外,从超参数优化的角度来讲,即 均衡的局势。但是,值得注意的是,均衡解并不 使神经网络结构搜索能够自动化的选择最合理的 是最优解,最优解关注的是平均利益的最大化, 超参数,但是本身搜索过程也是需要人为控制超 而均衡解是最有利于参与者的局势。 参数的,这就会造成“高维”的超参数调优问题, 在博弈论的经典案例囚徒困境(prisoner's
1.3.2 神经网络结构搜索的常用方法 神经网络结构搜索中搜索空间指在搜索过程 中所有可成为搜索对象的神经网络结构。可以想 象,在对神经网络的连接方式不做任何限制的情 况下,搜索空间的大小随着规模的增长是呈指数 增长的。在有限的计算资源下进行搜索时,可能 导致无法搜索较大规模的神经网络。同时,过于 限制搜索空间的大小,可能并不能搜索出对效果 有较大提升的神经网络模型。较为简单的神经网 络搜索的搜索空间使用的是链式模型[19-21] ,即网 络的每一层级依次链接,另一种较为复杂的搜索 空间使用的是分支模型,即允许网络中存在跨层 的跳跃链接,整个网络结构是一个有向无环图[22-24]。 使用分支模型的效果明显优于使用链式模型,但 是从搜索速度来说,链式模型的搜索空间更小, 搜索时间更短。 搜索策略是根据模型评价反馈的结果不断遍 历搜索空间的策略,搜索的过程面临着探索和利 用的权衡,在利用的过程中,要快速找到效果较 好的神经网络结构,在探索的过程中,要积极遍 历搜索空间中更多的结构避免陷入局部最优解。 常用的搜索策略主要有随机搜索、进化算法[25] 、 强化学习[18-19] 等。 模型评估是对搜索得到的神经网络结构做一 次性能评价,评价的结果可以指导搜索策略选择 下一次的神经网络结构,当然如果性能评价是通 过在训练集上做训练后,验证集上的表现来评 估,这样一次完整的搜索过程可能需要几千个 GPU 日 (GPU days)[18, 24]。如何在保证模型评价准 确性的情况下,提升模型评估的效率是这一问题 的研究重点。 1.3.3 神经网络结构搜索的优劣 总体上神经网络结构搜索还处于起步阶段, 距离真正的应用还有一段距离。但是这种自动化 的模型结构设计能够极大程度的减少人力物力, 让深度学习更广泛地应用于更多领域,而且相比 人为设计,自动化的搜索能够显著提升网络的效 果,甚至能够删除网络中的冗余部分,提升网络 推理速度,使其更容易应用于前端芯片。 当然,神经网络结构搜索还存在一些问题,目 前普遍的搜索方法都需要耗费大量的计算资源, 这是导致神经网络结构搜索难以真正投入应用的 关键问题。此外,从超参数优化的角度来讲,即 使神经网络结构搜索能够自动化的选择最合理的 超参数,但是本身搜索过程也是需要人为控制超 参数的,这就会造成“高维”的超参数调优问题, 距离真正的完全自动化还有一定的距离。 2 博弈论与深度学习 2.1 博弈的基本概念 1944 年冯·诺伊曼与奥斯卡·摩根斯特恩合著 的《博弈论与经济行为》[26] 出版,标志着现代博 弈论思想登上了历史舞台。博弈论主要研究的是 为博弈的参与者谋取最大利益,也就是“两害相权 取其轻,两利相权取其重”。 博弈中,参与博弈的决策主体被称为玩家或 参与者,这些参与者总能或多或少的获得一些与 博弈相关的知识,这些知识被称为信息,如果并 非所有的参与者都了解其他参与者所有可选的行 动、每种局势下的收益等信息,这种博弈被称为 不完全信息博弈,反之被称为完全信息博弈。博 弈的参与者还需要遵守一定的规则,符合规则的 行动方案被称为策略。 参与者采取了各自的行动之后的博弈状态被 称为局势,而在不同的局势下,各个参与者所得 到的利益或回报被称为博弈的收益。 博弈的稳定局势即为纳什均衡 (Nash equilibrium)[27] ,其指参与者做出了这样一种策略组合, 在该策略组合上,任何参与者单独改变策略,其 收益都不会增加。 2.2 纳什均衡与纳什定理 2.2.1 纳什定理 约翰纳什 (John Forbes Nash Jr.) 在提出纳什均 衡的同时,还提出了纳什定理[27]。纳什定理指出: 若参与者有限,每位参与者采取策略的集合有 限,收益函数为实值函数,则博弈对抗必存在混 合策略意义下的纳什均衡。所谓混合策略 (mixed strategy) 指参与者可以按照一定的概率来随机选 择若干不同的行动,相应地,如果参与者能够确 定地选择行为,这种策略被称为纯策略 (pure strategy)。 纳什定理仅仅是一个存在性定理,但是这一 定理为许多博弈论相关研究提供了理论基础。 2.2.2 均衡解与最优解 在博弈论的观点中,所有博弈的参与者都是 足够理性的,也就是他们都会采取使自己收益最 大化的行动,这样做的最终结果就是导致博弈最 终的局势总是稳定的,也就是最终总会达成纳什 均衡的局势。但是,值得注意的是,均衡解并不 是最优解,最优解关注的是平均利益的最大化, 而均衡解是最有利于参与者的局势。 在博弈论的经典案例囚徒困境 (prisoner’s ·178· 智 能 系 统 学 报 第 15 卷
第1期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·179· dilemma)中,两名嫌犯都有认罪和沉默两种行为 网络是一种生成模型,它由生成器和判别器两个 可以选择,对二人来说,最优解应当是两人同时 部分组成,生成器将随机生成的噪声数据转变为 保持沉默,导致警方仅能依靠已有的犯罪事实 真实样本空间中的“真实”数据,而判别器用来判 (缺乏口供)对两人轻判,但是对于两个嫌犯来说, 断生成器生成的数据是否真的符合真实数据的 认罪才是对自己最有利的行动,最终的结果就是 分布。在训练时,生成器能够根据判别器的判别 两人同时认罪而得到应有的惩罚。 结果提升自己生成的数据的“真实性”,而随着生 在大数据智能的视角下,假设训练数据是一 成数据越来越接近真实样本,判别器也变得更加 批围棋的对弈棋谱,按照最优解的角度去拟合走 敏锐,识别的能力也会提升,最终的均衡局势是 子策略,拟合的结果必然是在这一批棋谱中胜率 生成器完全模拟了真实样本数据的分布,判别器 最高的位置优先落子而胜率较低的位置避免落 也就再也无法判定生成的数据是真是假了,此时 子,但是棋局是变化的,当博弈对手的策略发生 的生成器就是一个训练好的生成模型。类似的 改变,这样的“最优解”没有任何意义,而此时真 思想还体现在基于策略的深度强化学习中,在基 正需要找到的是达成均衡解的策略。 于行动者评论家的强化学习中有根据环境做 2.3博弈视角下的大数据智能 出决策的“行动者”和根据决策结果做出评估的 2.3.1博弈与人工智能 “评论家”,两者协同决策的过程也是一个博弈的 人工智能起源于1956年的达特茅斯会议。 过程。 在人工智能的发展历程中,与博弈论碰撞出了许 3大数据智能下的均衡解 多火花,一方面许多人工智能领域的问题,例如 多智能体系统、广告推荐等,背后都蕴含着博弈 3.1完全信息下的博弈 的思想;另一方面,人工智能的许多算法提供了 311完全信息博弈的特点 许多博弈策略的近似求解方法,例如在许多经典 完全信息博弈实际上是可以获得博弈中的所 的博弈游戏中,利用计算机模拟采样可以求出近 有信息,在博弈的步骤比较少的情况下,比如井 似的均衡解。人工智能与博弈论的交叉领域主要 字棋等,很容易通过搜索算法获得博弈的最优策 分为博弈策略求解和博弈规则设计两个方面。 略,求出纳什均衡解。 首先,博弈论提供了一种实际问题的建模方 但是往往我们面临的完全信息博弈是非常大 法,同时纳什定理证明了博弈论解的存在性,那 规模的,所以在博弈的过程中,博弈者难以及时 么为了求得博弈问题的均衡局势或者参与者的 得知自己当前决策的利弊。如果可以估计当前行 最优策略就可以采用人工智能的一些算法,最 动对最终局势的影响,那么决策就是非常简单的 主要的是利用人工智能算法高效地搜索最优的 过程了,即在完全信息博弈的过程中只需要根据 策略。 经验判断或者模拟对手行为来计算每一步收益。 其次,在博弈中往往参与者会从自身利益最 在模拟的过程中,由于不需要猜测对手的行为, 大化的角度出发去做出决策,这时很可能造成类 所以“完全信息”能够减少建模的难度。 似囚徒困境的两败俱伤的结果。如何设计博弈的 3.12围棋走子策略求解 规则来使得最终的均衡局势尽可能达到整体利益 围棋是一种古老的棋类游戏,它起源于中 的最大化也是人工智能思想在博弈中的应用例, 国。围棋被认为是当前世界上最复杂的棋盘游戏 这些规则设计往往计算量大,复杂度高,常见的 之一,在博弈时,黑白双方轮流落子在棋盘上,最 利用人工智能算法来设计博弈规则的场景包括广 终通过所围的区域的大小决定胜负。围棋是一种 告竞价、拍卖、供需匹配、名额分配等。 完全信息博弈。由于简单的通过搜索算法不能在 2.3.2博弈与深度学习 有限的时间内搜索出最优的走子策略,所以需要 人工智能被提出时,神经网络就是人工智能 使用人工智能的方法来进行策略求解。AlphaGo 的重要研究方向之一,而深度学习又是以神经网 Zero就是一个基于深度神经网络的人工智能围棋 络为基础的,所以神经网络可以作为一种人工智 程序,它可以通过自博弈自我提升,近似拟合出 能算法进行博弈的策略求解。 一个较好的围棋走子策略II。最终AlphaGo 随着深度学习的发展,深度学习的算法背后 Zero不但在棋力上超过人类选手,还在博弈过程 也体现出了一些博弈的思想。比如生成对抗网络四 中发现了许多人类围棋玩家常采用的经验策略。 的训练过程就像是一个博弈的过程。生成对抗 围棋的博弈过程可以看作是一个马尔可夫决
dilemma) 中,两名嫌犯都有认罪和沉默两种行为 可以选择,对二人来说,最优解应当是两人同时 保持沉默,导致警方仅能依靠已有的犯罪事实 (缺乏口供) 对两人轻判,但是对于两个嫌犯来说, 认罪才是对自己最有利的行动,最终的结果就是 两人同时认罪而得到应有的惩罚。 在大数据智能的视角下,假设训练数据是一 批围棋的对弈棋谱,按照最优解的角度去拟合走 子策略,拟合的结果必然是在这一批棋谱中胜率 最高的位置优先落子而胜率较低的位置避免落 子,但是棋局是变化的,当博弈对手的策略发生 改变,这样的“最优解”没有任何意义,而此时真 正需要找到的是达成均衡解的策略。 2.3 博弈视角下的大数据智能 2.3.1 博弈与人工智能 人工智能起源于 1956 年的达特茅斯会议。 在人工智能的发展历程中,与博弈论碰撞出了许 多火花,一方面许多人工智能领域的问题,例如 多智能体系统、广告推荐等,背后都蕴含着博弈 的思想;另一方面,人工智能的许多算法提供了 许多博弈策略的近似求解方法,例如在许多经典 的博弈游戏中,利用计算机模拟采样可以求出近 似的均衡解。人工智能与博弈论的交叉领域主要 分为博弈策略求解和博弈规则设计两个方面。 首先,博弈论提供了一种实际问题的建模方 法,同时纳什定理证明了博弈论解的存在性,那 么为了求得博弈问题的均衡局势或者参与者的 最优策略就可以采用人工智能的一些算法,最 主要的是利用人工智能算法高效地搜索最优的 策略[5-8]。 其次,在博弈中往往参与者会从自身利益最 大化的角度出发去做出决策,这时很可能造成类 似囚徒困境的两败俱伤的结果。如何设计博弈的 规则来使得最终的均衡局势尽可能达到整体利益 的最大化也是人工智能思想在博弈中的应用[28-29] , 这些规则设计往往计算量大,复杂度高,常见的 利用人工智能算法来设计博弈规则的场景包括广 告竞价、拍卖、供需匹配、名额分配等。 2.3.2 博弈与深度学习 人工智能被提出时,神经网络就是人工智能 的重要研究方向之一,而深度学习又是以神经网 络为基础的,所以神经网络可以作为一种人工智 能算法进行博弈的策略求解。 随着深度学习的发展,深度学习的算法背后 也体现出了一些博弈的思想。比如生成对抗网络[30] 的训练过程就像是一个博弈的过程。生成对抗 网络是一种生成模型,它由生成器和判别器两个 部分组成,生成器将随机生成的噪声数据转变为 真实样本空间中的“真实”数据,而判别器用来判 断生成器生成的数据是否真的符合真实数据的 分布。在训练时,生成器能够根据判别器的判别 结果提升自己生成的数据的“真实性”,而随着生 成数据越来越接近真实样本,判别器也变得更加 敏锐,识别的能力也会提升,最终的均衡局势是 生成器完全模拟了真实样本数据的分布,判别器 也就再也无法判定生成的数据是真是假了,此时 的生成器就是一个训练好的生成模型。类似的 思想还体现在基于策略的深度强化学习中,在基 于行动者评论家的强化学习[31] 中有根据环境做 出决策的“行动者”和根据决策结果做出评估的 “评论家”,两者协同决策的过程也是一个博弈的 过程。 3 大数据智能下的均衡解 3.1 完全信息下的博弈 3.1.1 完全信息博弈的特点 完全信息博弈实际上是可以获得博弈中的所 有信息,在博弈的步骤比较少的情况下,比如井 字棋等,很容易通过搜索算法获得博弈的最优策 略,求出纳什均衡解。 但是往往我们面临的完全信息博弈是非常大 规模的,所以在博弈的过程中,博弈者难以及时 得知自己当前决策的利弊。如果可以估计当前行 动对最终局势的影响,那么决策就是非常简单的 过程了,即在完全信息博弈的过程中只需要根据 经验判断或者模拟对手行为来计算每一步收益。 在模拟的过程中,由于不需要猜测对手的行为, 所以“完全信息”能够减少建模的难度。 3.1.2 围棋走子策略求解 围棋是一种古老的棋类游戏,它起源于中 国。围棋被认为是当前世界上最复杂的棋盘游戏 之一,在博弈时,黑白双方轮流落子在棋盘上,最 终通过所围的区域的大小决定胜负。围棋是一种 完全信息博弈。由于简单的通过搜索算法不能在 有限的时间内搜索出最优的走子策略,所以需要 使用人工智能的方法来进行策略求解。AlphaGo Zero 就是一个基于深度神经网络的人工智能围棋 程序,它可以通过自博弈自我提升,近似拟合出 一个较好的围棋走子策略[ 5 ]。 最终 AlphaGo Zero 不但在棋力上超过人类选手,还在博弈过程 中发现了许多人类围棋玩家常采用的经验策略。 围棋的博弈过程可以看作是一个马尔可夫决 第 1 期 蒋胤傑,等:大数据智能:从数据拟合最优解到博弈对抗均衡解 ·179·