林秋怡等:迁移学习及其在周体地球科学中的应用 值差异(maximum mean discrepancy,MMD)o来最 己被广泛关注和应用,这部分内容将在下一小节详 小化源域和目标域数据在特征空间中的概率分布差 细说明 异,MMD在基于特征的迁移学习中可以用作一个 (4)基于关系的迁移学习:依赖于源域和目标 关健的优化目标或正则化项。MMD本质上是寻找 域数据间可能共享类似关系的假设,通过度量源任 一个适用的映射函数,使得在映射变换后目标域数 务和目标任务之间的相似性来构建映射的关系模型 据在特征空间上与源域数据更为接近。总的来说, 实现关系知识迁移。此类迁移学习关注样本间关系 基于特征的迁移学习方法所面临的挑战是如何有效 在统计关系学习的背景下开发叫,主要采用马尔科 地识别出源域与目标域数据之间的共有特征,从而 夫逻辑网络(Markov Logic networks,.MLN)2的概率 能够利用这些共有特征将先验知识从源域迁移到目 逻辑方法来获取源知识,大致分为两大类方法。 标域以实现迁移学习, 第一类通过搜索方法找到谓词的显式映射,利用映 (3)基于模型的迁移学习:这一类方法也被称 射谓词来迁移从MLN学习的子句。如Mihalkova等 为基于参数的迁移学习,目前通常与深度神经网络 P提出了一种名为Transfer via Automatic Mapping 模型相结合。假设在源任务和目标任务间存在可以 And Revision的算法,该算法通过MLN跨关系域传 共享的模型参数信息,进而可以利用这些参数信息 输关系知识,利用从源域学习到的MLN来帮助学 加以微调来适应目标任务的学习。基于模型的迁移 习目标域的MLN。该算法进一步反映,若两个域彼 学习的假设条件是网铬的前几层可以被视为特征提 此相关,则可能存在两个相似的关系来连接域中的 取器,这些网络层通常会学习到较为通用的特征表 实体,从而可能找到这些关系的映射。第二类采用 示2),例如边缘、纹理等低层次特征。基于模型的 二阶逻辑来模拟看似不相关的领域间的规律,进而 迁移学习的主要思路是重用在源域上训练的部分网 迁移关系知识。如Davis和Domingos2提出了一种 络,包括其网络结构和参数信息,而后针对具体的 基于二阶马尔可夫逻辑的迁移方法,通过马尔可夫 目标任务进行适当的微调以生成目标网络。基于源 逻辑公式来发现源域中的结构规律。关系数据具有 域的预训练模型的结构与参数是基于模型的迁移学 类、对象、其属性和关系组成的丰富词表叫,因此 习方法的核心,因此,模型的选择、参数初始化和 基于关系的迁移学习面临的挑战主要是如何迁移所 迁移策略的设计等是基于模型的迁移学习中需要注 学的结构,并将源域的词表映射到不同目标域中最 意的关健问题,需要经过仔细考虑和调整以获得最 合适的对象、属性和关系之上网。 佳的迁移效果。目前基于深度学习模型的迁移学习 表1迁移学习方法的适用场景 Table 1Applicable fransfer leing method 方法 适用务康 基于实例 在域间分布差异较小时适用效果比较好 基于特征 在域阿分布差景教太时,导找域间可共享的特征 基于模型 在女 基于关系 侧重于样本关到 13深度迁移学习 训,据此引入深度迁移学习的概念。Tan等将深 随者深度学习在众多研究领域的流行,如何通 度迁移学习定义为:给定一个迁移学习任务<D 过深度神经网络有效地迁移知识受到了极大关注 T,D,T)>,当()是一个反映深度神经网络的
林秋怡等:迁移学习及其在固体地球科学中的应用 5 值差异 (maximum mean discrepancy,MMD) [20]来最 小化源域和目标域数据在特征空间中的概率分布差 异,MMD 在基于特征的迁移学习中可以用作一个 关键的优化目标或正则化项。MMD 本质上是寻找 一个适用的映射函数,使得在映射变换后目标域数 据在特征空间上与源域数据更为接近。总的来说, 基于特征的迁移学习方法所面临的挑战是如何有效 地识别出源域与目标域数据之间的共有特征,从而 能够利用这些共有特征将先验知识从源域迁移到目 标域以实现迁移学习[21, 22]。 (3)基于模型的迁移学习:这一类方法也被称 为基于参数的迁移学习,目前通常与深度神经网络 模型相结合。假设在源任务和目标任务间存在可以 共享的模型参数信息,进而可以利用这些参数信息 加以微调来适应目标任务的学习。基于模型的迁移 学习的假设条件是网络的前几层可以被视为特征提 取器,这些网络层通常会学习到较为通用的特征表 示[23],例如边缘、纹理等低层次特征。基于模型的 迁移学习的主要思路是重用在源域上训练的部分网 络,包括其网络结构和参数信息,而后针对具体的 目标任务进行适当的微调以生成目标网络。基于源 域的预训练模型的结构与参数是基于模型的迁移学 习方法的核心,因此,模型的选择、参数初始化和 迁移策略的设计等是基于模型的迁移学习中需要注 意的关键问题,需要经过仔细考虑和调整以获得最 佳的迁移效果。目前基于深度学习模型的迁移学习 已被广泛关注和应用,这部分内容将在下一小节详 细说明。 (4)基于关系的迁移学习:依赖于源域和目标 域数据间可能共享类似关系的假设,通过度量源任 务和目标任务之间的相似性来构建映射的关系模型 实现关系知识迁移。此类迁移学习关注样本间关系, 在统计关系学习的背景下开发[24],主要采用马尔科 夫逻辑网络 (Markov Logic networks, MLN) [25]的概率 逻辑方法来获取源知识,大致分为两大类方法[26]。 第一类通过搜索方法找到谓词的显式映射,利用映 射谓词来迁移从 MLN 学习的子句。如 Mihalkova 等 [27]提出了一种名为 Transfer via Automatic Mapping And Revision 的算法,该算法通过 MLN 跨关系域传 输关系知识,利用从源域学习到的 MLN 来帮助学 习目标域的 MLN。该算法进一步反映,若两个域彼 此相关,则可能存在两个相似的关系来连接域中的 实体,从而可能找到这些关系的映射。第二类采用 二阶逻辑来模拟看似不相关的领域间的规律,进而 迁移关系知识。如 Davis 和 Domingos[28]提出了一种 基于二阶马尔可夫逻辑的迁移方法,通过马尔可夫 逻辑公式来发现源域中的结构规律。关系数据具有 类、对象、其属性和关系组成的丰富词表[24],因此 基于关系的迁移学习面临的挑战主要是如何迁移所 学的结构,并将源域的词表映射到不同目标域中最 合适的对象、属性和关系之上[29]。 表 1 迁移学习方法的适用场景[14] Table 1 Applicable scenario of transfer learning methods [14] 方法 适用场景 基于实例 在域间分布差异较小时适用效果比较好 基于特征 在域间分布差异较大时,寻找域间可共享的特征 基于模型 在域间差异较小时使用效果较好;当差异较大时,需结合特征方法, 将通用特征学习到的模型参数进行迁移,并微调其余部分 基于关系 侧重于样本间关系 1.3 深度迁移学习 随着深度学习在众多研究领域的流行,如何通 过深度神经网络有效地迁移知识受到了极大关注[30, 31],据此引入深度迁移学习的概念。Tan 等[23]将深 度迁移学习定义为:给定一个迁移学习任务< Ds , Ts , Dt , Tt , f t (·) >,当f t (·)是一个反映深度神经网络的
6 https://dzk jgb.cug.edu.cn地质科技通报 2023年 非线性函数时,该任务为深度迁移学习任务。根据 和基于对抗的方法。表2总结了不同深度迁移学习 深度迁移学习任务中使用的具体方法,深度迁移学 方法的基本思想。 习通常进一步分为基于网络、基于实例、基于映射 表2深度迁移学习方法分类及基本思想回 Table2 Classification and basic idea of deep transfer learning methods 分类 基本用翔 基于网络 码大锈征请额据集备以生成质络网格,粉基于源埃司练的络迁移车针对目标城设计的新科络。最后 基于实例 从源城中择一些与目标城相似或相关的实例样本透行如权权重适应。并将其如入目标域训练集中未训练深度神经网络 基于装射 被产和读的侧本同时限射到一个新数据空间。在这个新的数据空间中两个城的实侧样本具有更高的相似性,可 基于对抗 目前使用频率最高的是基于网络的深度迁移学 模型的权重讲行初始化,以代替原先的随机初始化 习方法,这类方法降低了深度学习模型对大量训练 可以选择微调整个模型或微调某些特定层。对于预 数据的依赖,不用完全重新训练模型,一定程度 训练网络,常在目标域数据集上使用反向传播算法 降低了训练成本。基于网络的深度迁移学习通常采 微调权重参数。以卷积神经网络(Convolutional 用的策路大致分为: Neural Networks.CNN)模型为例,训练微调涉及网 (1)微调策路。在大样本数据集上对深度神经 络深度、网络宽度、非线性激活函数、池化方法、 冈络进行预训练,通过调整预训练网络,即以较低 参数初始化方法和学习率等四。以岩石矿物图像分 的学习率对预训练模型进行重新训练使其适用于新 类任务为例,基于微调策略的迁移模型构建基本流 任务。在实际操作中,通过预训练网络的权重对新 程如图3所示。 低训练模型一卷积神经网络模型 卷积园 泡化层 权重享 局全连接层 参数冻 }参数可训 目标城(岩矿图像数据集 目标任苏模型 图3微调策略 Fig 3 Fine-tuning (2)特征提取策略。将预训练网络作为目标任 网络充当特征提取器。冻结某些层意味者这些层的 务的特征提取器,而后构建新的分类层将提取的特 权重不发生改变,并且是预训练网络中冻结层的常 征进行目标分类。在实际操作中通常将网络的前几 数值。以岩石矿物图像分类任务为例,基于特征提 层进行冻结,只训练最后的全连接层,此时预训练 取策路的子移模型构建流程如图4所示
6 https://dzkjqb.cug.edu.cn 地质科技通报 2023 年 非线性函数时,该任务为深度迁移学习任务。根据 深度迁移学习任务中使用的具体方法,深度迁移学 习通常进一步分为基于网络、基于实例、基于映射 和基于对抗的方法。表 2 总结了不同深度迁移学习 方法的基本思想。 表 2 深度迁移学习方法分类及基本思想[23] Table 2 Classification and basic idea of deep transfer learning methods[23] 分类 基本思想 基于网络 利用大规模源域训练数据集训练网络以生成预训练网络,将基于源域预训练的网络迁移至针对目标域设计的新网络,最后 对新网络进行调整以更新参数信息 基于实例 从源域中选择一些与目标域相似或相关的实例样本进行加权权重适应,并将其加入目标域训练集中来训练深度神经网络 基于映射 将源域和目标域的实例样本同时映射到一个新数据空间,在这个新的数据空间中两个域的实例样本具有更高的相似性,可 被用于训练深度神经网络 基于对抗 在迁移过程中引入对抗的思想,将从源域和目标域中提取的特征同时输送至对抗网络,通过对抗网络的不断学习来选择可 供迁移的特征 目前使用频率最高的是基于网络的深度迁移学 习方法,这类方法降低了深度学习模型对大量训练 数据的依赖,不用完全重新训练模型,一定程度上 降低了训练成本。基于网络的深度迁移学习通常采 用的策略大致分为: (1)微调策略。在大样本数据集上对深度神经 网络进行预训练,通过调整预训练网络,即以较低 的学习率对预训练模型进行重新训练使其适用于新 任务。在实际操作中,通过预训练网络的权重对新 模型的权重进行初始化,以代替原先的随机初始化, 可以选择微调整个模型或微调某些特定层。对于预 训练网络,常在目标域数据集上使用反向传播算法 微调权重参数。以卷积神经网络 (Convolutional Neural Networks, CNN) 模型为例,训练微调涉及网 络深度、网络宽度、非线性激活函数、池化方法、 参数初始化方法和学习率等[32]。以岩石矿物图像分 类任务为例,基于微调策略的迁移模型构建基本流 程如图 3 所示。 图 3 微调策略 Fig.3 Fine-tuning (2)特征提取策略。将预训练网络作为目标任 务的特征提取器,而后构建新的分类层将提取的特 征进行目标分类。在实际操作中通常将网络的前几 层进行冻结,只训练最后的全连接层,此时预训练 网络充当特征提取器。冻结某些层意味着这些层的 权重不发生改变,并且是预训练网络中冻结层的常 数值。以岩石矿物图像分类任务为例,基于特征提 取策略的迁移模型构建流程如图 4 所示