工程科学学报 Chinese Journal of Engineering 多棋态学习方法综述 陈鹂李擎张德政杨宇航蔡铮陆子怡 A survey of multimodal machine learning CHEN Peng.LI Qing.ZHANG De-zheng.YANG Yu-hang,CAI Zheng,LU Zi-vi 引用本文: 陈鹏,李擎,张德政,杨宇航,蔡铮,陆子怡.多模态学习方法综述[.工程科学学报,2020,42(5):557-569.doi: 10.13374j.issn2095-9389.2019.03.21.003 CHEN Peng.LI Qing.ZHANG De-zheng.YANG Yu-hang,CAI Zheng,LU Zi-yi.A survey of multimodal machine learning[J]. Chinese Journal of Engineering,.2020,42(5):557-569.doi:10.13374j.issn2095-9389.2019.03.21.003 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2019.03.21.003 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表https:/doi.org/10.13374j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019.41(6:817htps:/doi.org10.13374.issn2095-9389.2019.06.014 基于DL-T及迁移学习的语音识别研究 Research on Automatic Speech Recognition based on DL-T and Transfer Learning 工程科学学报.优先发表https:ldoi.org/10.13374j.issn2095-9389.2020.01.12.001 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4:399 https:ldoi.org10.13374j.issn2095-9389.2019.06.16.030 基于极限学习机ELM的连铸坯质量预测 Quality prediction of the continuous casting bloom based on the extreme learning machine 工程科学学报.2018.40(7):815 https:/doi.org10.13374.issn2095-9389.2018.07.007 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报.2020.42(4:455htps:/doi.org10.13374issn2095-9389.2019.09.16.005
多模态学习方法综述 陈鹏 李擎 张德政 杨宇航 蔡铮 陆子怡 A survey of multimodal machine learning CHEN Peng, LI Qing, ZHANG De-zheng, YANG Yu-hang, CAI Zheng, LU Zi-yi 引用本文: 陈鹏, 李擎, 张德政, 杨宇航, 蔡铮, 陆子怡. 多模态学习方法综述[J]. 工程科学学报, 2020, 42(5): 557-569. doi: 10.13374/j.issn2095-9389.2019.03.21.003 CHEN Peng, LI Qing, ZHANG De-zheng, YANG Yu-hang, CAI Zheng, LU Zi-yi. A survey of multimodal machine learning[J]. Chinese Journal of Engineering, 2020, 42(5): 557-569. doi: 10.13374/j.issn2095-9389.2019.03.21.003 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 您可能感兴趣的其他文章 Articles you may be interested in 基于深度学习的高效火车号识别 Efficient Wagon Number Recognition Based on Deep Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2019.12.05.001 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 基于DL-T及迁移学习的语音识别研究 Research on Automatic Speech Recognition based on DL-T and Transfer Learning 工程科学学报.优先发表 https://doi.org/10.13374/j.issn2095-9389.2020.01.12.001 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 基于极限学习机(ELM)的连铸坯质量预测 Quality prediction of the continuous casting bloom based on the extreme learning machine 工程科学学报. 2018, 40(7): 815 https://doi.org/10.13374/j.issn2095-9389.2018.07.007 基于强化学习的工控系统恶意软件行为检测方法 Reinforcement learning-based detection method for malware behavior in industrial control systems 工程科学学报. 2020, 42(4): 455 https://doi.org/10.13374/j.issn2095-9389.2019.09.16.005
工程科学学报.第42卷,第5期:557-569.2020年5月 Chinese Journal of Engineering,Vol.42,No.5:557-569,May 2020 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003;http://cje.ustb.edu.cn 多模态学习方法综述 陈 鹏2,李擎,2)四,张德政3,杨宇航,蔡铮,陆子怡) 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)北京科技大学计算机与通信工程 学院.北京1000834)材料领域知识工程北京市重点实验室,北京100083 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要大数据是多源异构的.在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式.研究多模态学习 方法,赋予计算机理解多源异构海量数据的能力具有重要价值.本文归纳了多模态的定义与多模态学习的基本任务,介绍了 多模态学习的认知机理与发展过程在此基础上,重点综述了多模态统计学习方法与深度学习方法.此外,本文系统归纳了 近两年较为新颖的基于对抗学习的跨模态匹配与生成技术.本文总结了多模态学习的主要形式,并对未来可能的研究方向 进行思考与展望 关键词多模态学习:统计学习:深度学习:对抗学习:特征表示 分类号TP18 A survey of multimodal machine learning CHEN Peng2),LI Qing,ZHANG De-zheng,YANG Yu-hang,CAl Zheng,LU Zi-yi) 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China 4)Beijing Key Laboratory of Knowledge Engineering for Materials Science,Beijing 100083,China Corresponding author,E-mail:liqing@ies.ustb.edu.cn ABSTRACT "Big data"is always collected from different resources that have different data structures.With the rapid development of information technologies,current precious data resources are characteristic of multimodes.As a result,based on classical machine learning strategies,multi-modal learning has become a valuable research topic,enabling computers to process and understand "big data".The cognitive processes of humans involve perception through different sense organs.Signals from eyes,ears,the nose,and hands (tactile sense)constitute a person's understanding of a special scene or the world as a whole.It reasonable to believe that multi-modal methods involving a higher ability to process complex heterogeneous data can further promote the progress of information technologies. The concepts of multimodality stemmed from psychology and pedagogy from hundreds of years ago and have been popular in computer science during the past decade.In contrast to the concept of"media",a"mode"is a more fine-grained concept that is associated with a typical data source or data form.The effective utilization of multi-modal data can aid a computer understand a specific environment in a more holistic way.In this context,we first introduced the definition and main tasks of multi-modal learning.Based on this information, the mechanism and origin of multi-modal machine learning were then briefly introduced.Subsequently,statistical learning methods and deep learning methods for multi-modal tasks were comprehensively summarized.We also introduced the main styles of data fusion in multi-modal perception tasks,including feature representation,shared mapping,and co-training.Additionally,novel adversarial learning strategies for cross-modal matching or generation were reviewed.The main methods for multi-modal learning were outlined in this paper 收稿日期:2019-03-21 基金项目:国家重点研发计划(云计算和大数据专项)资助项目(2017YFB1002304)
多模态学习方法综述 陈 鹏1,2),李 擎1,2) 苣,张德政3,4),杨宇航1),蔡 铮1),陆子怡1) 1) 北京科技大学自动化学院,北京 100083 2) 工业过程知识自动化教育部重点实验室,北京 100083 3) 北京科技大学计算机与通信工程 学院,北京 100083 4) 材料领域知识工程北京市重点实验室,北京 100083 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘 要 大数据是多源异构的. 在信息技术飞速发展的今天,多模态数据已成为近来数据资源的主要形式. 研究多模态学习 方法,赋予计算机理解多源异构海量数据的能力具有重要价值. 本文归纳了多模态的定义与多模态学习的基本任务,介绍了 多模态学习的认知机理与发展过程. 在此基础上,重点综述了多模态统计学习方法与深度学习方法. 此外,本文系统归纳了 近两年较为新颖的基于对抗学习的跨模态匹配与生成技术. 本文总结了多模态学习的主要形式,并对未来可能的研究方向 进行思考与展望. 关键词 多模态学习;统计学习;深度学习;对抗学习;特征表示 分类号 TP18 A survey of multimodal machine learning CHEN Peng1,2) ,LI Qing1,2) 苣 ,ZHANG De-zheng3,4) ,YANG Yu-hang1) ,CAI Zheng1) ,LU Zi-yi1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing 100083, China 4) Beijing Key Laboratory of Knowledge Engineering for Materials Science, Beijing 100083, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT “Big data” is always collected from different resources that have different data structures. With the rapid development of information technologies, current precious data resources are characteristic of multimodes. As a result, based on classical machine learning strategies, multi-modal learning has become a valuable research topic, enabling computers to process and understand “big data”. The cognitive processes of humans involve perception through different sense organs. Signals from eyes, ears, the nose, and hands (tactile sense) constitute a person’s understanding of a special scene or the world as a whole. It reasonable to believe that multi-modal methods involving a higher ability to process complex heterogeneous data can further promote the progress of information technologies. The concepts of multimodality stemmed from psychology and pedagogy from hundreds of years ago and have been popular in computer science during the past decade. In contrast to the concept of “media”, a “mode” is a more fine-grained concept that is associated with a typical data source or data form. The effective utilization of multi-modal data can aid a computer understand a specific environment in a more holistic way. In this context, we first introduced the definition and main tasks of multi-modal learning. Based on this information, the mechanism and origin of multi-modal machine learning were then briefly introduced. Subsequently, statistical learning methods and deep learning methods for multi-modal tasks were comprehensively summarized. We also introduced the main styles of data fusion in multi-modal perception tasks, including feature representation, shared mapping, and co-training. Additionally, novel adversarial learning strategies for cross-modal matching or generation were reviewed. The main methods for multi-modal learning were outlined in this paper 收稿日期: 2019−03−21 基金项目: 国家重点研发计划(云计算和大数据专项)资助项目(2017YFB1002304) 工程科学学报,第 42 卷,第 5 期:557−569,2020 年 5 月 Chinese Journal of Engineering, Vol. 42, No. 5: 557−569, May 2020 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003; http://cje.ustb.edu.cn
558 工程科学学报,第42卷,第5期 with a focus on future research issues in this field. KEY WORDS multi-modal learning:statistical learning:deep learning:adversarial learning:feature representation 早在公元前4世纪,多模态的相关概念和理论 等信息.图1即为典型的多模态信息形式 即被哲学家和艺术家所提出,用以定义融合不同 (2)来自不同传感器的同一类媒体数据.如医 内容的表达形式与修辞方法-习.20世纪以来,这 学影像学中不同的检查设备所产生的图像数据, 一概念被语言学家更为广泛地应用于教育学和认 包括B超(B-Scan ultrasonography)、计算机断层扫 知科学领域)近年来,描述相同、相关对象的多 描(CT)、核磁共振等:物联网背景下不同传感器 源数据在互联网场景中呈指数级增长,多模态已 所检测到的同一对象数据等 成为新时期信息资源的主要形式 (3)具有不同的数据结构特点、表示形式的表 人类的认知过程是多模态的.个体对场景进 意符号与信息.如描述同一对象的结构化、非结 行感知时往往能快速地接受视觉、听觉乃至嗅 构化的数据单元;描述同一数学概念的公式、逻辑 觉、触觉的信号,进而对其进行融合处理和语义理 符号、函数图及解释性文本:描述同一语义的词向 解.多模态机器学习方法更贴近人类认识世界的 量、词袋、知识图谱以及其它语义符号单元等 形式.本文首先介绍了多模态的概念与基本任务, 因此,从语义感知的角度切人,多模态数据涉 分析了多模态认知学习的起源与发展.结合互联 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 网大数据形态,本文重点综述了多模态统计学习 收到的信息;在数据层面理解,多模态数据则可被 方法、深度学习方法与对抗学习方法, 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 1多模态学习的定义、基本任务与发展过程 数据结构所组成的复合数据形式,乃至来自不同 11多模态学习的定义 数据库、不同知识库的各种信息资源的组合.对 本文主要采用了新加坡国立大学O'Halloran 多源异构数据的挖掘分析可被理解为“多模态学 对“模态”的定义,即相较于图像、语音、文本等多 习(Multimodal machine learning)”,其相关概念有 媒体(Multi--media)数据划分形式,“模态”是一个 “多视角学习”和“多传感器信息融合”来自不同 更为细粒度的概念,同一媒介下可存在不同的模 数据源或由不同特征子集构成的数据被称作多视 态概括来说,“多模态”可能有以下三种形式. 角数据,每个数据源、每种数据类型均可被看作一 (1)描述同一对象的多媒体数据.如互联网环 个视角.卡内基梅隆大学的Morency在ACL2017(The 境下描述某一特定对象的视频、图片、语音、文本 55th Annual Meeting of the Association for Comput- It snowed in the evening.Flakes of snow were drifting down. If you walked in the snow,you can hear a creaking sound. 图1“下雪”场绿的多模态数据(图像、音颜与文本) Fig.1 Multimodal data for a "snow"scene(images,sound and text)
with a focus on future research issues in this field. KEY WORDS multi-modal learning;statistical learning;deep learning;adversarial learning;feature representation 早在公元前 4 世纪,多模态的相关概念和理论 即被哲学家和艺术家所提出,用以定义融合不同 内容的表达形式与修辞方法[1−2] . 20 世纪以来,这 一概念被语言学家更为广泛地应用于教育学和认 知科学领域[3] . 近年来,描述相同、相关对象的多 源数据在互联网场景中呈指数级增长,多模态已 成为新时期信息资源的主要形式. 人类的认知过程是多模态的. 个体对场景进 行感知时往往能快速地接受视觉、听觉乃至嗅 觉、触觉的信号,进而对其进行融合处理和语义理 解. 多模态机器学习方法更贴近人类认识世界的 形式. 本文首先介绍了多模态的概念与基本任务, 分析了多模态认知学习的起源与发展. 结合互联 网大数据形态,本文重点综述了多模态统计学习 方法、深度学习方法与对抗学习方法. 1 多模态学习的定义、基本任务与发展过程 1.1 多模态学习的定义 本文主要采用了新加坡国立大学 O′Halloran 对“模态”的定义,即相较于图像、语音、文本等多 媒体(Multi-media)数据划分形式,“模态”是一个 更为细粒度的概念,同一媒介下可存在不同的模 态[4] . 概括来说,“多模态”可能有以下三种形式. (1)描述同一对象的多媒体数据. 如互联网环 境下描述某一特定对象的视频、图片、语音、文本 等信息. 图 1 即为典型的多模态信息形式. (2)来自不同传感器的同一类媒体数据. 如医 学影像学中不同的检查设备所产生的图像数据, 包括 B 超(B-Scan ultrasonography)、计算机断层扫 描(CT)、核磁共振等;物联网背景下不同传感器 所检测到的同一对象数据等. (3)具有不同的数据结构特点、表示形式的表 意符号与信息. 如描述同一对象的结构化、非结 构化的数据单元;描述同一数学概念的公式、逻辑 符号、函数图及解释性文本;描述同一语义的词向 量、词袋、知识图谱以及其它语义符号单元等[5] . 因此,从语义感知的角度切入,多模态数据涉 及不同的感知通道如视觉、听觉、触觉、嗅觉所接 收到的信息;在数据层面理解,多模态数据则可被 看作多种数据类型的组合,如图片、数值、文本、 符号、音频、时间序列,或者集合、树、图等不同 数据结构所组成的复合数据形式,乃至来自不同 数据库、不同知识库的各种信息资源的组合. 对 多源异构数据的挖掘分析可被理解为“多模态学 习 (Multimodal machine learning) ” ,其相关概念有 “多视角学习”和“多传感器信息融合”. 来自不同 数据源或由不同特征子集构成的数据被称作多视 角数据,每个数据源、每种数据类型均可被看作一 个视角. 卡内基梅隆大学的Morency 在ACL2017(The 55th Annual Meeting of the Association for Comput- 图 1 “下雪”场景的多模态数据(图像、音频与文本) Fig.1 Multimodal data for a “snow” scene (images, sound and text) · 558 · 工程科学学报,第 42 卷,第 5 期
陈鹏等:多模态学习方法综述 559· ational Linguistics,CCFA类会议)的Tutorial报告 任务发展较为成熟,由文本到图像的生成任务则 中,将大量的多视角学习方法归类为多模态机器 较为新颖. 学习算法。笔者认为,“多视角学习”强调对数据 多棋态人机对话:即在基本对话(文本模态) “视角”的归纳和分析,“多模态学习”则侧重“模 生成任务的基础上,进一步对人的表情、语调、姿 态”感知和通道.“视角”和“模态”的概念是相通 势等多模态信息进行采集,采用模态融合的方法 的,一个模态即可被视作一个视角.“多传感器信 对多模态信号进行分析处理.多模态人机对话的 息融合(Multi-sensor information fusion)”为在物理 理想状态是在有效感知多模态信号的前提下给出 层面与“多模态学习”相关的术语,即对不同传感 拟人化的多模态输出,构建更为智能、沟通更加顺 器采集的数据进行综合利用,其典型应用场景有 畅的人机交互形式 物联网、自动驾驶等 多模态信息融合:多模态融合要求对多源数 1.2多模态机器学习的基本任务 据进行综合有效地筛选和利用,实现集成化感知 多模态学习的基本任务可包括以下几个方面 与决策的目的,常见的信息融合方式有物理层融 多源数据分类:单模态的分类问题只关注对 合、特征层融合、决策层融合几个类型.物理层融 一类特定数据的分析和处理,相较于单一通道,多 合指在感知的第一阶段,在传感器层级对采集到 模态数据更接近大数据背景下信息流真实的形 的数据进行融合处理,这种处理方式可被概括为 态,具有全面性和复杂性 多传感器信息融合(Multi-sensor information fusion), 多模态情感分析:情感分析问题的本质也是 是工业生产场景中极为常见的信息融合方法:特 分类问题,与常规分类问题不同,情感分类问题所 征层融合指在特征抽取和表达的层级对信息进行 提取的特征往往带有明确的情绪信号:从多模态 融合,如对同一场景中不容摄像头采集到的图像 的角度分析,网络社交场景中所衍生的大量图片、 采用相同的特征表达形式,进而进行相应的叠加 文本、表情符号及音频信息均带有情感倾向, 计算;决策层融合指对不同模态的感知模型所输 多模态语义计算:语义分析是对数据更为高 出的结果进行融合,这种融合方式具有较好的抗 层次的处理,理想状态下,计算机能够处理一个特 干扰性能,对于传感器性能和种类要求相对不高, 定场景下不同数据的概念关系、逻辑结构,进而理 但具有较大的信息损耗 解不同数据中隐含的高层语义;对这种高层语义 13多模态机器学习的发展一从符号计算到深 的理解是有效进行推理决策的前提 度学习 跨模态样本匹配:现阶段,最常见的跨模态信 随着计算机技术的发展,多模态认知的概念 息匹配即为图像、文本的匹配,如Flickr3.0k数据 从传统的教育学、心理学、语言学的范畴拓展至 集中的实例;图像文本匹配任务为较为复杂的机 信息科学领域.20世纪60~70年代,科学家利用 器学习任务,这一任务的核心在于分别对图像、文 符号和逻辑结构模拟人类的思维逻辑,如利用语 本的特征进行合理表示、编码,进而准确度量其相 法树分析文本信息⑧,利用规则库构建专家决策系 似性. 统四.由于人类认知过程的复杂性与流动性,有 跨模态检索:在检索任务中,除了实现匹配 效、实时地制定逻辑结构和规则形式成为制约“符 外,还要求快速的响应速度以及正确的排序:多模 号主义”认知智能的主要因素 态信息检索通过对异构数据进行加工,如直接对 20世纪80年代至21世纪初,统计机器学习 图片进行语义分析,在有效特征匹配的情况下对 方法在智能信息处理的各个领域取得了令人瞩目 图片采用基于内容的自动检索形式;为适应快速 的成就.Cortes和Vapnik提出的支持向量机模型 检索的需要,哈希方法被引入多模态信息检索任 可以快速、准确地处理高维、非线性的模式识别 务中,跨模态哈希方法将不同模态的高维数据映 问题o:Pearl所构建的概率图模型赋予了计算机 射到低维的海明空间,有效减小了数据存储空间, 依据概率推理的能力:进一步地,Jelinek将信息 提高了计算速度 论与隐马尔科夫模型入语音识别与自然语言处 跨模态样本生成:跨模态生成任务可以有效 理领域,奠定了近代统计自然语言处理学派的根 构造多模态训练数据,同时有助于提高跨模态匹 基,使自然语言处理的工程化应用成为可能 配与翻译的效果,目前由图像到文本(如图像语义 在这一阶段,受麦格克效应的启发町,许多计 自动标注)、图像到图像(如图片风格迁移)的生成 算机科学家致力于构建基于视觉信号和声音信号
ational Linguistics,CCF A 类会议)的 Tutorial 报告[6] 中,将大量的多视角学习方法归类为多模态机器 学习算法. 笔者认为,“多视角学习”强调对数据 “视角”的归纳和分析,“多模态学习”则侧重“模 态”感知和通道. “视角”和“模态”的概念是相通 的,一个模态即可被视作一个视角. “多传感器信 息融合(Multi-sensor information fusion)”为在物理 层面与“多模态学习”相关的术语,即对不同传感 器采集的数据进行综合利用,其典型应用场景有 物联网、自动驾驶等. 1.2 多模态机器学习的基本任务 多模态学习的基本任务可包括以下几个方面. 多源数据分类:单模态的分类问题只关注对 一类特定数据的分析和处理,相较于单一通道,多 模态数据更接近大数据背景下信息流真实的形 态,具有全面性和复杂性. 多模态情感分析:情感分析问题的本质也是 分类问题,与常规分类问题不同,情感分类问题所 提取的特征往往带有明确的情绪信号;从多模态 的角度分析,网络社交场景中所衍生的大量图片、 文本、表情符号及音频信息均带有情感倾向. 多模态语义计算:语义分析是对数据更为高 层次的处理,理想状态下,计算机能够处理一个特 定场景下不同数据的概念关系、逻辑结构,进而理 解不同数据中隐含的高层语义;对这种高层语义 的理解是有效进行推理决策的前提. 跨模态样本匹配:现阶段,最常见的跨模态信 息匹配即为图像、文本的匹配,如 Flickr30k[7] 数据 集中的实例;图像文本匹配任务为较为复杂的机 器学习任务,这一任务的核心在于分别对图像、文 本的特征进行合理表示、编码,进而准确度量其相 似性. 跨模态检索:在检索任务中,除了实现匹配 外,还要求快速的响应速度以及正确的排序;多模 态信息检索通过对异构数据进行加工,如直接对 图片进行语义分析,在有效特征匹配的情况下对 图片采用基于内容的自动检索形式;为适应快速 检索的需要,哈希方法被引入多模态信息检索任 务中,跨模态哈希方法将不同模态的高维数据映 射到低维的海明空间,有效减小了数据存储空间, 提高了计算速度. 跨模态样本生成:跨模态生成任务可以有效 构造多模态训练数据,同时有助于提高跨模态匹 配与翻译的效果,目前由图像到文本(如图像语义 自动标注)、图像到图像(如图片风格迁移)的生成 任务发展较为成熟,由文本到图像的生成任务则 较为新颖. 多模态人机对话:即在基本对话(文本模态) 生成任务的基础上,进一步对人的表情、语调、姿 势等多模态信息进行采集,采用模态融合的方法 对多模态信号进行分析处理. 多模态人机对话的 理想状态是在有效感知多模态信号的前提下给出 拟人化的多模态输出,构建更为智能、沟通更加顺 畅的人机交互形式. 多模态信息融合:多模态融合要求对多源数 据进行综合有效地筛选和利用,实现集成化感知 与决策的目的,常见的信息融合方式有物理层融 合、特征层融合、决策层融合几个类型. 物理层融 合指在感知的第一阶段,在传感器层级对采集到 的数据进行融合处理,这种处理方式可被概括为 多传感器信息融合(Multi-sensor information fusion), 是工业生产场景中极为常见的信息融合方法;特 征层融合指在特征抽取和表达的层级对信息进行 融合,如对同一场景中不容摄像头采集到的图像 采用相同的特征表达形式,进而进行相应的叠加 计算;决策层融合指对不同模态的感知模型所输 出的结果进行融合,这种融合方式具有较好的抗 干扰性能,对于传感器性能和种类要求相对不高, 但具有较大的信息损耗. 1.3 多模态机器学习的发展——从符号计算到深 度学习 随着计算机技术的发展,多模态认知的概念 从传统的教育学、心理学、语言学的范畴拓展至 信息科学领域. 20 世纪 60~70 年代,科学家利用 符号和逻辑结构模拟人类的思维逻辑,如利用语 法树分析文本信息[8] ,利用规则库构建专家决策系 统[9] . 由于人类认知过程的复杂性与流动性,有 效、实时地制定逻辑结构和规则形式成为制约“符 号主义”认知智能的主要因素. 20 世纪 80 年代至 21 世纪初,统计机器学习 方法在智能信息处理的各个领域取得了令人瞩目 的成就. Cortes 和 Vapnik 提出的支持向量机模型 可以快速、准确地处理高维、非线性的模式识别 问题[10] ;Pearl 所构建的概率图模型赋予了计算机 依据概率推理的能力[11] ;进一步地,Jelinek 将信息 论与隐马尔科夫模型引入语音识别与自然语言处 理领域,奠定了近代统计自然语言处理学派的根 基,使自然语言处理的工程化应用成为可能[12] . 在这一阶段,受麦格克效应的启发[13] ,许多计 算机科学家致力于构建基于视觉信号和声音信号 陈 鹏等: 多模态学习方法综述 · 559 ·
560 工程科学学报,第42卷,第5期 的多模态语音识别系统,如唇语-声音语音识别系 2 多模态统计学习方法 统,有效提高了识别准确率.这一时期的多模态 信息系统还被应用于人机交互场景,如Fels等提 广义的统计学习(Statistical learning)即采用统 计学的相关理论,赋予计算机处理数据能力的机 出的Glove-talk框架(1992年)采用5个多层神经 网络实现对手势、声音、语义的机器感知吲这一 器学习方法.如统计学家和数学家Breiman提出 的随机森林(Random forest)算法P,Breiman和 神经网络模型的结构还比较简单,其采用的后向 Friedman等一同提出的分类回归树(Classification 传播训练方法易出现过拟合现象,因而无法对复 and regression trees,.CART)算法Bo,Cortes和Vapnik 杂的大规模数据进行处理 2010年至今,随着Dropout训练模式I6的提出、 提出的支持向量机(Support vector machine,SVM) 算法0等.统计学习方法和经典机器学习方法在 Relu激活函数)的引入乃至深度残差结构lI对 概念上是基本重合的.上述统计学习界的领军学 网络的调整,深度神经网络在许多单一模态的感 者分别在不同角度完善了该领域的基本概念和理 知型机器学习任务中取得了优于传统方法的效 论体系.如Breiman在数据建模和算法建模两个 果.以AlexNet!、ResNet!18、GoogleNet2!o为代表的 角度重新解读了机器学习的建模方式,即数据建 改进卷积神经网络(Convolutional neural network, 模方式往往预设数据符合某种分布形式,如线性 CNN)模型在ImageNet2图像分类任务中甚至取 回归、逻辑回归等,进而进行参数估计和假设推 得了超过人类的表现;长短记忆模型(Long short 断;而算法建模则试图通过算法去直接寻找映射 term memory,LSTM)和条件随机场(Conditional 函数以达到由输入预测输出的目的.如决策树与 random field,.CRF)的组合结构在自然语言序列标 神经网络结构Bn.Vapnik和Cervonenkis归纳了他 注特别是命名实体识别任务中实现了极为成功的 的VC(Vapnik-Chervonenkis dimension)维理论, 商业化、工程化应用四多模态深度学习已成为人 不仅对典型的分类器模型与这些模型所能区分的 工智能领域的热点问题.Ngiam等在ICML2011 集合大小进行系统总结,还给出了对模型最大分 (28th International Conference on Machine Learning) 类能力进行分析的有效方法 的大会论文中对多模态深度学习进行了前瞻性的 受计算资源等因素的制约,统计学习方法的 综述,而这一阶段的深度学习主要网络结构为深 处理样本往往是中小规模的数据集,在许多任务 度玻尔兹曼机(Deep boltzmann machines)P]卡内 (如图像处理和自然语言处理任务)的处理过程 基梅隆大学的Baltrusaitis等也开展了大量的多模 中,需要人参与的特征处理过程.多模态机器学习 态深度学习研究24 技术是伴随着统计学习理论的完备、大量新颖有 在国内,北京交通大学的Zhang等,北京邮 效的统计学习方法的提出逐渐发展的.本节将结 电大学的Wang等在跨模态信息匹配和检索领域 合多模态数据的特点,对相应的统计学习方法进 开展了许多卓有成效的工作2,清华大学的Lu等 行介绍 对视觉模态、触觉模态的数据展开研究,并将其应 2.1核学习方法与多核学习 用于机器人综合感知场景:清华大学的Fu等则 核学习(Kernel learning)方法是一种将低维不 在图像语义标注领域取得了若干突破] 可分样本通过核映射的方式映射到高维非线性空 在人工智能技术突飞猛进的今天,开展数据 间,实现对样本有效分类的方法B),如图2所示 驱动的多模态学习方法研究,能够取得更为全面 核学习方法是支持向量机(SVM)算法的有力理论 有效的解决方案.对多模态数据的分析处理可采 支撑,也随着支持向量机的广泛应用被研究者和 用机器学习手段来完成,处理多模态数据的机器 工程技术人员所关注.事实上,早在1909年,英国 学习方法即可被视为多模态学习方法.机器学习 数学家Mercer即提出了其重要的Mercer定理,即 是利用数据优化算法的一种人工智能手段,它涵 任何半正定的函数都可作为核函数,奠定了核学 盖统计学习与深度学习等方法.近几年,对抗学习 习方法的理论基础B.在Mercer定理的基础上,波 技术被广泛地应用于跨模态匹配和生成任务中, 兰裔美国数学家Aronszajn进一步发展了再生核希 并取得了令人瞩目的效果.后文将分别对多模态 尔伯特空间理论,使其能够被引入到模式识别任 统计学习方法、多模态深度学习方法、多模态对 务中31 抗学习方法进行综述与分析 多核学习方法为不同模态的数据和属性选取
的多模态语音识别系统,如唇语−声音语音识别系 统[14] ,有效提高了识别准确率. 这一时期的多模态 信息系统还被应用于人机交互场景,如 Fels 等提 出的 Glove-talk 框架(1992 年)采用 5 个多层神经 网络实现对手势、声音、语义的机器感知[15] . 这一 神经网络模型的结构还比较简单,其采用的后向 传播训练方法易出现过拟合现象,因而无法对复 杂的大规模数据进行处理. 2010 年至今,随着 Dropout 训练模式[16] 的提出、 Relu 激活函数[17] 的引入乃至深度残差结构[18] 对 网络的调整,深度神经网络在许多单一模态的感 知型机器学习任务中取得了优于传统方法的效 果. 以 AlexNet[19]、ResNet[18]、GoogleNet[20] 为代表的 改进卷积神经网络(Convolutional neural network, CNN)模型在 ImageNet[21] 图像分类任务中甚至取 得了超过人类的表现;长短记忆模型(Long short term memory, LSTM) 和 条 件 随 机 场 ( Conditional random field,CRF)的组合结构在自然语言序列标 注特别是命名实体识别任务中实现了极为成功的 商业化、工程化应用[22] . 多模态深度学习已成为人 工智能领域的热点问题. Ngiam 等在 ICML2011 ( 28th International Conference on Machine Learning) 的大会论文中对多模态深度学习进行了前瞻性的 综述,而这一阶段的深度学习主要网络结构为深 度玻尔兹曼机(Deep boltzmann machines) [23] . 卡内 基梅隆大学的 Baltrusaitis 等也开展了大量的多模 态深度学习研究[24] . 在国内,北京交通大学的 Zhang 等[25] ,北京邮 电大学的 Wang 等在跨模态信息匹配和检索领域 开展了许多卓有成效的工作[26] ;清华大学的 Liu 等 对视觉模态、触觉模态的数据展开研究,并将其应 用于机器人综合感知场景[27] ;清华大学的 Fu 等则 在图像语义标注领域取得了若干突破[28] . 在人工智能技术突飞猛进的今天,开展数据 驱动的多模态学习方法研究,能够取得更为全面 有效的解决方案. 对多模态数据的分析处理可采 用机器学习手段来完成,处理多模态数据的机器 学习方法即可被视为多模态学习方法. 机器学习 是利用数据优化算法的一种人工智能手段,它涵 盖统计学习与深度学习等方法. 近几年,对抗学习 技术被广泛地应用于跨模态匹配和生成任务中, 并取得了令人瞩目的效果. 后文将分别对多模态 统计学习方法、多模态深度学习方法、多模态对 抗学习方法进行综述与分析. 2 多模态统计学习方法 广义的统计学习(Statistical learning)即采用统 计学的相关理论,赋予计算机处理数据能力的机 器学习方法. 如统计学家和数学家 Breiman 提出 的 随 机 森 林 ( Random forest) 算 法 [29] , Breiman 和 Friedman 等一同提出的分类回归树(Classification and regression trees, CART)算法[30] ,Cortes 和 Vapnik 提出的支持向量机(Support vector machine, SVM) 算法[10] 等. 统计学习方法和经典机器学习方法在 概念上是基本重合的. 上述统计学习界的领军学 者分别在不同角度完善了该领域的基本概念和理 论体系. 如 Breiman 在数据建模和算法建模两个 角度重新解读了机器学习的建模方式,即数据建 模方式往往预设数据符合某种分布形式,如线性 回归、逻辑回归等,进而进行参数估计和假设推 断;而算法建模则试图通过算法去直接寻找映射 函数以达到由输入预测输出的目的,如决策树与 神经网络结构[31] . Vapnik 和 Cervonenkis 归纳了他 的 VC(Vapnik–Chervonenkis dimension)维理论, 不仅对典型的分类器模型与这些模型所能区分的 集合大小进行系统总结,还给出了对模型最大分 类能力进行分析的有效方法[32] . 受计算资源等因素的制约,统计学习方法的 处理样本往往是中小规模的数据集,在许多任务 (如图像处理和自然语言处理任务)的处理过程 中,需要人参与的特征处理过程. 多模态机器学习 技术是伴随着统计学习理论的完备、大量新颖有 效的统计学习方法的提出逐渐发展的. 本节将结 合多模态数据的特点,对相应的统计学习方法进 行介绍. 2.1 核学习方法与多核学习 核学习(Kernel learning)方法是一种将低维不 可分样本通过核映射的方式映射到高维非线性空 间,实现对样本有效分类的方法[33] ,如图 2 所示. 核学习方法是支持向量机(SVM)算法的有力理论 支撑,也随着支持向量机的广泛应用被研究者和 工程技术人员所关注. 事实上,早在 1909 年,英国 数学家 Mercer 即提出了其重要的 Mercer 定理,即 任何半正定的函数都可作为核函数,奠定了核学 习方法的理论基础[34] . 在 Mercer 定理的基础上,波 兰裔美国数学家 Aronszajn 进一步发展了再生核希 尔伯特空间理论,使其能够被引入到模式识别任 务中[35] . 多核学习方法为不同模态的数据和属性选取 · 560 · 工程科学学报,第 42 卷,第 5 期