当前位置：和泉文库 > 电气与自动化 > 浏览文档

【综述】智能交互的物体识别增量学习技术综述

文件格式：PDF，文件大小：1.47MB，售价：3.9元

文档详细内容（约10页）

第12卷第2期智能系统学报 Vol.12 No.2 2017年4月 CAAI Transactions on Intelligent Systems Apr.2017 D0I:10.11992/6is.201701006 网络出版地址：http://kns.cnki.net/kcms/detail/23.1538.TP.20170419.1448.002.html 智能交互的物体识别增量学习技术综述李雪12，蒋树强2 (1.山东科技大学计算机科学与工程学院，山东青岛266590：2.中国科学院计算技术研究所智能信息处理重点实验室，北京100190) 摘要：智能交互系统是研究人与计算机之间进行交流与通信，使计算机能够在最大程度上完成交互者的某个指令的一个领域。其发展的目标是实现人机交互的自主性、安全性和友好性。增量学习是实现这个发展目标的一个途径。本文对智能交互系统的任务、背景和获取信息来源进行简要介绍，主要对增量学习领域的已有工作进行综述。增量学习是指一个学习系统能不断地从新样本中学习新的知识，非常类似于人类自身的学习模式。它使智能交互系统拥有自我学习，提高交互体验的能力。文中对主要的增量学习算法的基本原理和特点进行了闸述，分析各自的优点和不足，并对进一步的研究方向进行展望。关键词：人工智能：人机交互；计算机视觉：物体识别：机器学习；多模态；机器人；交互学习中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)02-0140-10 中文引用格式：李雪，蒋树强.智能交互的物体识别增量学习技术综述[J].智能系统学报，2017,12(2)：140-149，英文引用格式：LI Xue,JIANG Shuqiang..Incremental learning and object recognition system based on intelligent HCI:a survey [J].CAAI transactions on intelligent systems,2017,12(2):140-149. Incremental learning and object recognition system based on intelligent HCI:a survey LI Xue JIANG Shuqiang2 (1.College of Information Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China;2.Key Laboratory of Intelligent Information Processing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190. China) Abstract:Intelligent HCI systems focus on the interaction between computers and humans and study whether com- puters are able to apprehend human instructions.Moreover,this study aims to make the interaction more independ- ent and interactive.To some extent,incremental learning is a way to realize this goal.This study briefly introduces the tasks,background,and information source of intelligent HCI systems;in addition,it focuses on the summary of incremental learning.Similar to the learning mechanism of humans,incremental learning involves acquiring new knowledge on a continuous basis.This allows for the intelligent HCI systems to have the ability of self-growth.This study surveys the works that focus on incremental learning,including the mechanisms and their respective advanta- ges and disadvantages,and highlights the future research directions. Keywords:artificial intelligence;human-computer interaction;computer vision;object recognition;machine learning;multimodality;robotics;interactive learning 智能交互系统最为重要的一项任务就是捕获和理解外界环境信息，从而完成交互方任务。近年来，由于人工智能和机器人学等相关领域技术的进步，收稿日期：2017-01-09.网络出版日期：2017-04-19. 智能交互系统得到了广泛的关注，高性能智能交互基金项目：国家“973”计划项目(2012CB316400). 通信作者：蒋树强E-mail::sqjiang@(ict.ac.cn. 系统的实现也更加现实。智能交互系统感知外界环

第１２卷第２期智能系统学报Ｖｏｌ．１２ №．２２０１７年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０１００６网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０４１９．１４４８．００２．ｈｔｍｌ智能交互的物体识别增量学习技术综述李雪１，２，蒋树强２（１．山东科技大学计算机科学与工程学院，山东青岛２６６５９０；２．中国科学院计算技术研究所智能信息处理重点实验室，北京１００１９０）摘要：智能交互系统是研究人与计算机之间进行交流与通信，使计算机能够在最大程度上完成交互者的某个指令的一个领域。其发展的目标是实现人机交互的自主性、安全性和友好性。增量学习是实现这个发展目标的一个途径。本文对智能交互系统的任务、背景和获取信息来源进行简要介绍，主要对增量学习领域的已有工作进行综述。增量学习是指一个学习系统能不断地从新样本中学习新的知识，非常类似于人类自身的学习模式。它使智能交互系统拥有自我学习，提高交互体验的能力。文中对主要的增量学习算法的基本原理和特点进行了阐述，分析各自的优点和不足，并对进一步的研究方向进行展望。关键词：人工智能；人机交互；计算机视觉；物体识别；机器学习；多模态；机器人；交互学习中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０２－０１４０－１０中文引用格式：李雪，蒋树强．智能交互的物体识别增量学习技术综述［Ｊ］．智能系统学报，２０１７，１２（２）：１４０－１４９．英文引用格式：ＬＩＸｕｅ，ＪＩＡＮＧＳｈｕｑｉａｎｇ．ＩｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｉｎｔｅｌｌｉｇｅｎｔＨＣＩ：ａｓｕｒｖｅｙ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（２）：１４０－１４９．ＩｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｎｄｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｂａｓｅｄｏｎｉｎｔｅｌｌｉｇｅｎｔＨＣＩ：ａｓｕｒｖｅｙＬＩＸｕｅ１，ＪＩＡＮＧＳｈｕｑｉａｎｇ２（１．ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｑｉｎｇｄａｏ２６６５９０，Ｃｈｉｎａ；２．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，ＩｎｓｔｉｔｕｔｅｏｆＣｏｍｐｕｔｉｎｇＴｅｃｈｎｏｌｏｇｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ１００１９０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＩｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓｆｏｃｕｓｏｎｔｈｅｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎｃｏｍｐｕｔｅｒｓａｎｄｈｕｍａｎｓａｎｄｓｔｕｄｙｗｈｅｔｈｅｒｃｏｍ⁃ ｐｕｔｅｒｓａｒｅａｂｌｅｔｏａｐｐｒｅｈｅｎｄｈｕｍａｎｉｎｓｔｒｕｃｔｉｏｎｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｉｓｓｔｕｄｙａｉｍｓｔｏｍａｋｅｔｈｅｉｎｔｅｒａｃｔｉｏｎｍｏｒｅｉｎｄｅｐｅｎｄ⁃ ｅｎｔａｎｄｉｎｔｅｒａｃｔｉｖｅ．Ｔｏｓｏｍｅｅｘｔｅｎｔ，ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｉｓａｗａｙｔｏｒｅａｌｉｚｅｔｈｉｓｇｏａｌ．Ｔｈｉｓｓｔｕｄｙｂｒｉｅｆｌｙｉｎｔｒｏｄｕｃｅｓｔｈｅｔａｓｋｓ，ｂａｃｋｇｒｏｕｎｄ，ａｎｄｉｎｆｏｒｍａｔｉｏｎｓｏｕｒｃｅｏｆｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓ；ｉｎａｄｄｉｔｉｏｎ，ｉｔｆｏｃｕｓｅｓｏｎｔｈｅｓｕｍｍａｒｙｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ．Ｓｉｍｉｌａｒｔｏｔｈｅｌｅａｒｎｉｎｇｍｅｃｈａｎｉｓｍｏｆｈｕｍａｎｓ，ｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇｉｎｖｏｌｖｅｓａｃｑｕｉｒｉｎｇｎｅｗｋｎｏｗｌｅｄｇｅｏｎａｃｏｎｔｉｎｕｏｕｓｂａｓｉｓ．ＴｈｉｓａｌｌｏｗｓｆｏｒｔｈｅｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓｔｏｈａｖｅｔｈｅａｂｉｌｉｔｙｏｆｓｅｌｆ－ｇｒｏｗｔｈ．Ｔｈｉｓｓｔｕｄｙｓｕｒｖｅｙｓｔｈｅｗｏｒｋｓｔｈａｔｆｏｃｕｓｏｎｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ，ｉｎｃｌｕｄｉｎｇｔｈｅｍｅｃｈａｎｉｓｍｓａｎｄｔｈｅｉｒｒｅｓｐｅｃｔｉｖｅａｄｖａｎｔａ⁃ ｇｅｓａｎｄｄｉｓａｄｖａｎｔａｇｅｓ，ａｎｄｈｉｇｈｌｉｇｈｔｓｔｈｅｆｕｔｕｒｅｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎｓ．Ｋｅｙｗｏｒｄｓ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｈｕｍａｎ⁃ｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎ；ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ；ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎ；ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｍｕｌｔｉｍｏｄａｌｉｔｙ；ｒｏｂｏｔｉｃｓ；ｉｎｔｅｒａｃｔｉｖｅｌｅａｒｎｉｎｇ收稿日期：２０１７－０１－０９．网络出版日期：２０１７－０４－１９．基金项目：国家“９７３”计划项目（２０１２ＣＢ３１６４００）．通信作者：蒋树强．Ｅ－ｍａｉｌ：：ｓｑｊｉａｎｇ＠ｉｃｔ．ａｃ．ｃｎ．智能交互系统最为重要的一项任务就是捕获和理解外界环境信息，从而完成交互方任务。近年来，由于人工智能和机器人学等相关领域技术的进步，智能交互系统得到了广泛的关注，高性能智能交互系统的实现也更加现实。智能交互系统感知外界环

第2期李雪，等：智能交互的物体识别增量学习技术综述 .141 境比人类困难得多，而准确感知外界环境可以提高交互者的语言进行分析，从而获取到对方的指令。智能交互系统的交互性能，因此许多智能交互系统自然语言处理是计算机科学领域与人工智能领域中相关的工作探索了提高对外界环境感知性能的问的一个重要方向。它研究能实现人与计算机之间用题，主要的思想策略包括多模态信息融合和增量学自然语言进行有效通信的各种理论和方法。自然语习两个方面。多模态的信息融合可以使智能系统增言处理是一门融语言学、计算机科学、数学于一体的加对外界环境的确定性，同时，不断变化的外界环境科学。其常用的方法有：1)关键词匹配：2)使用有要求智能系统拥有不断自我学习的能力。通过交互标注的语料库：3)语义分析。在文献[4]中，该系统不断学习外界信息也使智能系统的性能得以不断提使用关键词匹配技术实现自然语言理解，并假设相升。在计算机视觉、智能交互系统等领域，增量学习应的单词有某种特定的序列。文献[5]和文献[6] 都已引起了广泛的关注。本文基于智能交互系统的使用语义分析技术实现对自然语言的理解和分析。物体识别，对增量学习的进展进行综述。首先，对智文献[5]的语言模型从现有的语料库[]中训练得能交互系统的研究背景和现状进行简要介绍，在此到，而文献[6]通过系统与交互者对话的过程不断基础上，对增量学习主要算法进行综合对比与分析。获得语料，并逐步学习，不断改进其语言模型。最后讨论了增量学习可扩展和待解决的问题，以及 2.2计算机视觉进一步的研究方向。由于获取外界信息的另一个主要渠道是视觉，所以计算机视觉是当前人机交互中一个非常活跃的 1智能交互系统对环境的感知领域。这一学科的基本假设是：可以通过计算的方对于人类来说，我们可以精确地感知周围环境式来模拟人类的视觉机制。如图1所示，智能系统变化并作出相应的反应，但对于计算机来说，获取并模拟人类视觉机制的过程主要包括两个方面：1)智分析周围环境信息，同时通过模仿人类行为来实现能系统要有能力将外部视觉信息转化为智能系统的与人的交互，这是一个极具挑战性的任务。它包括内部表示：2)从外部环境获取到的视觉信息到语义场景理解、活动分类、运动分析、物体识别、自然语言方面的文字需要一个可用的映射。理解、语音合成等方面。每个方面都可作为一个独立研究的任务。准确感知外部环境可以使智能交互系统提高任面务的完成度、完成的准确度和交互者对交互体验的满意度。多模态的外部信息，信息中较多的干扰和 (a (b】噪声，外界环境的复杂多变，都对智能系统建立对外图1计算机模拟人类视觉机制部环境的准确感知提出了挑战。 Fig.I Computer simulation of human visual mechanism 为了增强交互系统对外部环境的感知性能，两第1个方面主要要求智能系统可以从图像中提个方面的相关工作被广泛研究：1)多模态信息融合：2)通过交互增量学习，自我改进。取出有判别能力的特征。图像特征基本包括两种：手工设计的浅层特征和使用深度模型提取的深度特 2多模态输入与信息融合征。SIFT8劉、FPFH(fast point features histogram)[oy 人类为了精确感知周围环境，往往会结合多和ensembles of shape features(io]等都属于手工设计的浅层特征。这种特征对图像变化如图像旋转、尺种感知信息，如视觉、听觉、触觉等。认知科学的度变化等具有不变性。但是浅层特征只能捕捉到一研究表明通过结合感官信息，人类可以增强对环境的感知。因此在多模态信息输入的智能交互部分图像信息[山。与此相反的是，由于近年来深度学习模型（如卷积神经网络[]）方面的进步，由深系统中，互补的输入模式给系统提供了冗余的信度学习模型提取的深度特征可以捕获图像语义等更息，而冗余输入模式增加了系统融合信息的准确高层面的信息，具有更强的区分能力。因此，在计算性，降低系统对外界环境的不确定性，增加对环机视觉方面，深度特征被广泛使用。境感知的可靠性，从嘈杂的信息中产生一个单一智能系统模拟人类视觉机制的另一个要求是可的整体状态[1-3]。以对图像特征进行分类识别。在图像识别方面存在 2.1自然语言理解一系列的分类、聚类算法，如决策树、SVM、混合高斯智能交互系统常常需要通过理解自然语言来对模型等

境比人类困难得多，而准确感知外界环境可以提高智能交互系统的交互性能，因此许多智能交互系统相关的工作探索了提高对外界环境感知性能的问题，主要的思想策略包括多模态信息融合和增量学习两个方面。多模态的信息融合可以使智能系统增加对外界环境的确定性，同时，不断变化的外界环境要求智能系统拥有不断自我学习的能力。通过交互不断学习外界信息也使智能系统的性能得以不断提升。在计算机视觉、智能交互系统等领域，增量学习都已引起了广泛的关注。本文基于智能交互系统的物体识别，对增量学习的进展进行综述。首先，对智能交互系统的研究背景和现状进行简要介绍，在此基础上，对增量学习主要算法进行综合对比与分析。最后讨论了增量学习可扩展和待解决的问题，以及进一步的研究方向。１智能交互系统对环境的感知对于人类来说，我们可以精确地感知周围环境变化并作出相应的反应，但对于计算机来说，获取并分析周围环境信息，同时通过模仿人类行为来实现与人的交互，这是一个极具挑战性的任务。它包括场景理解、活动分类、运动分析、物体识别、自然语言理解、语音合成等方面。每个方面都可作为一个独立研究的任务。准确感知外部环境可以使智能交互系统提高任务的完成度、完成的准确度和交互者对交互体验的满意度。多模态的外部信息，信息中较多的干扰和噪声，外界环境的复杂多变，都对智能系统建立对外部环境的准确感知提出了挑战。为了增强交互系统对外部环境的感知性能，两个方面的相关工作被广泛研究：１）多模态信息融合；２）通过交互增量学习，自我改进。２多模态输入与信息融合人类为了精确感知周围环境，往往会结合多种感知信息，如视觉、听觉、触觉等。认知科学的研究表明通过结合感官信息，人类可以增强对环境的感知。因此在多模态信息输入的智能交互系统中，互补的输入模式给系统提供了冗余的信息，而冗余输入模式增加了系统融合信息的准确性，降低系统对外界环境的不确定性，增加对环境感知的可靠性，从嘈杂的信息中产生一个单一的整体状态［１－３］。２．１自然语言理解智能交互系统常常需要通过理解自然语言来对交互者的语言进行分析，从而获取到对方的指令。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。其常用的方法有：１）关键词匹配；２）使用有标注的语料库；３）语义分析。在文献［４］中，该系统使用关键词匹配技术实现自然语言理解，并假设相应的单词有某种特定的序列。文献［５］和文献［６］使用语义分析技术实现对自然语言的理解和分析。文献［５］的语言模型从现有的语料库［７］中训练得到，而文献［６］通过系统与交互者对话的过程不断获得语料，并逐步学习，不断改进其语言模型。２．２计算机视觉由于获取外界信息的另一个主要渠道是视觉，所以计算机视觉是当前人机交互中一个非常活跃的领域。这一学科的基本假设是：可以通过计算的方式来模拟人类的视觉机制。如图１所示，智能系统模拟人类视觉机制的过程主要包括两个方面：１）智能系统要有能力将外部视觉信息转化为智能系统的内部表示；２）从外部环境获取到的视觉信息到语义方面的文字需要一个可用的映射。图１计算机模拟人类视觉机制Ｆｉｇ．１Ｃｏｍｐｕｔｅｒｓｉｍｕｌａｔｉｏｎｏｆｈｕｍａｎｖｉｓｕａｌｍｅｃｈａｎｉｓｍ第１个方面主要要求智能系统可以从图像中提取出有判别能力的特征。图像特征基本包括两种：手工设计的浅层特征和使用深度模型提取的深度特征。ＳＩＦＴ［８］、ＦＰＦＨ（ｆａｓｔｐｏｉｎｔｆｅａｔｕｒｅｓｈｉｓｔｏｇｒａｍ）［９］和ｅｎｓｅｍｂｌｅｓｏｆｓｈａｐｅｆｅａｔｕｒｅｓ［１０］等都属于手工设计的浅层特征。这种特征对图像变化如图像旋转、尺度变化等具有不变性。但是浅层特征只能捕捉到一部分图像信息［１１］。与此相反的是，由于近年来深度学习模型（如卷积神经网络［１２］）方面的进步，由深度学习模型提取的深度特征可以捕获图像语义等更高层面的信息，具有更强的区分能力。因此，在计算机视觉方面，深度特征被广泛使用。智能系统模拟人类视觉机制的另一个要求是可以对图像特征进行分类识别。在图像识别方面存在一系列的分类、聚类算法，如决策树、ＳＶＭ、混合高斯模型等。第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４１·

142 智能系统学报第12卷 2.3多模态信息融合新的信息，学习到新的知识。自然语言理解和计算机视觉是智能交互系统获训练环境应用环境取外界信息的两个主要途径。单一模态信息使智能系统难以对外界环境产成一个准确的认识，多模态信息融合可以增加系统对环境信息的确认度，通过多模态信息融合，智能系统摆脱了单一模态的限制，使人机交互更加智能。当前已经有很多工作关注于多模态融合这一方面的研究[13-0」 2.4多模态信息融合与增量学习多模态信息融合帮助智能交互系统最大程度上图2实际环境的复杂多变和非增量方法的局限性地利用了可获取的外部信息，消除了单一模态中噪 Fig.2 The complex of environment and the limitation 声带来的不一致性，从而可以准确地感知和理解外 of constant model 部环境。多模态的交互引导多模态的学习，反过来多模对外部环境信息的准确感知使得智能交互系统态的学习又会改善多模态的交互。这是一个相互促在交互的过程中产生合情合理的语言或行为，这有助进，共同提高的过程。于提升系统的交互性能，得到更加良好的用户体验， 3.1从交互中学习新知识的机器人如表1所示。当前已经有许多相关工作展开了关于智能系统表1智能交互系统主要交互方式 Table 1 Major interaction of intelligent HCI systems 通过交互进行增量学习的研究[21-2) 多方社交智能机器人在酒吧中使用自然语言与客交互方式面向任务主要算法人对话，根据客人的需要为他们提供相应的饮品凶。通过交互者从自它的学习任务在于引导一个多方互动对话，其目标为：然语言中获取到自然语言理解、当机器人的视野中同时出现多位客人时，以社会可接自然语言相应的指令：将任语音合成受的行为来尽可能为客人提供正确的饮品。务结果转化为自然室内路线说明机器人[)基于预定义的室内地语言回馈给交互者图通过语音和手势向交互者提供方向引导他们到达通过对图像或视频场景理解、活相应的位置。它的学习任务是通过交互不断学习进计算机视觉进行分析“看到” 动分类、运动入，维持和解除与它面前的人进行交互的恰当时机。周围环境分析，物体识别移动机器人[28]被用来获取物体和相关属性的新知识。它的任务包括发现未知的物品，询问物品通过结合视觉、特征层面的的外形并获取相关的新知识。其学习任务为通过交听觉等多方面信多模态融合信息融合、语义息，获得一个对周互者获得新物品的物理外形描述，以此来扩充其知层面的信息融合围环境更加准确的判断识库。 3.2智能交互系统自我学习的策略优秀的交互性能和良好的用户体验使得智能系统可智能交互系统自我学习的能力需要通过某种探以从交互者处得到正确并且及时的反馈，这为智能系索和学习新知识的策略来实现。统在交互中进行增量学习打下了坚实的基础。增量学习是近年来备受关注的一种学习新知识 3通过交互学习的策略，旨在利用新数据来不断更新原有模型，使学习具有延续性，从而实现增量式的学习。由于外界环境复杂多变，智能交互系统无法在增量学习使智能交互系统可以进行持续性的学训练前获取到所有可能情形的全部有效信息作为训习，外部环境和交互者充当“老师”的角色，而系统练数据（如图2所示，应用环境中的“书籍”在训练则通过多模态的交互不断获得并学习新信息。环境中出现过，属于旧类别的新实例，而“香蕉”则未曾在训练环境中出现，属于新类别。智能系统无 4增量学习法识别这两种未经学习的物体)。这就要求智能系 4.1增量学习的背景统拥有自我学习的能力，可以在交互的过程中获得由于真实的交互环境是开放并且复杂多变

２．３多模态信息融合自然语言理解和计算机视觉是智能交互系统获取外界信息的两个主要途径。单一模态信息使智能系统难以对外界环境产成一个准确的认识，多模态信息融合可以增加系统对环境信息的确认度，通过多模态信息融合，智能系统摆脱了单一模态的限制，使人机交互更加智能。当前已经有很多工作关注于多模态融合这一方面的研究［１３－２０］。２．４多模态信息融合与增量学习多模态信息融合帮助智能交互系统最大程度上地利用了可获取的外部信息，消除了单一模态中噪声带来的不一致性，从而可以准确地感知和理解外部环境。对外部环境信息的准确感知使得智能交互系统在交互的过程中产生合情合理的语言或行为，这有助于提升系统的交互性能，得到更加良好的用户体验，如表１所示。表１智能交互系统主要交互方式Ｔａｂｌｅ１ＭａｊｏｒｉｎｔｅｒａｃｔｉｏｎｏｆｉｎｔｅｌｌｉｇｅｎｔＨＣＩｓｙｓｔｅｍｓ交互方式面向任务主要算法自然语言通过交互者从自然语言中获取到相应的指令；将任务结果转化为自然语言回馈给交互者自然语言理解、语音合成计算机视觉通过对图像或视频进行分析“看到” 周围环境场景理解、活动分类、运动分析、物体识别多模态融合通过结合视觉、听觉等多方面信息，获得一个对周围环境更加准确的判断特征层面的信息融合、语义层面的信息融合优秀的交互性能和良好的用户体验使得智能系统可以从交互者处得到正确并且及时的反馈，这为智能系统在交互中进行增量学习打下了坚实的基础。３通过交互学习由于外界环境复杂多变，智能交互系统无法在训练前获取到所有可能情形的全部有效信息作为训练数据（如图２所示，应用环境中的“书籍”在训练环境中出现过，属于旧类别的新实例，而“香蕉” 则未曾在训练环境中出现，属于新类别。智能系统无法识别这两种未经学习的物体）。这就要求智能系统拥有自我学习的能力，可以在交互的过程中获得新的信息，学习到新的知识。图２实际环境的复杂多变和非增量方法的局限性Ｆｉｇ．２Ｔｈｅｃｏｍｐｌｅｘｏｆｅｎｖｉｒｏｎｍｅｎｔａｎｄｔｈｅｌｉｍｉｔａｔｉｏｎｏｆｃｏｎｓｔａｎｔｍｏｄｅｌ多模态的交互引导多模态的学习，反过来多模态的学习又会改善多模态的交互。这是一个相互促进，共同提高的过程。３．１从交互中学习新知识的机器人当前已经有许多相关工作展开了关于智能系统通过交互进行增量学习的研究［２１－２５］。多方社交智能机器人在酒吧中使用自然语言与客人对话，根据客人的需要为他们提供相应的饮品［２６］。它的学习任务在于引导一个多方互动对话，其目标为：当机器人的视野中同时出现多位客人时，以社会可接受的行为来尽可能为客人提供正确的饮品。室内路线说明机器人［２７］基于预定义的室内地图通过语音和手势向交互者提供方向引导他们到达相应的位置。它的学习任务是通过交互不断学习进入，维持和解除与它面前的人进行交互的恰当时机。移动机器人［２８］被用来获取物体和相关属性的新知识。它的任务包括发现未知的物品，询问物品的外形并获取相关的新知识。其学习任务为通过交互者获得新物品的物理外形描述，以此来扩充其知识库。３．２智能交互系统自我学习的策略智能交互系统自我学习的能力需要通过某种探索和学习新知识的策略来实现。增量学习是近年来备受关注的一种学习新知识的策略，旨在利用新数据来不断更新原有模型，使学习具有延续性，从而实现增量式的学习。增量学习使智能交互系统可以进行持续性的学习，外部环境和交互者充当“老师” 的角色，而系统则通过多模态的交互不断获得并学习新信息。４增量学习４．１增量学习的背景由于真实的交互环境是开放并且复杂多变 ·１４２· 智能系统学报第１２卷

第2期李雪，等：智能交互的物体识别增量学习技术综述 .143. 的[9]，在训练模型之前无法获取到所有可能情形的训练环境已经出现过，应用环境中的“书籍”是旧类有效信息作为训练数据。除此之外，数据标签的获别的新实例取也需要耗费大量人力、物力、财力和时间。最为重 2)可以学习新类别。“香蕉”概念在训练环境要的一点是，新的物体类别不断产生，已有物体类别未出现过，应用环境中的“香蕉”属于新类别。的新实例不断出现，甚至有的物体类别的意义不断 3)在学习新知识时，旧的训练数据不是必须迁移变化，这都在数据方面要求智能系统需要具有的。增量学习时只使用应用环境中的新数据(“书不断学习的能力。另一方面，自我学习的能力可以籍”)和新类别(“香蕉”)作为训练数据，而不需要使智能系统在获得新数据时随时学习，不需要重新已经学过的“罐”、“苹果”和“杯子”数据。训练全部数据[0]。这又在模型方面要求智能系统 4)学习新知识后，不会忘记已经学到的旧知需要具有不断学习的能力。识。在应用环境中仍能识别以前在训练环境中学到 4.2增量学习的现状的旧概念：“罐”、“苹果”、“杯子”和“书籍”概念的学习新数据基本可以分为两种策略：一种是抛旧实例。弃原有模型，在现有数据上学习新知识：另一种是基当前有许多增量学习方面的工作并不严格满足于原有模型，在此基础上继续学习新知识。这两种以上4个条件。策略可以引出著名的稳定性-可塑性定理(stability- 4.3抛弃原有模型 plasticity dilemma)[] 对于学习新数据的第1种策略：抛弃原有模型，这个定理指出，一个完全稳定的模型可以保存已在现有数据上学习新知识。这种完全可塑的策略面经学到的知识不忘记，但无法学习到新的知识；而一临的最大问题是灾难性的遗忘(catastrophic forget- 个完全可塑的模型可以学习新知识，但无法保存以前 ing)。它在现有新数据上学习知识，可以学到新的学到的知识（如图3所示）。而优秀的增量学习方法数据和类别，并且可以不需要原来的训练数据，满足就是在可塑性和稳定性之间寻找一个合理的权衡。增量学习的前3个条件。但它抛弃原有模型，则会训练环境应用环境导致旧知识的遗忘，不能满足第4个条件。神经网络常常使用这种策略的模型，例如多层感知机、径向数据基函数网络，小波网络和Kohonen网络。 4.4 基于原有模型继续学习量学习对于学习新数据的第2种策略：基于原有模型，在此基础上继续学习新知识。这种策略也常因关注于不同的方面而不能完全满足增量学习的4个条件。根据增量学习算法学习的内容来看，新数据主图3稳定性-可塑性定理要来源于两个方面：1)数据来源于已经学习过的类 Fig.3 Stability-plasticity dilemma 别，是旧类别的新实例：2)数据来源于没有学习过文献[32]提出真正的增量学习应该满足4个的类别，是新类别的数据。条件，如图4。 4.4.1学习旧类别的新实例稳定性学习旧类别的新实例这一任务在某种程度上与迁不能学习新知识移学习有些相似之处但又有不同，如表2。表2增量学习与迁移学习的比较稳定性和可塑性 Table 2 Comparison between transfer learning and incre- 之间的合理平衡 mental learning 类别相同点不同点训练集领域与测试集不能保存旧知识迁移学习领域不同：新领域的数可塑性将已学习的据未经过学习知识转移到图4增量学习的条件 Fig.4 The conditions of incremental learning 新的任务训练集领域与测试集增量学习领域相同：新数据经 1)可以学习旧类别的新数据。“书籍”概念在过学习

的［２９］，在训练模型之前无法获取到所有可能情形的有效信息作为训练数据。除此之外，数据标签的获取也需要耗费大量人力、物力、财力和时间。最为重要的一点是，新的物体类别不断产生，已有物体类别的新实例不断出现，甚至有的物体类别的意义不断迁移变化，这都在数据方面要求智能系统需要具有不断学习的能力。另一方面，自我学习的能力可以使智能系统在获得新数据时随时学习，不需要重新训练全部数据［３０］。这又在模型方面要求智能系统需要具有不断学习的能力。４．２增量学习的现状学习新数据基本可以分为两种策略：一种是抛弃原有模型，在现有数据上学习新知识；另一种是基于原有模型，在此基础上继续学习新知识。这两种策略可以引出著名的稳定性－可塑性定理（ｓｔａｂｉｌｉｔｙ⁃ ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ）［３１］。这个定理指出，一个完全稳定的模型可以保存已经学到的知识不忘记，但无法学习到新的知识；而一个完全可塑的模型可以学习新知识，但无法保存以前学到的知识（如图３所示）。而优秀的增量学习方法就是在可塑性和稳定性之间寻找一个合理的权衡。图３稳定性－可塑性定理Ｆｉｇ．３Ｓｔａｂｉｌｉｔｙ⁃ｐｌａｓｔｉｃｉｔｙｄｉｌｅｍｍａ文献［３２］提出真正的增量学习应该满足４个条件，如图４。图４增量学习的条件Ｆｉｇ．４Ｔｈｅｃｏｎｄｉｔｉｏｎｓｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇ１）可以学习旧类别的新数据。 “书籍”概念在训练环境已经出现过，应用环境中的“书籍”是旧类别的新实例。２）可以学习新类别。 “香蕉”概念在训练环境未出现过，应用环境中的“香蕉”属于新类别。３）在学习新知识时，旧的训练数据不是必须的。增量学习时只使用应用环境中的新数据（“书籍”）和新类别（“香蕉”）作为训练数据，而不需要已经学过的“罐”、“苹果”和“杯子”数据。４）学习新知识后，不会忘记已经学到的旧知识。在应用环境中仍能识别以前在训练环境中学到的旧概念：“罐”、“苹果”、“杯子” 和“书籍” 概念的旧实例。当前有许多增量学习方面的工作并不严格满足以上４个条件。４．３抛弃原有模型对于学习新数据的第１种策略：抛弃原有模型，在现有数据上学习新知识。这种完全可塑的策略面临的最大问题是灾难性的遗忘（ｃａｔａｓｔｒｏｐｈｉｃｆｏｒｇｅｔ⁃ ｔｉｎｇ）。它在现有新数据上学习知识，可以学到新的数据和类别，并且可以不需要原来的训练数据，满足增量学习的前３个条件。但它抛弃原有模型，则会导致旧知识的遗忘，不能满足第４个条件。神经网络常常使用这种策略的模型，例如多层感知机、径向基函数网络，小波网络和Ｋｏｈｏｎｅｎ网络。４．４基于原有模型继续学习对于学习新数据的第２种策略：基于原有模型，在此基础上继续学习新知识。这种策略也常因关注于不同的方面而不能完全满足增量学习的４个条件。根据增量学习算法学习的内容来看，新数据主要来源于两个方面：１）数据来源于已经学习过的类别，是旧类别的新实例；２）数据来源于没有学习过的类别，是新类别的数据。４．４．１学习旧类别的新实例学习旧类别的新实例这一任务在某种程度上与迁移学习有些相似之处但又有不同，如表２。表２增量学习与迁移学习的比较Ｔａｂｌｅ２Ｃｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇａｎｄｉｎｃｒｅ⁃ ｍｅｎｔａｌｌｅａｒｎｉｎｇ类别相同点不同点迁移学习增量学习将已学习的知识转移到新的任务训练集领域与测试集领域不同；新领域的数据未经过学习训练集领域与测试集领域相同；新数据经过学习第２期李雪，等：智能交互的物体识别增量学习技术综述 ·１４３·

.144 智能系统学报第12卷迁移学习的任务是将某一领域学到的特征或信学习方法可以依靠已经学习的类别使用少量新数据息应用到另一个不同但相似的领域上，如文献来有效的学习新类别。通过求解一个凸优化问题， [33]。增量学习旧类别新实例的目标是利用现有该方法自动选择利用哪一部分旧知识传递多少信息的特征在相同任务（需要识别的类别不变）但规模最为有效并确保在可用训练集上达到最小误差。文扩大的数据集上学习新的知识。献[42]通过使用属性分类器来实现zero-shot learn- 文献[34]修改了原SVM目标函数中的损失 ing的目标。项，使修改后的SVM可以在原模型的基础上修改分文献[43]指出，在其之前的大多数增量学习的类面，实现增量学习旧类别新实例：文献[35]提出工作都专注于二分类问题，这篇文章提出了一个多类了一个基于SVM框架增量学习的精确解，即每增加分类的方法，在保存已学到的知识的基础上把当前的一个训练样本或减少一个样本都会对Lagrange系 N类分类器转化为一个N+1类分类器；文献[44]提数和支持向量产生影响，以此来调整分界面：文献出了一种具有层级关系的增量学习模型NCMF(nea- [36]介绍了HME(hierarchical mixture of experts)框 rest class mean forest classifier)。这种方法以层级关架，这种框架在特征空间的不同区域训练了多个分系来组织概念，使得学习新类别时可以更新局部节点类器，将各个分类器的输出通过一个网络进行加权来达到增量的目的。文献[45]结合SVM算法最大分得到最终结果，它利用线性最小二乘法(linear least 类间隔的策略和半监督学习算法低密度分隔符技术， squares)和加权线性最小二乘法(weighted linear 来增加新的分界面以此识别新类别。 least squares)通过递归来增量的更新每个数据，点的这些增量学习方法更加关注于学习新类别，它参数，从而实现增量式的在线学习；文献[37]每次们对旧类别的新实例的学习效果尚未得到验证，同从候选训练数据集中选取一部分新的信息，并把选时有些方法在学习新数据的同时必须使用部分或全取出的新数据添加到当前数据集中：文献[38]扩展部原始数据，无法完全满足增量学习的4个条件。了文献[37]的增量学习方法，通过对候选训练数据表3增量学习算法对比分析集进行无监督的聚类，每次选出最有信息量的一部 Table 3 Comparative analysis of incremental learning al- 分数据加入当前训练数据中：文献[39]提出了一种 gorithms 结构学习算法，它使用数据集中的一小部分作为训旧类别不需要算法新类别实现技术练数据来建立一个具有最优隐藏层节点数目的前馈新实例原始数据网络，该方法以训练数据集中较少的一部分数据作文献[32] D 多模型组合为初始的训练数据，通过有效的选择训练数据，最终文献[34] V V 调整模型参数产生一个最少但对所有数据有效的训练集。文献[35] V L 调整模型参数这些增量学习方法更加关注于学习旧类别的新实文献[36] V 多模型组合例，它们都无法完全满足增量学习的4个条件。首先，这文献[38] v 选取有效数据些方法无法学习新类别的数据。其次，有些方法在增量文献「39] V 选取有效数据学习的同时必须使用部分或全部原始数据。文献[40] 调整模型参数 4.4.2学习新类别的数据文献[41] 多模型组合与学习旧类别的新实例相比，学习新类别明显文献[42]V 多模型组合更加具有挑战性。文献[431V 调整模型参数这个任务的目标是利用现有的特征在更加复杂文献[44] V 调整模型参数的任务（需要识别的类别增加）并且规模扩大的数文献[45] 调整模型参数据集上学习新的知识。文献[46]V 多模型组合对迁移学习的关注使得更多的研究工作注重于使用更少的数据来学得泛化性能更好的模型。由此文献[471V 调整模型参数转化到学习新类别方面的两个较为典型的研究领域文献[48] V 调整模型参数为：one-shot learning和zero-shot learning。文献[40] 文献[49] V 调整模型参数提出了一种贝叶斯迁移学习方法，这种增量学习方文献[50] 调整模型参数法可以使用少量新数据学习到新类别。文献[41] 文献[51]V 调整模型参数提出了一种基于多模型的知识迁移算法，这种增量

迁移学习的任务是将某一领域学到的特征或信息应用到另一个不同但相似的领域上，如文献［３３］。增量学习旧类别新实例的目标是利用现有的特征在相同任务（需要识别的类别不变）但规模扩大的数据集上学习新的知识。文献［３４］修改了原ＳＶＭ目标函数中的损失项，使修改后的ＳＶＭ可以在原模型的基础上修改分类面，实现增量学习旧类别新实例；文献［３５］提出了一个基于ＳＶＭ框架增量学习的精确解，即每增加一个训练样本或减少一个样本都会对Ｌａｇｒａｎｇｅ系数和支持向量产生影响，以此来调整分界面；文献［３６］介绍了ＨＭＥ（ｈｉｅｒａｒｃｈｉｃａｌｍｉｘｔｕｒｅｏｆｅｘｐｅｒｔｓ）框架，这种框架在特征空间的不同区域训练了多个分类器，将各个分类器的输出通过一个网络进行加权得到最终结果，它利用线性最小二乘法（ｌｉｎｅａｒｌｅａｓｔｓｑｕａｒｅｓ）和加权线性最小二乘法（ｗｅｉｇｈｔｅｄｌｉｎｅａｒｌｅａｓｔｓｑｕａｒｅｓ）通过递归来增量的更新每个数据点的参数，从而实现增量式的在线学习；文献［３７］每次从候选训练数据集中选取一部分新的信息，并把选取出的新数据添加到当前数据集中；文献［３８］扩展了文献［３７］的增量学习方法，通过对候选训练数据集进行无监督的聚类，每次选出最有信息量的一部分数据加入当前训练数据中；文献［３９］提出了一种结构学习算法，它使用数据集中的一小部分作为训练数据来建立一个具有最优隐藏层节点数目的前馈网络，该方法以训练数据集中较少的一部分数据作为初始的训练数据，通过有效的选择训练数据，最终产生一个最少但对所有数据有效的训练集。这些增量学习方法更加关注于学习旧类别的新实例，它们都无法完全满足增量学习的４个条件。首先，这些方法无法学习新类别的数据。其次，有些方法在增量学习的同时必须使用部分或全部原始数据。４．４．２学习新类别的数据与学习旧类别的新实例相比，学习新类别明显更加具有挑战性。这个任务的目标是利用现有的特征在更加复杂的任务（需要识别的类别增加）并且规模扩大的数据集上学习新的知识。对迁移学习的关注使得更多的研究工作注重于使用更少的数据来学得泛化性能更好的模型。由此转化到学习新类别方面的两个较为典型的研究领域为：ｏｎｅ⁃ｓｈｏｔｌｅａｒｎｉｎｇ和ｚｅｒｏ⁃ｓｈｏｔｌｅａｒｎｉｎｇ。文献［４０］提出了一种贝叶斯迁移学习方法，这种增量学习方法可以使用少量新数据学习到新类别。文献［４１］提出了一种基于多模型的知识迁移算法，这种增量学习方法可以依靠已经学习的类别使用少量新数据来有效的学习新类别。通过求解一个凸优化问题，该方法自动选择利用哪一部分旧知识传递多少信息最为有效并确保在可用训练集上达到最小误差。文献［４２］通过使用属性分类器来实现ｚｅｒｏ⁃ｓｈｏｔｌｅａｒｎ⁃ ｉｎｇ的目标。文献［４３］指出，在其之前的大多数增量学习的工作都专注于二分类问题，这篇文章提出了一个多类分类的方法，在保存已学到的知识的基础上把当前的Ｎ类分类器转化为一个Ｎ＋１类分类器；文献［４４］提出了一种具有层级关系的增量学习模型ＮＣＭＦ（ｎｅａ⁃ ｒｅｓｔｃｌａｓｓｍｅａｎｆｏｒｅｓｔｃｌａｓｓｉｆｉｅｒ）。这种方法以层级关系来组织概念，使得学习新类别时可以更新局部节点来达到增量的目的。文献［４５］结合ＳＶＭ算法最大分类间隔的策略和半监督学习算法低密度分隔符技术，来增加新的分界面以此识别新类别。这些增量学习方法更加关注于学习新类别，它们对旧类别的新实例的学习效果尚未得到验证，同时有些方法在学习新数据的同时必须使用部分或全部原始数据，无法完全满足增量学习的４个条件。表３增量学习算法对比分析Ｔａｂｌｅ３Ｃｏｍｐａｒａｔｉｖｅａｎａｌｙｓｉｓｏｆｉｎｃｒｅｍｅｎｔａｌｌｅａｒｎｉｎｇａｌ⁃ ｇｏｒｉｔｈｍｓ算法新类别旧类别新实例不需要原始数据实现技术文献［３２］ √ √ √ 多模型组合文献［３４］ √ √ 调整模型参数文献［３５］ √ √ 调整模型参数文献［３６］ √ √ 多模型组合文献［３８］ √ 选取有效数据文献［３９］ √ 选取有效数据文献［４０］ √ √ 调整模型参数文献［４１］ √ √ 多模型组合文献［４２］ √ √ 多模型组合文献［４３］ √ 调整模型参数文献［４４］ √ √ 调整模型参数文献［４５］ √ 调整模型参数文献［４６］ √ √ √ 多模型组合文献［４７］ √ √ √ 调整模型参数文献［４８］ √ √ 调整模型参数文献［４９］ √ √ 调整模型参数文献［５０］ √ √ 调整模型参数文献［５１］ √ 调整模型参数 ·１４４· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录