当前位置：和泉文库 > 电气与自动化 > 浏览文档

基于深度学习的视频预测研究综述（东南大学：莫凌飞、蒋红亮、李煊鹏）

文件格式：PDF，文件大小：936.23KB，售价：4.65元

文档详细内容（约12页）

第13卷第1期智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0:10.11992/tis.201707032 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180121.1457.002.html 基于深度学习的视频预测研究综述莫凌飞，蒋红亮，李煊鹏 (东南大学仪器科学与工程学院，江苏南京210096) 摘要：近年来，深度学习算法在众多有监督学习问题上取得了卓越的成果，其在精度、效率和智能化等方面的性能远超传统机器学习算法，部分甚至超越了人类水平。当前，深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。视频预测算法，因其可以利用海量无标注自然数据去学习视频的内在表征且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值，近两年来得到快速发展。本文论述了视频预测算法的发展背景和深度学习的发展历史，简要介绍了人体动作、物体运动和移动轨迹的预测，重点介绍了基于深度学习的视频预测的主流方法和模型，最后总结了当前该领域存在的问题和发展前景。关键词：视频预测；深度学习；无监督学习：运动预测：动作识别；卷积神经网络：递归神经网铬；自编码器中图分类号：TP391 文献标志码：A文章编号：1673-4785(2018)01-0085-12 中文引用格式：莫凌飞，蒋红亮，李煊鹏.基于深度学习的视频预测研究综述J智能系统学报，2018,13(1)：85-96. 英文引用格式：MO Lingfei,JIANG Hongliang,LI Xuanpeng..Review of deep learning-based video predictionJl..CAAI transac-. tions on intelligent systems,2018,13(1):85-96. Review of deep learning-based video prediction MO Lingfei,JIANG Hongliang,LI Xuanpeng (College of Instrument Science and Engineering,Southeast University,Nanjing 210096,China) Abstract:In recent years,deep learning algorithms have made significant achievements on various supervised learning problems,with their accuracy,efficiency,and intelligence outperforming traditional machine learning algorithms,in some instances even beyond human capability.Currently,deep learning researchers are gradually turning their interests from supervised learning to the areas of reinforcement learning,weakly supervised learning,and unsupervised learning. Video prediction algorithms have developed rapidly in the last two years due to its capability of using a large amount of unlabeled and naturalistic data to construct the forthcoming video as well as its widespread application value in decision making,autonomous driving,video comprehension,and other fields.In this paper,we review the development back- ground of the video prediction algorithms and the history of deep learning.Then,we briefly introduce the human activity, object movement,and trajectory prediction algorithms,with a focus on mainstream video prediction methods that are based on deep learning.We summarize current problems related to this research and consider the future prospects of this field. Keywords:video prediction;deep learning;unsupervised learning;motion prediction;action recognition;convolution neural network:recurrent neural network;auto encoder “我们缺乏的一个关键要素是预测（或无监泛的发展和应用，其在计算机视觉2、语音识别m 督)学习：机器具有模拟环境，预测未来的可能性，自然语言处理3以及游戏策略01等众多领域取得以及通过观察和参与理解世界如何运作的能力。如丰硕成果，在某些领域甚至取得了超越人类的表近年来，深度学习在学术界和工业界得到了广现。但当前的深度学习算法模型大部分都是以有监督的方式训练，模型严重依赖于大量的标注数据和收稿日期：2017-07-19.网络出版日期：201801-22 基金项目：国家十二五科技支撑计划重点项目(2015BAG09B01) 长时间的训练。以知名的ImageNet数据集为例，通信作者：莫凌飞.E-mail:lmo@seu.edu.cn. 其包含1500万张人工标注的图片，超过2.2万个类

DOI: 10.11992/tis.201707032 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180121.1457.002.html 基于深度学习的视频预测研究综述莫凌飞，蒋红亮，李煊鹏（东南大学仪器科学与工程学院，江苏南京 210096）摘要：近年来，深度学习算法在众多有监督学习问题上取得了卓越的成果，其在精度、效率和智能化等方面的性能远超传统机器学习算法，部分甚至超越了人类水平。当前，深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。视频预测算法，因其可以利用海量无标注自然数据去学习视频的内在表征，且在机器人决策、无人驾驶和视频理解等领域具有广泛的应用价值，近两年来得到快速发展。本文论述了视频预测算法的发展背景和深度学习的发展历史，简要介绍了人体动作、物体运动和移动轨迹的预测，重点介绍了基于深度学习的视频预测的主流方法和模型，最后总结了当前该领域存在的问题和发展前景。关键词：视频预测；深度学习；无监督学习；运动预测；动作识别；卷积神经网络；递归神经网络；自编码器中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2018)01−0085−12 中文引用格式：莫凌飞, 蒋红亮, 李煊鹏. 基于深度学习的视频预测研究综述[J]. 智能系统学报, 2018, 13(1): 85–96. 英文引用格式：MO Lingfei, JIANG Hongliang, LI Xuanpeng. Review of deep learning-based video prediction[J]. CAAI transactions on intelligent systems, 2018, 13(1): 85–96. Review of deep learning-based video prediction MO Lingfei，JIANG Hongliang，LI Xuanpeng (College of Instrument Science and Engineering, Southeast University, Nanjing 210096, China) Abstract: In recent years, deep learning algorithms have made significant achievements on various supervised learning problems, with their accuracy, efficiency, and intelligence outperforming traditional machine learning algorithms, in some instances even beyond human capability. Currently, deep learning researchers are gradually turning their interests from supervised learning to the areas of reinforcement learning, weakly supervised learning, and unsupervised learning. Video prediction algorithms have developed rapidly in the last two years due to its capability of using a large amount of unlabeled and naturalistic data to construct the forthcoming video as well as its widespread application value in decision making, autonomous driving, video comprehension, and other fields. In this paper, we review the development background of the video prediction algorithms and the history of deep learning. Then, we briefly introduce the human activity, object movement, and trajectory prediction algorithms, with a focus on mainstream video prediction methods that are based on deep learning. We summarize current problems related to this research and consider the future prospects of this field. Keywords: video prediction; deep learning; unsupervised learning; motion prediction; action recognition; convolution neural network; recurrent neural network; auto encoder “我们缺乏的一个关键要素是预测 (或无监督) 学习：机器具有模拟环境，预测未来的可能性，以及通过观察和参与理解世界如何运作的能力。” [1] 近年来，深度学习在学术界和工业界得到了广泛的发展和应用，其在计算机视觉[2-6] 、语音识别[7] 、自然语言处理[8-9]以及游戏策略[10-11]等众多领域取得丰硕成果，在某些领域甚至取得了超越人类的表现。但当前的深度学习算法模型大部分都是以有监督的方式训练，模型严重依赖于大量的标注数据和长时间的训练。以知名的 ImageNet 数据集[12]为例，其包含 1 500 万张人工标注的图片，超过 2.2 万个类收稿日期：2017−07−19. 网络出版日期：2018−01−22. 基金项目：国家十二五科技支撑计划重点项目 (2015BAG09B01). 通信作者：莫凌飞. E-mail: lfmo@seu.edu.cn. 第 13 卷第 1 期智能系统学报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018

·86· 智能系统学报第13卷别，创建和标注一个如此大规模的数据集需要耗费深度学习是人工神经网络(artificial neural net-- 许多人数月的时间才能完成。另外，依赖大量的标 work,ANN)的一个分支。最早的人工神经网络研记数据来获取概念和知识与人类的学习机制不符，究可以追溯到Mcculloch和Pitts在1943年提出人类依赖很少的样本就可以获取一个新的概念。当的阈值逻辑单元，他们从原理上证明了人工神经网儿童第一次观察到“猫”并被告知这种动物是“猫”以络可以计算任何算术和逻辑函数。随后Hebb学习后，儿童并不需要长期被重复告知这是“猫”，但监督规则)、感知机、反向传播算法1等概念先后被学习的方式需要大量的样本以及多次重复训练，才提出，并得到了一定的应用，例如手写数字识别和能掌握“猫”的概念。以类似人类的方式，通过有限语音识别。然而，由于当时人们对神经网络认识样本或者无监督的方式获取知识和表征，成为当前有限，计算机的计算能力也有限，神经网络并未得人工智能领域的热点研究问题。到过多关注。2006年，Hinton等提出以无监督限制另外，人类与其他动物的一个重要区别是人类玻尔兹曼机(restricted Boltzmann machine,RBM) 有很强的预测能力。尽管一些动物也有一些预测能进行逐层预训练的方法来高效地训练多层神经网力，例如在围捕猎物、躲避天敌和预测天气变化上络1，深度学习的概念开始进入公众视野。2012年等；但人类显然有更强的推理和预测能力，例如，人 Krizhevsky等使用深度卷积神经网络(convolution- 类驾驶汽车时可以推理其他汽车的运行轨迹，提前 al neural network,.CNN)Is构建的AlexNet模型以决策。当前计算机视觉领域的研究，也逐渐开始借绝对优势赢得了ImageNet大规模图像识别竞赛鉴人类这种预测编码能力。 (LSVRC2012)的冠军，AlexNet的成功成为了计算在这种背景下，视频预测因其可以用海量的无机视觉发展史上的转折点，自此深度学习得到了飞标注自然视频数据来训练，而且具有广泛的应用场速发展。卷积神经网络(convolutional neural net- 景，成为了当前深度学习研究领域的一个热点研究 work,CNN)、递归神经网铬(recurrent neural net-. 方向，并且已经取得了一定的研究成果。 work,RNN)Po、自编码网络(auto encoder)P和生成给出一个视频序列，预测未来视频，这需要构对抗网络(generative adversarial networks,.GANs) 建一个可以精准建模视频内容和动态变化的内部表及其各种变种得到了广泛的发展和应用。征模型，这也是视频预测被视为无监督表征学习的表征学习（或特征学习，representation learn- 一个很有前景的研究方向的原因。视频预测模型学 ing)2旨在利用机器自动从原始高维数据中获得可习到的表征可以迁移到监督学习任务中。例如，文以被机器学习算法高效利用的特征。深度学习可献[13]通过实验证明，通过无监督视频预测模型学看作一种通过简单、非线性映射方式获取多层特征习到的表征可以在动作识别数据集上提升分类结的表征学习方法，它把原始输入数据通过逐层映果，因此建模视频动态是一种有效的无监督表征学射，转变为高阶的、更为抽象的特征。以分类问题习方法。另外，在视频中推断未来的场景可以使机为例，高层的表征放大了那些更有区分度的特征，器人、自动驾驶汽车和无人机提前决策，因此有广而抑制了那些无关变量。深度学习被证明非常擅长泛的应用价值。发现高维度数据中的复杂特征，因此在科学界和工业界得到广泛应用，并打破了图像识别、语音识别 1深度学习概述和机器翻译的记录。机器学习算法是一种可以自动从数据中发现规 2深度学习主要模型律，并利用此规律对未知数据进行预测的算法，机器学习在数据挖掘、计算机视觉、自然语言处理、搜近些年来，有越来越多的深度学习模型被提索、推荐系统以及策略游戏等众多领域得到了广泛出，其中最基础、最重要的模型主要有卷积神经网的应用，取得了突出的成果。然而，自然界的原始络、递归神经网络、自编码器以及生成对抗网络，这数据，例如图像、视频和传感器测量数据等一般具几种模型构成了视频预测模型的基础，下面我们简有高维度、高复杂性和高冗余性的特点，人工提取要介绍这4种主流模型。特征需要依赖专家知识，费时费力且提取到的特征 2.1卷积神经网络通常不太好。而传统机器学习算法往往依赖人工提卷积神经网络是前馈神经网络的一种，这种神取特征，导致实际的机器学习问题退化为数据预处经元连接模式受动物视觉皮层检测光学信号原理的理和特征工程四，成为机器学习应用和发展的一大启发。1980年Fukushima等提出了CNN的前障碍。身一一NeoCognitron,20世纪90年代，Lecun等l割

别，创建和标注一个如此大规模的数据集需要耗费许多人数月的时间才能完成。另外，依赖大量的标记数据来获取概念和知识与人类的学习机制不符，人类依赖很少的样本就可以获取一个新的概念。当儿童第一次观察到“猫”并被告知这种动物是“猫”以后，儿童并不需要长期被重复告知这是“猫”，但监督学习的方式需要大量的样本以及多次重复训练，才能掌握“猫”的概念。以类似人类的方式，通过有限样本或者无监督的方式获取知识和表征，成为当前人工智能领域的热点研究问题。另外，人类与其他动物的一个重要区别是人类有很强的预测能力。尽管一些动物也有一些预测能力，例如在围捕猎物、躲避天敌和预测天气变化上等；但人类显然有更强的推理和预测能力，例如，人类驾驶汽车时可以推理其他汽车的运行轨迹，提前决策。当前计算机视觉领域的研究，也逐渐开始借鉴人类这种“预测编码”能力。在这种背景下，视频预测因其可以用海量的无标注自然视频数据来训练，而且具有广泛的应用场景，成为了当前深度学习研究领域的一个热点研究方向，并且已经取得了一定的研究成果。给出一个视频序列，预测未来视频，这需要构建一个可以精准建模视频内容和动态变化的内部表征模型，这也是视频预测被视为无监督表征学习的一个很有前景的研究方向的原因。视频预测模型学习到的表征可以迁移到监督学习任务中。例如，文献[13]通过实验证明，通过无监督视频预测模型学习到的表征可以在动作识别数据集上提升分类结果，因此建模视频动态是一种有效的无监督表征学习方法。另外，在视频中推断未来的场景可以使机器人、自动驾驶汽车和无人机提前决策，因此有广泛的应用价值。 1 深度学习概述机器学习算法是一种可以自动从数据中发现规律，并利用此规律对未知数据进行预测的算法，机器学习在数据挖掘、计算机视觉、自然语言处理、搜索、推荐系统以及策略游戏等众多领域得到了广泛的应用，取得了突出的成果。然而，自然界的原始数据，例如图像、视频和传感器测量数据等一般具有高维度、高复杂性和高冗余性的特点，人工提取特征需要依赖专家知识，费时费力且提取到的特征通常不太好。而传统机器学习算法往往依赖人工提取特征，导致实际的机器学习问题退化为数据预处理和特征工程[2] ，成为机器学习应用和发展的一大障碍。深度学习是人工神经网络 (artificial neural network, ANN) 的一个分支。最早的人工神经网络研究可以追溯到 Mcculloch 和 Pitts[14]在 1943 年提出的阈值逻辑单元，他们从原理上证明了人工神经网络可以计算任何算术和逻辑函数。随后 Hebb 学习规则[15] 、感知机[16] 、反向传播算法[17]等概念先后被提出，并得到了一定的应用，例如手写数字识别[18]和语音识别[7]。然而，由于当时人们对神经网络认识有限，计算机的计算能力也有限，神经网络并未得到过多关注。2006 年，Hinton 等提出以无监督限制玻尔兹曼机 (restricted Boltzmann machine, RBM) 进行逐层预训练的方法来高效地训练多层神经网络 [19] ，深度学习的概念开始进入公众视野。2012 年 Krizhevsky 等使用深度卷积神经网络 (convolutional neural network, CNN)[18]构建的 AlexNet 模型[3]以绝对优势赢得了 ImageNet 大规模图像识别竞赛 (ILSVRC2012) 的冠军，AlexNet 的成功成为了计算机视觉发展史上的转折点，自此深度学习得到了飞速发展。卷积神经网络 (convolutional neural network, CNN)、递归神经网络 (recurrent neural network, RNN)[20] 、自编码网络 (auto encoder)[21]和生成对抗网络 (generative adversarial networks, GANs)[22] 及其各种变种得到了广泛的发展和应用。表征学习 (或特征学习, representation learning)[23]旨在利用机器自动从原始高维数据中获得可以被机器学习算法高效利用的特征[21]。深度学习可看作一种通过简单、非线性映射方式获取多层特征的表征学习方法，它把原始输入数据通过逐层映射，转变为高阶的、更为抽象的特征。以分类问题为例，高层的表征放大了那些更有区分度的特征，而抑制了那些无关变量。深度学习被证明非常擅长发现高维度数据中的复杂特征，因此在科学界和工业界得到广泛应用，并打破了图像识别、语音识别和机器翻译的记录。 2 深度学习主要模型近些年来，有越来越多的深度学习模型被提出，其中最基础、最重要的模型主要有卷积神经网络、递归神经网络、自编码器以及生成对抗网络，这几种模型构成了视频预测模型的基础，下面我们简要介绍这 4 种主流模型。 2.1 卷积神经网络卷积神经网络是前馈神经网络的一种，这种神经元连接模式受动物视觉皮层检测光学信号原理的启发[24]。1980 年 Fukushima 等 [25]提出了 CNN 的前身——NeoCognitron，20 世纪 90 年代，Lecun 等 [18] ·86· 智能系统学报第 13 卷

第1期莫凌飞，等：基于深度学习的视频预测研究综述 ·87· 发表论文，确立了CNN的现代结构，这是一种多层编码为潜在变量，解码器将潜在变量重建为原的人工神经网络，取名为LeNet--5。自2012年起，数据。研究人员又不断提出更深、性能更强的卷积神经网自编码器有很多变体，例如降噪自编码器3 络模型：AlexNet、VGGNet和ResNet等。卷积稀疏自编码器31、变分自编码器(VAE)3637。因为神经网铬一般是由多个卷积层和全连接层组成，卷自编码器可以高效地进行数据降维，相当一部分视积操作、局部连接性和权值共享是卷积神经网络最频预测模型采用了自编码器架构。显著的特点。卷积神经网络通常用来处理2D结构 2.4生成对抗网络的数据，其在图像领域和语音识别上都得到了广泛 Goodfellow等2在2014年提出了生成对抗网的应用。络的概念，其为生成模型提供了一种全新的高效训 2010年，Zeiler等2首次提出了反卷积（卷积转练模式，近两年来生成对抗网络成为了机器学习领置或小数步进卷积，Deconvolution)的概念，用于卷域最热门的研究方向之一。LeCun认为“生成对抗积神经网络的特征可视化以及图像无监督特征学网络是过去十年来机器学习领域最有趣的想法”，很习。反卷积网络被越来越多的模型所采用，例如图多GAN的衍生模型，如条件GAN(condition GAN)、像语义分割2”、生成模型2割等。另外，为处理序列 InfoGANt9、DCGAN2相继被提出。图像，Ji等2使用3-D卷积去提取数据的空间和时生成对抗网络由一个生成器(generator,G)和间特征，从而可以使卷积神经网络能很好地处理序一个判别器(discriminator,D)组成。生成器输人一列信息，3-D卷积在人体动作识别等领域取得了显个潜在编码，其输出需无限逼近真实样本；判别器著的结果。的输入为真实样本和生成器的输出，并识别出真实 2.2递归神经网络样本和生成样本。两个网络以零和博弈的方式交替递归神经网络2是一种处理序列数据的神经网训练，训练鉴别器时最小化鉴别误差，训练生成器络，它把状态在自身网络中循环传递，能够处理任时最大化鉴别误差，最终目的是使鉴别器无法鉴别意长度的序列，递归神经网络比前馈神经网络更加出生成样本和真实样本，生成器的输出与真实样本符合生物神经网络的结构。分布一致。生成对抗网络的架构如图1所示。因为RNN容易受到梯度消失或者梯度爆炸的潜在编码或噪声影响，Schmidhuber等Bo在1997年提出了长短期记真实样本忆(long short term memory,LSTM)神经网络，该模型增加了“遗忘门”和“更新门”。实验表明，LSTM 生成器模型能有效避免梯度消失或者梯度爆炸的问题，很好地解决了长期依赖问题。随后学者提出了很多生成 LSTM模型的变体。Gers等于2001年提出了窥样本视孔LSTM(peephole LSTM),该模型增加了一个窥视孔连接，意味着可以让门限层监视神经元状态。新生成器 Cho等于2014年提出了门递归单元(gated recur-- rent unit,,GRU),它组合遗忘门和输入门为一个“更更新鉴别器鉴别器 D 新门”，合并了神经元状态和隐层状态，这个模型比标准的LSTM模型更简单。Shi等B别在2015年提误差反向传播出了卷积LSTM(convolutional LSTM),把卷积层和什算误差递归层做了很好的结合，卷积LSTM与常规LSTM 图1生成对抗网络架构的区别是把部分矩阵乘积操作换成了卷积操作。因 Fig.1 Architecture of generative adversarial nets 为卷积LSTM可以很好地处理图像的空间信息和时间动态信息，它在图像生成模型和视频处理等领域生成对抗网络的目标函数可以用式(I)描述：得到了广泛应用。 min max V(D.G)=EllogD()]+ (1) 2.3自编码器 E:-p:([log(1-D(G())] 自编码器是一种以无监督的方式来学习数据表生成对抗网络在生成逼真的自然样本2、图像征的神经网络，通常用来做数据降维2。自编码器超分辨率o、三维建模u、图像风格迁移2和视频通常分为编码器和解码器两部分，编码器将数据预测领域得到了广泛应用

发表论文，确立了 CNN 的现代结构，这是一种多层的人工神经网络，取名为 LeNet-5。自 2012 年起，研究人员又不断提出更深、性能更强的卷积神经网络模型：AlexNet[3] 、VGGNet[5]和 ResNet[6]等。卷积神经网络一般是由多个卷积层和全连接层组成，卷积操作、局部连接性和权值共享是卷积神经网络最显著的特点。卷积神经网络通常用来处理 2-D 结构的数据，其在图像领域和语音识别上都得到了广泛的应用。 2010 年，Zeiler 等 [26]首次提出了反卷积 (卷积转置或小数步进卷积，Deconvolution) 的概念，用于卷积神经网络的特征可视化以及图像无监督特征学习。反卷积网络被越来越多的模型所采用，例如图像语义分割[27] 、生成模型[28]等。另外，为处理序列图像，Ji 等 [29]使用 3-D 卷积去提取数据的空间和时间特征，从而可以使卷积神经网络能很好地处理序列信息，3-D 卷积在人体动作识别等领域取得了显著的结果。 2.2 递归神经网络递归神经网络[20]是一种处理序列数据的神经网络，它把状态在自身网络中循环传递，能够处理任意长度的序列，递归神经网络比前馈神经网络更加符合生物神经网络的结构。因为 RNN 容易受到梯度消失或者梯度爆炸的影响，Schmidhuber 等 [30]在 1997 年提出了长短期记忆 (long short term memory, LSTM) 神经网络，该模型增加了“遗忘门”和“更新门”。实验表明，LSTM 模型能有效避免梯度消失或者梯度爆炸的问题，很好地解决了长期依赖问题。随后学者提出了很多 LSTM 模型的变体。Gers 等 [31]于 2001 年提出了窥视孔 LSTM(peephole LSTM)，该模型增加了一个窥视孔连接，意味着可以让门限层监视神经元状态。 Cho 等 [32]于 2014 年提出了门递归单元 (gated recurrent unit, GRU)，它组合遗忘门和输入门为一个“更新门”，合并了神经元状态和隐层状态，这个模型比标准的 LSTM 模型更简单。Shi 等 [33]在 2015 年提出了卷积 LSTM(convolutional LSTM)，把卷积层和递归层做了很好的结合，卷积 LSTM 与常规 LSTM 的区别是把部分矩阵乘积操作换成了卷积操作。因为卷积 LSTM 可以很好地处理图像的空间信息和时间动态信息，它在图像生成模型和视频处理等领域得到了广泛应用。 2.3 自编码器自编码器是一种以无监督的方式来学习数据表征的神经网络，通常用来做数据降维[21]。自编码器通常分为编码器和解码器两部分，编码器将数据编码为潜在变量，解码器将潜在变量重建为原数据。自编码器有很多变体，例如降噪自编码器[34] 、稀疏自编码器[35] 、变分自编码器 (VAE)[36-37]。因为自编码器可以高效地进行数据降维，相当一部分视频预测模型采用了自编码器架构。 2.4 生成对抗网络 Goodfellow 等 [22]在 2014 年提出了生成对抗网络的概念，其为生成模型提供了一种全新的高效训练模式，近两年来生成对抗网络成为了机器学习领域最热门的研究方向之一。LeCun 认为“生成对抗网络是过去十年来机器学习领域最有趣的想法”，很多 GAN 的衍生模型，如条件 GAN(condition GAN)[38] 、 InfoGAN[39] 、DCGAN[28]相继被提出。生成对抗网络由一个生成器 (generator, G) 和一个判别器 (discriminator，D) 组成。生成器输入一个潜在编码，其输出需无限逼近真实样本；判别器的输入为真实样本和生成器的输出，并识别出真实样本和生成样本。两个网络以零和博弈的方式交替训练，训练鉴别器时最小化鉴别误差，训练生成器时最大化鉴别误差，最终目的是使鉴别器无法鉴别出生成样本和真实样本，生成器的输出与真实样本分布一致。生成对抗网络的架构如图 1 所示。生成对抗网络的目标函数可以用式 (1) 描述： min G max D V(D,G) = Ex∼pdata (x)[logD(x)]+ Ez∼pz(z)[log(1− D(G(z)))] (1) 生成对抗网络在生成逼真的自然样本[28] 、图像超分辨率[40] 、三维建模[41] 、图像风格迁移[42]和视频预测领域[43]得到了广泛应用。 ⭏ᡀಘ G 䢤࡛ಘ D ▌൘㕆⸱ᡆಚ༠ ⵏᇎṧᵜ ⭏ᡀ ṧᵜ 䈟ᐞ৽ੁՐ᫝ ᴤᯠ䢤࡛ಘ ᴤ ᯠ ⭏ ᡀ ಘ 䇑㇇䈟ᐞ 图 1 生成对抗网络架构 Fig. 1 Architecture of generative adversarial nets 第 1 期莫凌飞，等：基于深度学习的视频预测研究综述 ·87·

·88 智能系统学报第13卷 3运动预测研究 3.2物体移动轨迹预测除人体动作和运动预测外，物体轨迹预测也具给出一张静态图片或者一段场景视频，人类不有广泛的应用价值。Kitani等s提出了一种基于马仅可以迅速地获取图像中的即时内容，还可以推断尔可夫决策过程和反转最优控制的动作理解和轨迹出图像中的场景动态。然而，对于计算机来说，推预测方法，并在运动分析（包括运动平滑、路径和目演出图像中的场景动态是一个比较困难的任务，因的地预测)以及场景迁移学习上做了定量和定性的为它依赖计算机利用自然界大量难以参数化的知识评估。Kitani等s6和Gong等sm都提出用行人轨迹来建模。预测来辅助多目标追踪，并取得了高效的结果。在视频预测研究兴起之前，学术界比较关注的 KOoi等s提出了一种动态贝叶斯网络来做行是运动预测。运动预测一般是指从静态图像或视频人路径预测；Walker等s例使用条件变分自编码器来前几帧中推断出人体动作、物体移动轨迹等动态信预测静态图像中每个像素的运动轨迹：Walker等6o 息；而视频预测是从静态图片或视频前几帧中直接使用光流算法来标记视频，进而训练一个光流预测预测未来图像。本节我们对动作、运动和物体移动模型，该模型可以预测每个像素的运动：Walker等6 轨迹预测算法进行简要回顾。还尝试了通过奖赏函数选择最优目标的方式建模汽 3.1动作和运动预测车运动的轨迹。从静态图像或有限帧视频中预测人类动作和行 Yuen等6提出一种基于大数据的方法，通过检为是一个比较基础也比较重要的任务。在动作预测索大数据中与被检索图片或视频相似场景的方式来方面，研究人员主要使用统计学习方法和传统的机预测物体可能的位置，该方法类似于k近邻算法，不器学习方法来建模。Lan等49和Hoai等使用最需要训练模型，在数据量足够大的情况下可以取得大化边界框架来推测动作场景；Ryoo7把动作预测比较好的效果；Mottaghi等I6使用两个CNN和一问题概率化，使用时空特征积分直方图来建模特征个RNN来建模物体移动动态，从而预测可能移动分布如何随时间变化：Vù等4提出了一种使用动作的物体。和场景之间的关联信息，从静态场景中预测人类动运动预测模型一般从建模移动物体的运动轨迹作的方法：Pi等9提出了一种基于随机场景感知语出发，能较好地预测前景物体的瞬时运动轨迹，其法的事件解析、推断事件目标和预测可信动作的算处理的数据维度低于视频预测，但不能预测图像的法，与Vù的方法类似，该方法使用事件的层次组成结构信息，且其学习到的特征无法迁移到有监督学和子事件间的时态关系来鉴别不同事件以及预测动习领域，因而其应用范围和价值有限。作；Fouhey等so和Koppula等s通过使用条件随机场来建模人的可能动作从而来做未来场景的预测。 4视频预测模型架构 Huang等提出了一种基于双实体交互的方式 “不是我创造的，我就不能理解。”著名物理学来理解一个实体的动作如何影响另外一个实体的动家Feynman这句话背后的内涵是：通过构建验证过作。本文把双实体交互模型看作一种最优控制问的概念来理解事物。在人工智能领域，可以理解题，该模型使用一种基于核以及增强学习的近似软为：如果一个机器能够生成高度真实的数据，那么最大值函数去处理高维度的自然人体运动，另外还它就发展出了对自然数据的理解能力。使用了连续代价函数的均值转移方法来平滑动作视频预测是指给出一段连续视频帧X1,X,… 序列。 X.,构造一个模型可以精准地生成随后的帧X+1, Pickup等Is)、Lampert等s和Pintea等分别 X+2,…,X(1是需要预测的帧的数量)。或者，给出用统计流方法、向量值回归和随机森林回归算法回一段序列X,X2,…,Xw,其中X(1<n<N)是缺失的，归物体移动方向；Pintea等还论证了运动预测在动模型可以推断缺失的帧（插值）。视频预测不需要额作识别、运动显著性检测等方面有很大的应用价外的标注信息，因此属于无监督学习的范畴。值。也有学者使用深度学习进行动作预测。Von- 般常用于评估视频质量的指标有均方误差 drick等4提出一种用深度回归网络的方法来学习 (mean square error,MSE)、峰值信噪比(peak signal 视频表征，结合动作识别模型，能够很好地根据静 to noise ratio,PSNR)和结构相似性(structural simil- 态图像来推测未来动作。 arity index,SSIM。用Y来表示真实帧，Y表示预测

3 运动预测研究给出一张静态图片或者一段场景视频，人类不仅可以迅速地获取图像中的即时内容，还可以推断出图像中的场景动态。然而，对于计算机来说，推演出图像中的场景动态是一个比较困难的任务，因为它依赖计算机利用自然界大量难以参数化的知识来建模[44]。在视频预测研究兴起之前，学术界比较关注的是运动预测。运动预测一般是指从静态图像或视频前几帧中推断出人体动作、物体移动轨迹等动态信息；而视频预测是从静态图片或视频前几帧中直接预测未来图像。本节我们对动作、运动和物体移动轨迹预测算法进行简要回顾。 3.1 动作和运动预测从静态图像或有限帧视频中预测人类动作和行为是一个比较基础也比较重要的任务。在动作预测方面，研究人员主要使用统计学习方法和传统的机器学习方法来建模。Lan 等 [45]和 Hoai 等 [46]使用最大化边界框架来推测动作场景；Ryoo[47]把动作预测问题概率化，使用时空特征积分直方图来建模特征分布如何随时间变化；Vu 等 [48]提出了一种使用动作和场景之间的关联信息，从静态场景中预测人类动作的方法；Pei 等 [49]提出了一种基于随机场景感知语法的事件解析、推断事件目标和预测可信动作的算法，与 Vu 的方法类似，该方法使用事件的层次组成和子事件间的时态关系来鉴别不同事件以及预测动作；Fouhey 等 [50]和 Koppula 等 [51]通过使用条件随机场来建模人的可能动作从而来做未来场景的预测。 Huang 等 [52]提出了一种基于双实体交互的方式来理解一个实体的动作如何影响另外一个实体的动作。本文把双实体交互模型看作一种最优控制问题，该模型使用一种基于核以及增强学习的近似软最大值函数去处理高维度的自然人体运动，另外还使用了连续代价函数的均值转移方法来平滑动作序列。 Pickup 等 [53] 、Lampert 等 [54]和 Pintea 等 [55]分别用统计流方法、向量值回归和随机森林回归算法回归物体移动方向；Pintea 等还论证了运动预测在动作识别、运动显著性检测等方面有很大的应用价值。也有学者使用深度学习进行动作预测。Vondrick 等 [44]提出一种用深度回归网络的方法来学习视频表征，结合动作识别模型，能够很好地根据静态图像来推测未来动作。 3.2 物体移动轨迹预测除人体动作和运动预测外，物体轨迹预测也具有广泛的应用价值。Kitani 等 [56]提出了一种基于马尔可夫决策过程和反转最优控制的动作理解和轨迹预测方法，并在运动分析 (包括运动平滑、路径和目的地预测) 以及场景迁移学习上做了定量和定性的评估。Kitani 等 [56]和 Gong 等 [57]都提出用行人轨迹预测来辅助多目标追踪，并取得了高效的结果。 Kooij 等 [58]提出了一种动态贝叶斯网络来做行人路径预测；Walker 等 [59]使用条件变分自编码器来预测静态图像中每个像素的运动轨迹；Walker 等 [60] 使用光流算法来标记视频，进而训练一个光流预测模型，该模型可以预测每个像素的运动；Walker 等 [61] 还尝试了通过奖赏函数选择最优目标的方式建模汽车运动的轨迹。 Yuen 等 [62]提出一种基于大数据的方法，通过检索大数据中与被检索图片或视频相似场景的方式来预测物体可能的位置，该方法类似于 k 近邻算法，不需要训练模型，在数据量足够大的情况下可以取得比较好的效果；Mottaghi 等 [63]使用两个 CNN 和一个 RNN 来建模物体移动动态，从而预测可能移动的物体。运动预测模型一般从建模移动物体的运动轨迹出发，能较好地预测前景物体的瞬时运动轨迹，其处理的数据维度低于视频预测，但不能预测图像的结构信息，且其学习到的特征无法迁移到有监督学习领域，因而其应用范围和价值有限。 4 视频预测模型架构 “不是我创造的，我就不能理解。”著名物理学家 Feynman 这句话背后的内涵是：通过构建验证过的概念来理解事物。在人工智能领域，可以理解为：如果一个机器能够生成高度真实的数据，那么它就发展出了对自然数据的理解能力。 X1,X2,···, Xn+1, Xn+2,···,Xn+t X1,X2,···,XN Xn(1 < n < N) 视频预测是指给出一段连续视频帧 Xn，构造一个模型可以精准地生成随后的帧 (t 是需要预测的帧的数量)。或者，给出一段序列，其中是缺失的，模型可以推断缺失的帧 (插值)。视频预测不需要额外的标注信息，因此属于无监督学习的范畴。 Yˆ 一般常用于评估视频质量的指标有均方误差 (mean square error, MSE)、峰值信噪比 (peak signal to noise ratio，PSNR) 和结构相似性 (structural similarity index，SSIM)。用 Y 来表示真实帧，表示预测 ·88· 智能系统学报第 13 卷

第1期莫凌飞，等：基于深度学习的视频预测研究综述 ·89· 帧，MSE、PSNR和SSIM的定义如式(2)(4)：经网络架构和生成对抗网络架构，表2为部分基于 1 以上3类架构的视频预测文献概览。下面我们按照 MsE)=N∑Y- (2) =0 这3类进行介绍。 max2 max' 表1视频预测算法常用数据集 PSNR(YY)=101g- =10lg (3) Y- MSE(Y.P Table 1 Common datasets used by video prediction algorithms 0 式中max2,是像素的最大值，例如8位的像素表示公开数据集使用该数据集的视频预测文献法，其像素最大值是255。PSNR的值越大，代表失 KTH6网文献[65] 真越小。 Human3.6M166] 文献[67-68] SSIM(Y.Y)= (2μ44+C1)(2oy+c2) (4) UCP-10169 文献[13,43.70-73] (+5+c1)(+。+c2) THUMOS-15741 文献73) 式中：y是Y的均值；4是？的均值；σ是Y的方差； σ是？的方差；c是Y?的协方差；c1=(kL和 KITTP阿文献73,76] c2=(2L)是用于维持稳定的常数；L是像素值的动 HMDB-51177 文献[13] 态范围，k=0.01,k2=0.03;SSIM的范围是-1~1，值 CityScape7网文献79] 越大表示相似度越大。视频预测为一个较新的研究领域，目前尚未有 4.1 自编码器架构专用于视频预测的数据集，学者一般使用视频动作自编码器因其可以进行高效的压缩编码，因而数据集进行训练和测试。表1给出了部分常用数据很多视频预测模型采用自编码器来进行视频的降维集和使用该数据集的部分文献。和生成。基于自编码器的视频预测常用架构如图2 视频预测模型一般基于自编码器架构、递归神所示。表2视频预测算法概览 Table 2 Overview of video prediction algorithms 架构基础算法初始化模型帧数单次输出帧数/有效预测帧数备注文献[65] 1/15+ 在生成第15帧处仍未模糊文献73] 1/1 插值或预测图像较清晰，未给出多帧预测结果自编码器文献80] 1/1 侧重可以生成多种可信的动作图像文献[8] 120 1/1200+ 合成纹理图片，可以生成接近无限张图片文献[13) 10 1/10 可以同时重构、预测图像文献68) 10 1/128 基于骨架结构信息文献[72] 2 1/30 基于运动差分递归神经网络文献[76 1/9 可以在KITTI数据上高效预测视频文献[82] 1/4 图像容易模糊文献[83] 1/100+ 基于动作，能够生成大于100帧有效视频文献[84 1/8 基于动作和快捷连接文献43] 32/32 从单幅图像上直接预测32帧图像文献67刀1+1（前景+骨架图） 1/10+ 使用骨架作为辅助信息文献70) 4/8 预测图像锐利性较好生成对抗网络文献[80] 10 1/8 在合成数据集上验证，难度稍低文献8) 1/8 视频预测与语义分割解析结合在一起文献[86 2 1/14 视频差值模型，双向输入

帧，MSE、PSNR 和 SSIM 的定义如式 (2)~(4)： MSE(Y,Yˆ) = 1 N ∑N i=0 (Yi−Yˆ i) 2 (2) PSNR(Y,Yˆ) = 10lg max2 Yˆ 1 N ∑N i=0 (Yi−Yˆ i) 2 = 10lg max2 Yˆ MSE(Y,Yˆ) (3) max2 式中 Yˆ 是像素的最大值，例如 8 位的像素表示法，其像素最大值是 255。PSNR 的值越大，代表失真越小。 SSIM(Y,Yˆ) = (2µY µYˆ +c1)(2σYYˆ +c2) (µ 2 Y +µ 2 Yˆ +c1)(σ 2 Y +σ 2 Yˆ +c2) (4) µY µYˆ Yˆ σ 2 Y Y σ 2 Yˆ Yˆ σYYˆ YYˆ c1 = (k1L) 2 c2 = (k2L) 2 式中：是 Y 的均值；是的均值；是的方差；是的方差；是的协方差；和是用于维持稳定的常数；L 是像素值的动态范围，k1=0.01，k2=0.03；SSIM 的范围是 –1~1，值越大表示相似度越大。视频预测为一个较新的研究领域，目前尚未有专用于视频预测的数据集，学者一般使用视频动作数据集进行训练和测试。表 1 给出了部分常用数据集和使用该数据集的部分文献。视频预测模型一般基于自编码器架构、递归神经网络架构和生成对抗网络架构，表 2 为部分基于以上 3 类架构的视频预测文献概览。下面我们按照这 3 类进行介绍。 4.1 自编码器架构自编码器因其可以进行高效的压缩编码，因而很多视频预测模型采用自编码器来进行视频的降维和生成。基于自编码器的视频预测常用架构如图 2 所示。表 1 视频预测算法常用数据集 Table 1 Common datasets used by video prediction algorithms 公开数据集使用该数据集的视频预测文献 KTH[64] 文献[65] Human3.6M [66] 文献[67-68] UCF-101[69] 文献[13, 43, 70-73] THUMOS-15[74] 文献[73] KITTI[75] 文献[73, 76] HMDB-51[77] 文献[13] CityScape[78] 文献[79] 表 2 视频预测算法概览 Table 2 Overview of video prediction algorithms 架构基础算法初始化模型帧数单次输出帧数/有效预测帧数备注自编码器文献[65] 1 1/15+ 在生成第15帧处仍未模糊文献[73] 1 1/1 插值或预测图像较清晰，未给出多帧预测结果文献[80] 1 1/1 侧重可以生成多种可信的动作图像文献[81] 120 1/1200+ 合成纹理图片，可以生成接近无限张图片递归神经网络文献[13] 10 1/10 可以同时重构、预测图像文献[68] 10 1/128 基于骨架结构信息文献[72] 2 1/30 基于运动差分文献[76] 1 1/9 可以在KITTI数据上高效预测视频文献[82] 2 1/4 图像容易模糊文献[83] 1 1/100+ 基于动作，能够生成大于100帧有效视频文献[84] 1 1/8 基于动作和快捷连接生成对抗网络文献[43] 1 32/32 从单幅图像上直接预测32帧图像文献[67] 1+1（前景+骨架图） 1/10+ 使用骨架作为辅助信息文献[70] 4 4/8 预测图像锐利性较好文献[80] 10 1/8 在合成数据集上验证，难度稍低文献[85] 4 1/8 视频预测与语义分割解析结合在一起文献[86] 2 1/14 视频差值模型，双向输入第 1 期莫凌飞，等：基于深度学习的视频预测研究综述 ·89·

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录