当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】一种基于2D时空信息提取的行为识别算法

文件格式：PDF，文件大小：4.74MB，售价：3.9元

文档详细内容（约10页）

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992tis.201906054 一种基于2D时空信息提取的行为识别算法刘董经典，孟雪纯，张紫欣，杨旭，牛强 (中国矿业大学计算机科学与技术学院，江苏徐州221008) 摘要：基于计算机视觉的人体行为识别技术是当前的研究热点，其在行为检测、视频监控等领域都有着广泛的应用价值。传统的行为识别方法，计算比较繁琐，时效性不高。深度学习的发展极大提高了行为识别算法准确性，但是此类方法和图像处理领域相比，效果上存在一定的差距。设计了一种基于DenseNet的新颖的行为识别算法，该算法以DenseNet做为网络的架构，通过2D卷积操作进行时空信息的学习，在视频中选取用于表征行为的帧，并将这些帧按时空次序组织到RGB空间上，传入网络中进行训练。在UC℉I01数据集上进行了大量实验，实验准确率可以达到94.46%。关键词：行为识别：视频分析；神经网络；深度学习：卷积神经网络；分类；时空特征提取：密集连接卷积网络中图分类号：TP391.41文献标志码：A文章编号：1673-4785(2020)05-0900-10 中文引用格式：刘董经典，孟雪纯，张紫欣，等.一种基于2D时空信息提取的行为识别算法J.智能系统学报，2020,15(5)： 900-909. 英文引用格式：LIU Dongjingdian,,MENGXuechun,ZHANG Zixin,etal.A behavioral recognition algorithm based on2 D spati- otemporal information extraction CAAI transactions on intelligent systems,2020,15(5):900-909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian,MENG Xuechun,ZHANG Zixin,YANG Xu,NIU Qiang (College of Computer Science&Technology,China University of Mining and Technology,Xuzhou 221008,China) Abstract:Human behavior recognition technology based on computer vision is a research hotspot currently.It is widely applied in various fields of social life,such as behavioral detection,video surveillance,etc.Traditional behavior recogni- tion methods are computationally cumbersome and time-sensitive.Therefore,the development of deep learning has greatly improved the accuracy of behavior recognition algorithms.However,compared with the field of image pro- cessing,there is a certain gap in the effect of such methods.We introduce a novel behavior recognition algorithm based on DenseNet,which uses DenseNet as the network architecture,learns spatio-temporal information through 2D convolu- tion,selects frames for characterizing behavior in video,organizes these frames into RGB space in time-space order and inputs them into our network to train the network.We have carried out a large number experiments on the UCF101 data- set,and our method can reach an accuracy rate of 94.46%. Keywords:behavior recognition;video analysis;neural networks;deep learning;convolutional neural networks;classi- fication;spatiotemporal feature;densenet 近年来，人体行为识别技术随着深度学习的以及卷积神经网络的发展推动了行为识别技术的兴起，引起了广泛的关注。传统的行为识别方发展。主流深度学习网络模型，如AlexNet!2I 法，如DT山，计算繁琐，时效性不高。深度学习 VGG-Netl、GoogleLetNet!4、ResNet!s1和 DenseNet等，在2D图像数据处理方面取得了不收稿日期：2019-06-28. 基金项目：国家自然科学基金项目(51674255). 错的效果。通信作者：牛强.E-mail:.niuq@cumt.edu.cn, 基于深度学习的人体行为识别方法目前主要

DOI: 10.11992/tis.201906054 一种基于 2D 时空信息提取的行为识别算法刘董经典，孟雪纯，张紫欣，杨旭，牛强（中国矿业大学计算机科学与技术学院，江苏徐州 221008）摘要：基于计算机视觉的人体行为识别技术是当前的研究热点，其在行为检测、视频监控等领域都有着广泛的应用价值。传统的行为识别方法，计算比较繁琐，时效性不高。深度学习的发展极大提高了行为识别算法准确性，但是此类方法和图像处理领域相比，效果上存在一定的差距。设计了一种基于 DenseNet 的新颖的行为识别算法，该算法以 DenseNet 做为网络的架构，通过 2D 卷积操作进行时空信息的学习，在视频中选取用于表征行为的帧，并将这些帧按时空次序组织到 RGB 空间上，传入网络中进行训练。在 UCF101 数据集上进行了大量实验，实验准确率可以达到 94.46%。关键词：行为识别；视频分析；神经网络；深度学习；卷积神经网络；分类；时空特征提取；密集连接卷积网络中图分类号：TP391.41 文献标志码：A 文章编号：1673−4785(2020)05−0900−10 中文引用格式：刘董经典, 孟雪纯, 张紫欣, 等. 一种基于 2D 时空信息提取的行为识别算法 [J]. 智能系统学报, 2020, 15(5): 900–909. 英文引用格式：LIU Dongjingdian, MENG Xuechun, ZHANG Zixin, et al. A behavioral recognition algorithm based on 2D spatiotemporal information extraction[J]. CAAI transactions on intelligent systems, 2020, 15(5): 900–909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian，MENG Xuechun，ZHANG Zixin，YANG Xu，NIU Qiang (College of Computer Science & Technology, China University of Mining and Technology , Xuzhou 221008, China) Abstract: Human behavior recognition technology based on computer vision is a research hotspot currently. It is widely applied in various fields of social life, such as behavioral detection, video surveillance, etc. Traditional behavior recognition methods are computationally cumbersome and time-sensitive. Therefore, the development of deep learning has greatly improved the accuracy of behavior recognition algorithms. However, compared with the field of image processing, there is a certain gap in the effect of such methods. We introduce a novel behavior recognition algorithm based on DenseNet, which uses DenseNet as the network architecture, learns spatio-temporal information through 2D convolution, selects frames for characterizing behavior in video, organizes these frames into RGB space in time-space order and inputs them into our network to train the network. We have carried out a large number experiments on the UCF101 dataset, and our method can reach an accuracy rate of 94.46%. Keywords: behavior recognition; video analysis; neural networks; deep learning; convolutional neural networks; classification; spatiotemporal feature; densenet 近年来，人体行为识别技术随着深度学习的兴起，引起了广泛的关注。传统的行为识别方法，如 iDT[1] ，计算繁琐，时效性不高。深度学习以及卷积神经网络的发展推动了行为识别技术的发展。主流深度学习网络模型，如 AlexNet[ 2 ] 、 VGG-Net [ 3 ] 、 GoogleLetNet [ 4 ] 、 ResNet [ 5 ] 和 DenseNet[6] 等，在 2D 图像数据处理方面取得了不错的效果。基于深度学习的人体行为识别方法目前主要收稿日期：2019−06−28. 基金项目：国家自然科学基金项目（51674255）. 通信作者：牛强. E-mail：.niuq@cumt.edu.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期刘董经典，等：一种基于2D时空信息提取的行为识别算法 ·901· 包括两个流派：3D时空卷积(3 D ConvNets)和双有过渡层。密集块内的结构参照了ResNet的瓶流卷积网络(Two-Stream),主要基于的网络架构颈结构(Bottleneck),而过渡层中包括了一个1×1 是ResNet. 的卷积层和一个2×2的平均池化层。DenseNet 本文采用DenseNet做为网络的架构，通过减少了参数，使网络更窄，缓解了梯度消失问题， 2D卷积操作进行时空信息的学习，提出了一种新加强了特征的传播，鼓励特征重用。的基于视频的行为识别方法：2D时空卷积密集连对于卷积网络而言，输入网络数据的宽度接神经网络(2 D spatiotemporal dense connected con- (weight)、高度(height)、通道数(channels)以及数 volutional networks,2 DSDCN)。首先在视频中选据的分布对网络的实际表现有很大的影响。而这取用于表征行为的帧，并将这些帧按时空次序组些卷积网络的源生输入数据均为3通道的织成BGR格式数据，传人2 DSDCN中进行识 RGB图像，数据未归一化前分布在0~255。因此，别。2 OSDCN模型在DenseNet的基础上添加了为了充分发挥这些卷积网络的性能，本文决定将时空信息提取层，与单纯使用DenseNet相比，在时空信息组织成BGR图像形式作为输入数据的 UCF101数据集上得到了1%的效果提升。目组织形式。前，本文的方法在没有使用多流融合、DT信息融 1.2行为识别算法合等手段，在UC℉101数据集上获得了最高94.46% 根据行为识别方法各自的特点，可大致分为的准确率。基于特征工程的算法和基于深度学习的算法两本文提出了一种新的基于2D卷积的行为识大类。别方法，使用2D卷积提取时空信息：引入了基于特征工程的算法是传统的识别方法，其 DenseNet作为行为识别的网络架构，分析其对时中最经典的是改进的密集轨迹算法il(improved 空信息提取的促进作用；提出了一种新的基于 dense trajectories,iDT)。iDT算法源于对DT(dense BGR图像的时空关系组织提取方法。 trajectories)算法的改进，主要思想是通过利用 1相关工作光流场来获得视频序列中的一些轨迹，再提取 HOF、HOG、MBH等特征，用BOF(bag of 1.1卷积网络 feature)方法对提取到的特征进行编码，最后用卷积神经网络模型由交替堆叠的卷积层、池 SVM对编码的结果进行分类得到结果。iDT在化层和全连接层构成。AlexNet、LeNet!1、VGG- 消除了相机运动带来的影响，优化了光流信息的 Net在结构上并没有太大的改进，卷积层、池化层同时，对提取的HOF、HOG、MBH等特征采用和全连接层进行合理的组织来加深模型的深度。 L1正则化后再对每个维度开方，并使用了费舍尔 GoogLeNet引入了Inception结构来串联特征图，向量的编码方式对DT算法进行优化，在UCF50 通过多分辨率来丰富提取到的特征。上的准确率从原本的84.5%提升到了91.2%，在 ResNet引入了残差块，即增加了把当前输出 HMDB51上的准确率也从原本的46.6%提升到直接传输给后面层网络而绕过了非线性变换的直了57.2%0 接连接，梯度可以直接流向前面层，有助于解决基于深度学习的算法可分为基于卷积的行为梯度消失和梯度爆炸问题。然而该网络的缺点识别算法l、基于Two-Stream架构的行为识别算是，前一层的输出与其卷积变换后的输出之间通法s18]以及基于人体骨骼序列的行为识别算过值相加操作结合在一起可能会阻碍网络中的信法9：3类。前两者对视频进行像素级别的识别，息流5。而后者则依赖于单帧关键点或骨架等信息进行时 DenseNet在ResNet的基础上提出了一种不间上的识别。同的连接方式。它建立了一个密集块内前面层和基于卷积的行为识别算法，最经典的是C3D。后面所有层的密集连接，即每层的输入是其前面 TRAN Du等2提出的C3D(3 D ConvNets)的基本所有层的特征图，与ResNet在值上的累加不同，思想是将二维卷积拓展到三维空间，引人3D卷 DenseNet是维度上的累加，因此在信息流方面克积提取时空特征。在C3D的启发下，一系列的服了ResNet的缺点，改进了信息流。DenseNet的 2D卷积网络结构的3D卷积版本被用于行为识网络结构由密集块组成，其中，两个密集块之间别，例如3 D ResNets!22、P3D21T3D2等。为解

包括两个流派：3D 时空卷积 (3D ConvNets) 和双流卷积网络 (Two-Stream)，主要基于的网络架构是 ResNet。本文采用 DenseNet 做为网络的架构，通过 2D 卷积操作进行时空信息的学习，提出了一种新的基于视频的行为识别方法: 2D 时空卷积密集连接神经网络 (2D spatiotemporal dense connected convolutional networks，2DSDCN)。首先在视频中选取用于表征行为的帧，并将这些帧按时空次序组织成 BGR 格式数据，传入 2DSDCN 中进行识别。2DSDCN 模型在 DenseNet 的基础上添加了时空信息提取层，与单纯使用 DenseNet 相比，在 UCF101[7] 数据集上得到了 1% 的效果提升。目前，本文的方法在没有使用多流融合、iDT 信息融合等手段，在 UCF101 数据集上获得了最高 94.46% 的准确率。本文提出了一种新的基于 2D 卷积的行为识别方法，使用 2D 卷积提取时空信息；引入了 DenseNet 作为行为识别的网络架构，分析其对时空信息提取的促进作用；提出了一种新的基于 BGR 图像的时空关系组织提取方法。 1 相关工作 1.1 卷积网络卷积神经网络模型由交替堆叠的卷积层、池化层和全连接层构成。AlexNet、LeNet[8] 、VGGNet 在结构上并没有太大的改进，卷积层、池化层和全连接层进行合理的组织来加深模型的深度。 GoogLeNet 引入了 Inception 结构来串联特征图，通过多分辨率来丰富提取到的特征。 ResNet 引入了残差块，即增加了把当前输出直接传输给后面层网络而绕过了非线性变换的直接连接，梯度可以直接流向前面层，有助于解决梯度消失和梯度爆炸问题。然而该网络的缺点是，前一层的输出与其卷积变换后的输出之间通过值相加操作结合在一起可能会阻碍网络中的信息流[5-6]。 DenseNet 在 ResNet 的基础上提出了一种不同的连接方式。它建立了一个密集块内前面层和后面所有层的密集连接，即每层的输入是其前面所有层的特征图，与 ResNet 在值上的累加不同， DenseNet 是维度上的累加，因此在信息流方面克服了 ResNet 的缺点，改进了信息流。DenseNet 的网络结构由密集块组成，其中，两个密集块之间 1×1 2×2 有过渡层。密集块内的结构参照了 ResNet 的瓶颈结构 (Bottleneck)，而过渡层中包括了一个的卷积层和一个的平均池化层。DenseNet 减少了参数，使网络更窄，缓解了梯度消失问题，加强了特征的传播，鼓励特征重用[6]。对于卷积网络而言，输入网络数据的宽度 (weight)、高度 (height)、通道数 (channels) 以及数据的分布对网络的实际表现有很大的影响。而这些卷积网络的源生输入数据均为 3 通道的 RGB 图像，数据未归一化前分布在 0~255。因此，为了充分发挥这些卷积网络的性能，本文决定将时空信息组织成 BGR 图像形式作为输入数据的组织形式。 1.2 行为识别算法根据行为识别方法各自的特点，可大致分为基于特征工程的算法和基于深度学习的算法两大类。基于特征工程的算法是传统的识别方法，其中最经典的是改进的密集轨迹算法[9-13] (improved dense trajectories，iDT)。iDT 算法源于对 DT(dense trajectories) 算法的改进，主要思想是通过利用光流场来获得视频序列中的一些轨迹，再提取 HOF 、 HOG 、 M B H 等特征，用 BOF(bag of feature) 方法对提取到的特征进行编码，最后用 SVM 对编码的结果进行分类得到结果。iDT 在消除了相机运动带来的影响，优化了光流信息的同时，对提取的 HOF、HOG、MBH 等特征采用 L1 正则化后再对每个维度开方，并使用了费舍尔向量的编码方式对 DT 算法进行优化，在 UCF50 上的准确率从原本的 84.5% 提升到了 91.2%，在 HMDB51 上的准确率也从原本的 46.6% 提升到了 57.2%[1]。基于深度学习的算法可分为基于卷积的行为识别算法[14] 、基于 Two-Stream 架构的行为识别算法 [ 1 5 - 1 8 ] 以及基于人体骨骼序列的行为识别算法 [19-20] 3 类。前两者对视频进行像素级别的识别，而后者则依赖于单帧关键点或骨架等信息进行时间上的识别。基于卷积的行为识别算法，最经典的是 C3D。 TRAN Du 等 [21] 提出的 C3D (3D ConvNets) 的基本思想是将二维卷积拓展到三维空间，引入 3D 卷积提取时空特征。在 C3D 的启发下，一系列的 2D 卷积网络结构的 3D 卷积版本被用于行为识别，例如 3D ResNets[22] 、P3D[23] 、T3D[24] 等。为解第 5 期刘董经典，等：一种基于 2D 时空信息提取的行为识别算法 ·901·

·902· 智能系统学报第15卷决3D卷积学习参数冗余导致学习困难，TRAN 输人层 Du与WANG Heng在FSTCN(factorized spatio- 时空特征提取层 temporal convolutional networks)2]的启发下提出了结合2D卷积和3D卷积的R(2+1)D2神经网卷积层卷积核7×7，步长2 络。(2+1)D卷积核与3D卷积核对比如图1所示，R(2+1)D神经网络将3D的时空卷积分解为了池化层最大池化核3×3，步长2 2D的空间卷积和1D的时间卷积，使得空间信息 1×1卷积层密集块(1) 与时间信息分离开来，便于分别对时空信息进行 L3×3卷积层 ×6 优化。转化层(1) 平均池化核2×2，步长2 厂1×】卷积层7 密集块(2) 3x3卷层]x2 转化层(2) 平均池化核2×2，步长2 厂1×1卷积层7 密集块(3) ×48 3×3卷积层」转化层(3) 平均池化核2×2，步长2 图1(2+1)D卷积核与3D卷积核对比 -1×1卷积层密集块(4) ×32 Fig.1 (2+1)D vs 3D convolution L3×3卷积层」基于Two-Stream2m架构的行为识别算法通常分类层全局平均池化核7×7 对空间信息和时域信息进行分流学习然后将特征融合进行识别。比较经典的是Simonyan等27提图22 DSDCN网络架构出的Two-Stream Network。Two-Stream Network Fig.2 Structure of 2DSDCN 训练了两个CNN学习，一个用于学习2D的RGB 2.1 2D卷积理解与时空特征提取可行性分析图，另一个用于学习光流信息，最后将两个分类卷积神经网络(CNN)对信息特征的组织和提取主要依靠两种操作：卷积和池化操作。卷积依器的结果融合起来。靠卷积集核将低层感受野中的相应信息组织到高基于人体骨骼序列的行为识别算法使用循环层的对应像素点中。高层像素点Au以及对应的神经网络等方法，其通过时间序列上表征人体的卷积核C.中的信息表征了底层感受野中每个像关键点信息进行识别。现阶段主要利用的是骨架素点A-1xy和其他像素点之间的关系。随着卷积信息结合不同的循环神经网络进行研究。层数的加深，这种关系影响的范围根据卷积核的现在主流的数据组织形式是RGB图像和光大小以线性级别扩大，最终在第d层的单个像素流图像。光流图像对运动的表征通常优于RGB 点中得到涵盖输人层每个像素点之间的关系，通图像。但是对光流的计算往往会带来时效上的损过激活函数P以及反向传播的方式可以拟合出输失，需要对新的数据组织形式进行探索。因此，人层每个像素点A和其他像素点之间的一个非本文尝试使用按照时间顺序组织的RGB平铺图线性的函数关系R。对于一个输入、输出矩阵大像作为数据组织形式，通过2D卷积提取时空小均为w、卷积核大小为k的连续卷积操作来说， d满足式(1)：信息。 d=2x4 (1) 22D时空卷积设计以及时空特征组 k 若在卷积过程中，在合适位置使用n次过滤织形式窗口大小和移动步长均为f的池化操作，d满足本节对2D卷积用于时空特征提取的可能式(2)：性进行分析，设计了适用于2D卷积的输人数 d (2) 据组织形式，分析了DenseNet在时空信息特征可以看出池化操作对底层像素点之间关系的提取的促进作用，提出了最终的方案设计，如图2 建立起到了不错的加速效果，使模型可以在尽量所示。少的层次中获取对输入图像的表征

决 3D 卷积学习参数冗余导致学习困难，TRAN Du 与 WANG Heng 在 FSTCN (factorized spatiotemporal convolutional networks)[25] 的启发下提出了结合 2D 卷积和 3D 卷积的 R(2+1)D[26] 神经网络。(2+1)D 卷积核与 3D 卷积核对比如图 1 所示，R(2+1)D 神经网络将 3D 的时空卷积分解为了 2D 的空间卷积和 1D 的时间卷积，使得空间信息与时间信息分离开来，便于分别对时空信息进行优化。 t×d×d t×1×1 Mi 1×d×d 图 1 (2+1)D 卷积核与 3D 卷积核对比 Fig. 1 (2+1)D vs 3D convolution 基于 Two-Stream[27] 架构的行为识别算法通常对空间信息和时域信息进行分流学习然后将特征融合进行识别。比较经典的是 Simonyan 等 [27] 提出的 Two-Stream Network。Two-Stream Network 训练了两个 CNN 学习，一个用于学习 2D 的 RGB 图，另一个用于学习光流信息，最后将两个分类器的结果融合起来。基于人体骨骼序列的行为识别算法使用循环神经网络等方法，其通过时间序列上表征人体的关键点信息进行识别。现阶段主要利用的是骨架信息结合不同的循环神经网络进行研究。现在主流的数据组织形式是 RGB 图像和光流图像。光流图像对运动的表征通常优于 RGB 图像。但是对光流的计算往往会带来时效上的损失，需要对新的数据组织形式进行探索。因此，本文尝试使用按照时间顺序组织的 RGB 平铺图像作为数据组织形式，通过 2D 卷积提取时空信息。 2 2D 时空卷积设计以及时空特征组织形式本节对 2D 卷积用于时空特征提取的可能性进行分析，设计了适用于 2D 卷积的输入数据组织形式，分析了 DenseNet 在时空信息特征提取的促进作用，提出了最终的方案设计，如图 2 所示。输入层时空特征提取层卷积层池化层密集块 (1) 转化层 (1) 密集块 (2) 转化层 (2) 密集块 (3) 转化层 (3) 密集块 (4) 分类层卷积核7×7, 步长2 最大池化核3×3, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 全局平均池化核7×7 1×1 卷积层 ×6 3×3 卷积层 1×1 卷积层 ×12 3×3 卷积层 1×1 卷积层 ×48 3×3 卷积层 1×1 卷积层 ×32 3×3 卷积层图 2 2DSDCN 网络架构 Fig. 2 Structure of 2DSDCN 2.1 2D 卷积理解与时空特征提取可行性分析 An,i, j Cn An−1,x,y d φ A0,i, j R w k d 卷积神经网络 (CNN) 对信息特征的组织和提取主要依靠两种操作：卷积和池化操作。卷积依靠卷积集核将低层感受野中的相应信息组织到高层的对应像素点中。高层像素点以及对应的卷积核中的信息表征了底层感受野中每个像素点和其他像素点之间的关系。随着卷积层数的加深，这种关系影响的范围根据卷积核的大小以线性级别扩大，最终在第层的单个像素点中得到涵盖输入层每个像素点之间的关系，通过激活函数以及反向传播的方式可以拟合出输入层每个像素点和其他像素点之间的一个非线性的函数关系。对于一个输入、输出矩阵大小均为、卷积核大小为的连续卷积操作来说，满足式 (1)： d = 2×w k (1) n f d 若在卷积过程中，在合适位置使用次过滤窗口大小和移动步长均为的池化操作，满足式 (2)： d = 2×w k× f n (2) 可以看出池化操作对底层像素点之间关系的建立起到了不错的加速效果，使模型可以在尽量少的层次中获取对输入图像的表征。 ·902· 智能系统学报第 15 卷

第5期刘董经典，等：一种基于2D时空信息提取的行为识别算法 ·903· 对一个卷积核尺寸为k的第n次卷积的输出组织的顺序如图4所示，最终的维度为256× 层来说，第i行第j列的像素点Ai代表了第 256×3。该图像的组织方法基于实际运算中卷积 n-1次卷积的输出层A-中，部分像素点之间的核的滑动的顺序，如图5所示，在卷积运算时，卷一个非线性关系R: 积核在相邻像素点之间建立关系，这可以保证每 [A-1号小号。…Am--学#号一帧都是先和相邻时域之间建立联系。卷积核 Anij =R (3) 横向移动时可以学习到大粒度的动作特征，纵向 An4号号…Am-14学H号移动时则可以学习连续帧之间动作特征，丰富了随着进一步卷积，A在A,层所能表征的范时间特征的维度。随着卷积层数的增加，最终通围大小r。会以A为中心按图3所示方式扩大。过网络拟合出整个时空域之间的关系。其中， In=(rn-1+k-1)x fn-1 (4) 9 3 式中：fm-!表示在第n-1次卷积后进行池化的步长，无池化操作时fm-1=1。 d=(2x 6 256×256 256×256 图4图像拼接 Fig.4 Image mosaicking 5 9 13 2 10 g (a)k=3 3 1 11 15 (2×w) 4 12 b 图5卷积示意图 Fig.5 Convolution diagram 2.3翻转操作及原因单纯的拼接虽然可以快速提取相邻帧之间的关系，但是在建立不同帧中相邻空间像素点之间关系时，2D卷积相比3D卷积有一定的差距：如 (b)k=5 图6所示，只有当n的大小超过64时，相邻空间图3不同卷积核的卷积对比像素点之间关系才会开始被建立起来。 Fig.3 Comparison of different convolution kernels 对于单帧图像而言，2D维度上的卷积可以提取到丰富的空间特征，这种特征是由单帧图像每个像素点与其他像素点之间的关系来进行表征。本文将多帧在时间上有相互关系的图像组织到空间维度上，通过2D卷积建立起同帧像素点间以及跨帧像素点间的关系，就可以提取到空间（同帧内部)和时间（多帧之间）上的关系。据此，本文提出了基于RGB图像和2D卷积对视频时空信息提取的方法。 2.2选取和拼接的组织本文从一个视频片段提取出16帧的64× 图6单纯拼接的缺点 64×3的有时序顺序的图像，组织成4×4的图像， Fig.6 Disadvantages of simple mosaicking

k n i j An,i, j n−1 An−1 R 对一个卷积核尺寸为的第次卷积的输出层来说，第行第列的像素点代表了第次卷积的输出层中，部分像素点之间的一个非线性关系： An,i, j = R   An−1,i− k−1 2 , j− k−1 2 ··· An−1,i− k−1 2 , j+ k−1 2 . . . . . . An−1,i+ k−1 2 , j− k−1 2 ··· An−1,i+ k−1 2 , j+ k−1 2   (3) An,i, j A0 rn A0,i, j 随着进一步卷积，在层所能表征的范围大小会以为中心按图 3 所示方式扩大。其中， rn = (rn−1 +k−1)× fn−1 (4) fn−1 n−1 fn−1 = 1 式中：表示在第次卷积后进行池化的步长，无池化操作时。 (a) k=3 (b) k=5 d=(2×w)/k w w w w k k d=(2×w)/k k k w w w w 图 3 不同卷积核的卷积对比 Fig. 3 Comparison of different convolution kernels 对于单帧图像而言，2D 维度上的卷积可以提取到丰富的空间特征，这种特征是由单帧图像每个像素点与其他像素点之间的关系来进行表征。本文将多帧在时间上有相互关系的图像组织到空间维度上，通过 2D 卷积建立起同帧像素点间以及跨帧像素点间的关系，就可以提取到空间 (同帧内部) 和时间 (多帧之间) 上的关系。据此，本文提出了基于 RGB 图像和 2D 卷积对视频时空信息提取的方法。 2.2 选取和拼接的组织 64× 64×3 4×4 本文从一个视频片段提取出 1 6 帧的的有时序顺序的图像，组织成的图像， 256× 256×3 组织的顺序如图 4 所示，最终的维度为。该图像的组织方法基于实际运算中卷积核的滑动的顺序，如图 5 所示，在卷积运算时，卷积核在相邻像素点之间建立关系，这可以保证每一帧都是先和相邻时域之间建立联系。卷积核横向移动时可以学习到大粒度的动作特征，纵向移动时则可以学习连续帧之间动作特征，丰富了时间特征的维度。随着卷积层数的增加，最终通过网络拟合出整个时空域之间的关系。 256×256 256×256 256×256 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 图 4 图像拼接 Fig. 4 Image mosaicking 图 5 卷积示意图 Fig. 5 Convolution diagram 2.3 翻转操作及原因 rn 单纯的拼接虽然可以快速提取相邻帧之间的关系，但是在建立不同帧中相邻空间像素点之间关系时，2D 卷积相比 3D 卷积有一定的差距：如图 6 所示，只有当的大小超过 64 时，相邻空间像素点之间关系才会开始被建立起来。 rn 64×64 图 6 单纯拼接的缺点 Fig. 6 Disadvantages of simple mosaicking 第 5 期刘董经典，等：一种基于 2D 时空信息提取的行为识别算法 ·903·

·904· 智能系统学报第15卷为加快不同帧中相邻空间像素点之间关系图7所示，其中H代表水平翻转，V代表垂直的建立，本文对16帧图像进行翻转的操作，如翻转。 9 13 0 H 0 H 6 10 14 HV HV 11 15 0 H 0 12 16 HV HV 256×256 256×256 256×256 (a)翻转拼接图像 (b)视频帧顺序 (©)翻转操作示意图7图像翻转设计 Fig.7 Image reversal design 在卷积核位于多帧交界处时，能够在首次卷边缘，随着深度d的加深，当，的大小变为积中就建立范围。间像素点之间的关系。随着 64时，覆盖了所有单帧空间上的像素点，过程如卷积核的移动，该范围不会只影响单帧图像的图8所示。图8像素点覆盖 Fig.8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像征图，第1层的输出：可以表示为如下恒等函数：素点之间联系的提取，使相邻帧图像帧之间的时 =H(《x0,,…,-) (5) 空联系在更低的层次上建立起来。对比无翻转式(5)中：{x0,x1,…,-}表示0~1-1层的输出特的组织形式，能够在相同深度下更好地提取时空征图的集合，在运算时按照通道的维度拼接在一信息。起，作为第1层的输入。 2.4 DenseNet的选择对本文提出的方法来说，不同卷积阶段所提 DenseNet是CVPR2017的最佳论文，不同于取的特征，表征了不同时空维度的信息，经过之前的神经网络在宽度(inception结构)和深度 DenseNet架构训练，对：进行卷积运算意味着对 (resblock结构)上的改进，在模型的特征维度进行所有已得的特征x都进行了进一步的特征提取，了改进，将不同卷积阶段所提取的特征进行维度可以很好地保留不同维度的时空信息，更有利于上的密集连接，可以保留更丰富的信息。DenseN- 时空特征的提取。 et建立了一个denseblock内前面层和后面所有层 2.5引入时空卷积层提取时空信息的密集连接，即每层的输入是其前面所有层的特结合2.1节提出加入4个大小为33×33的大

为加快不同帧中相邻空间像素点之间关系的建立，本文对 16 帧图像进行翻转的操作，如图 7 所示，其中 H 代表水平翻转， V 代表垂直翻转。 (a) 翻转拼接图像 (b) 视频帧顺序 (c) 翻转操作示意 256×256 256×256 256×256 256×256 1 5 9 13 0 H 0 H 0 H 0 H V HV V HV V HV V HV 2 6 10 14 3 7 11 15 4 8 12 16 图 7 图像翻转设计 Fig. 7 Image reversal design r0 在卷积核位于多帧交界处时，能够在首次卷积中就建立范围间像素点之间的关系。随着卷积核的移动，该范围不会只影响单帧图像的边缘，随着深度 d 的加深，当 r 的大小变为 64 时，覆盖了所有单帧空间上的像素点，过程如图 8 所示。 rn rn rn 图 8 像素点覆盖 Fig. 8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像素点之间联系的提取，使相邻帧图像帧之间的时空联系在更低的层次上建立起来。对比无翻转的组织形式，能够在相同深度下更好地提取时空信息。 2.4 DenseNet 的选择 DenseNet 是 CVPR2017 的最佳论文，不同于之前的神经网络在宽度 (inception 结构) 和深度 (resblock 结构) 上的改进，在模型的特征维度进行了改进，将不同卷积阶段所提取的特征进行维度上的密集连接，可以保留更丰富的信息。DenseNet 建立了一个 denseblock 内前面层和后面所有层的密集连接，即每层的输入是其前面所有层的特征图，第 l 层的输出 xl 可以表示为如下恒等函数： xl = Hl({x0, x1,··· , xl−1}) (5) {x0, x1,··· , xl−1} 0 ∼ l−1 l 式 (5) 中：表示层的输出特征图的集合，在运算时按照通道的维度拼接在一起，作为第层的输入。 xl xl x 对本文提出的方法来说，不同卷积阶段所提取的特征表征了不同时空维度的信息，经过 DenseNet 架构训练，对进行卷积运算意味着对所有已得的特征都进行了进一步的特征提取，可以很好地保留不同维度的时空信息，更有利于时空特征的提取。 2.5 引入时空卷积层提取时空信息结合 2.1 节提出加入 4 个大小为 33×33 的大 ·904· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

共10页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录