第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992tis.201906054 一种基于2D时空信息提取的行为识别算法 刘董经典,孟雪纯,张紫欣,杨旭,牛强 (中国矿业大学计算机科学与技术学院,江苏徐州221008) 摘要:基于计算机视觉的人体行为识别技术是当前的研究热点,其在行为检测、视频监控等领域都有着广泛 的应用价值。传统的行为识别方法,计算比较繁琐,时效性不高。深度学习的发展极大提高了行为识别算法准 确性,但是此类方法和图像处理领域相比,效果上存在一定的差距。设计了一种基于DenseNet的新颖的行为 识别算法,该算法以DenseNet做为网络的架构,通过2D卷积操作进行时空信息的学习,在视频中选取用于表 征行为的帧,并将这些帧按时空次序组织到RGB空间上,传入网络中进行训练。在UC℉I01数据集上进行了大 量实验,实验准确率可以达到94.46%。 关键词:行为识别:视频分析;神经网络;深度学习:卷积神经网络;分类;时空特征提取:密集连接卷积网络 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2020)05-0900-10 中文引用格式:刘董经典,孟雪纯,张紫欣,等.一种基于2D时空信息提取的行为识别算法J.智能系统学报,2020,15(5): 900-909. 英文引用格式:LIU Dongjingdian,,MENGXuechun,ZHANG Zixin,etal.A behavioral recognition algorithm based on2 D spati- otemporal information extraction CAAI transactions on intelligent systems,2020,15(5):900-909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian,MENG Xuechun,ZHANG Zixin,YANG Xu,NIU Qiang (College of Computer Science&Technology,China University of Mining and Technology,Xuzhou 221008,China) Abstract:Human behavior recognition technology based on computer vision is a research hotspot currently.It is widely applied in various fields of social life,such as behavioral detection,video surveillance,etc.Traditional behavior recogni- tion methods are computationally cumbersome and time-sensitive.Therefore,the development of deep learning has greatly improved the accuracy of behavior recognition algorithms.However,compared with the field of image pro- cessing,there is a certain gap in the effect of such methods.We introduce a novel behavior recognition algorithm based on DenseNet,which uses DenseNet as the network architecture,learns spatio-temporal information through 2D convolu- tion,selects frames for characterizing behavior in video,organizes these frames into RGB space in time-space order and inputs them into our network to train the network.We have carried out a large number experiments on the UCF101 data- set,and our method can reach an accuracy rate of 94.46%. Keywords:behavior recognition;video analysis;neural networks;deep learning;convolutional neural networks;classi- fication;spatiotemporal feature;densenet 近年来,人体行为识别技术随着深度学习的 以及卷积神经网络的发展推动了行为识别技术的 兴起,引起了广泛的关注。传统的行为识别方 发展。主流深度学习网络模型,如AlexNet!2I 法,如DT山,计算繁琐,时效性不高。深度学习 VGG-Netl、GoogleLetNet!4、ResNet!s1和 DenseNet等,在2D图像数据处理方面取得了不 收稿日期:2019-06-28. 基金项目:国家自然科学基金项目(51674255). 错的效果。 通信作者:牛强.E-mail:.niuq@cumt.edu.cn, 基于深度学习的人体行为识别方法目前主要
DOI: 10.11992/tis.201906054 一种基于 2D 时空信息提取的行为识别算法 刘董经典,孟雪纯,张紫欣,杨旭,牛强 (中国矿业大学 计算机科学与技术学院,江苏 徐州 221008) 摘 要:基于计算机视觉的人体行为识别技术是当前的研究热点,其在行为检测、视频监控等领域都有着广泛 的应用价值。传统的行为识别方法,计算比较繁琐,时效性不高。深度学习的发展极大提高了行为识别算法准 确性,但是此类方法和图像处理领域相比,效果上存在一定的差距。设计了一种基于 DenseNet 的新颖的行为 识别算法,该算法以 DenseNet 做为网络的架构,通过 2D 卷积操作进行时空信息的学习,在视频中选取用于表 征行为的帧,并将这些帧按时空次序组织到 RGB 空间上,传入网络中进行训练。在 UCF101 数据集上进行了大 量实验,实验准确率可以达到 94.46%。 关键词:行为识别;视频分析;神经网络;深度学习;卷积神经网络;分类;时空特征提取;密集连接卷积网络 中图分类号:TP391.41 文献标志码:A 文章编号:1673−4785(2020)05−0900−10 中文引用格式:刘董经典, 孟雪纯, 张紫欣, 等. 一种基于 2D 时空信息提取的行为识别算法 [J]. 智能系统学报, 2020, 15(5): 900–909. 英文引用格式:LIU Dongjingdian, MENG Xuechun, ZHANG Zixin, et al. A behavioral recognition algorithm based on 2D spatiotemporal information extraction[J]. CAAI transactions on intelligent systems, 2020, 15(5): 900–909. A behavioral recognition algorithm based on 2D spatiotemporal information extraction LIU Dongjingdian,MENG Xuechun,ZHANG Zixin,YANG Xu,NIU Qiang (College of Computer Science & Technology, China University of Mining and Technology , Xuzhou 221008, China) Abstract: Human behavior recognition technology based on computer vision is a research hotspot currently. It is widely applied in various fields of social life, such as behavioral detection, video surveillance, etc. Traditional behavior recognition methods are computationally cumbersome and time-sensitive. Therefore, the development of deep learning has greatly improved the accuracy of behavior recognition algorithms. However, compared with the field of image processing, there is a certain gap in the effect of such methods. We introduce a novel behavior recognition algorithm based on DenseNet, which uses DenseNet as the network architecture, learns spatio-temporal information through 2D convolution, selects frames for characterizing behavior in video, organizes these frames into RGB space in time-space order and inputs them into our network to train the network. We have carried out a large number experiments on the UCF101 dataset, and our method can reach an accuracy rate of 94.46%. Keywords: behavior recognition; video analysis; neural networks; deep learning; convolutional neural networks; classification; spatiotemporal feature; densenet 近年来,人体行为识别技术随着深度学习的 兴起,引起了广泛的关注。传统的行为识别方 法,如 iDT[1] ,计算繁琐,时效性不高。深度学习 以及卷积神经网络的发展推动了行为识别技术的 发展。主流深度学习网络模型,如 AlexNet[ 2 ] 、 VGG-Net [ 3 ] 、 GoogleLetNet [ 4 ] 、 ResNet [ 5 ] 和 DenseNet[6] 等,在 2D 图像数据处理方面取得了不 错的效果。 基于深度学习的人体行为识别方法目前主要 收稿日期:2019−06−28. 基金项目:国家自然科学基金项目(51674255). 通信作者:牛强. E-mail:.niuq@cumt.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·901· 包括两个流派:3D时空卷积(3 D ConvNets)和双 有过渡层。密集块内的结构参照了ResNet的瓶 流卷积网络(Two-Stream),主要基于的网络架构 颈结构(Bottleneck),而过渡层中包括了一个1×1 是ResNet. 的卷积层和一个2×2的平均池化层。DenseNet 本文采用DenseNet做为网络的架构,通过 减少了参数,使网络更窄,缓解了梯度消失问题, 2D卷积操作进行时空信息的学习,提出了一种新 加强了特征的传播,鼓励特征重用。 的基于视频的行为识别方法:2D时空卷积密集连 对于卷积网络而言,输入网络数据的宽度 接神经网络(2 D spatiotemporal dense connected con- (weight)、高度(height)、通道数(channels)以及数 volutional networks,2 DSDCN)。首先在视频中选 据的分布对网络的实际表现有很大的影响。而这 取用于表征行为的帧,并将这些帧按时空次序组 些卷积网络的源生输入数据均为3通道的 织成BGR格式数据,传人2 DSDCN中进行识 RGB图像,数据未归一化前分布在0~255。因此, 别。2 OSDCN模型在DenseNet的基础上添加了 为了充分发挥这些卷积网络的性能,本文决定将 时空信息提取层,与单纯使用DenseNet相比,在 时空信息组织成BGR图像形式作为输入数据的 UCF101数据集上得到了1%的效果提升。目 组织形式。 前,本文的方法在没有使用多流融合、DT信息融 1.2行为识别算法 合等手段,在UC℉101数据集上获得了最高94.46% 根据行为识别方法各自的特点,可大致分为 的准确率。 基于特征工程的算法和基于深度学习的算法两 本文提出了一种新的基于2D卷积的行为识 大类。 别方法,使用2D卷积提取时空信息:引入了 基于特征工程的算法是传统的识别方法,其 DenseNet作为行为识别的网络架构,分析其对时 中最经典的是改进的密集轨迹算法il(improved 空信息提取的促进作用;提出了一种新的基于 dense trajectories,iDT)。iDT算法源于对DT(dense BGR图像的时空关系组织提取方法。 trajectories)算法的改进,主要思想是通过利用 1相关工作 光流场来获得视频序列中的一些轨迹,再提取 HOF、HOG、MBH等特征,用BOF(bag of 1.1卷积网络 feature)方法对提取到的特征进行编码,最后用 卷积神经网络模型由交替堆叠的卷积层、池 SVM对编码的结果进行分类得到结果。iDT在 化层和全连接层构成。AlexNet、LeNet!1、VGG- 消除了相机运动带来的影响,优化了光流信息的 Net在结构上并没有太大的改进,卷积层、池化层 同时,对提取的HOF、HOG、MBH等特征采用 和全连接层进行合理的组织来加深模型的深度。 L1正则化后再对每个维度开方,并使用了费舍尔 GoogLeNet引入了Inception结构来串联特征图, 向量的编码方式对DT算法进行优化,在UCF50 通过多分辨率来丰富提取到的特征。 上的准确率从原本的84.5%提升到了91.2%,在 ResNet引入了残差块,即增加了把当前输出 HMDB51上的准确率也从原本的46.6%提升到 直接传输给后面层网络而绕过了非线性变换的直 了57.2%0 接连接,梯度可以直接流向前面层,有助于解决 基于深度学习的算法可分为基于卷积的行为 梯度消失和梯度爆炸问题。然而该网络的缺点 识别算法l、基于Two-Stream架构的行为识别算 是,前一层的输出与其卷积变换后的输出之间通 法s18]以及基于人体骨骼序列的行为识别算 过值相加操作结合在一起可能会阻碍网络中的信 法9:3类。前两者对视频进行像素级别的识别, 息流5。 而后者则依赖于单帧关键点或骨架等信息进行时 DenseNet在ResNet的基础上提出了一种不 间上的识别。 同的连接方式。它建立了一个密集块内前面层和 基于卷积的行为识别算法,最经典的是C3D。 后面所有层的密集连接,即每层的输入是其前面 TRAN Du等2提出的C3D(3 D ConvNets)的基本 所有层的特征图,与ResNet在值上的累加不同, 思想是将二维卷积拓展到三维空间,引人3D卷 DenseNet是维度上的累加,因此在信息流方面克 积提取时空特征。在C3D的启发下,一系列的 服了ResNet的缺点,改进了信息流。DenseNet的 2D卷积网络结构的3D卷积版本被用于行为识 网络结构由密集块组成,其中,两个密集块之间 别,例如3 D ResNets!22、P3D21T3D2等。为解
包括两个流派:3D 时空卷积 (3D ConvNets) 和双 流卷积网络 (Two-Stream),主要基于的网络架构 是 ResNet。 本文采用 DenseNet 做为网络的架构,通过 2D 卷积操作进行时空信息的学习,提出了一种新 的基于视频的行为识别方法: 2D 时空卷积密集连 接神经网络 (2D spatiotemporal dense connected convolutional networks,2DSDCN)。首先在视频中选 取用于表征行为的帧,并将这些帧按时空次序组 织成 BGR 格式数据,传入 2DSDCN 中进行识 别。2DSDCN 模型在 DenseNet 的基础上添加了 时空信息提取层,与单纯使用 DenseNet 相比,在 UCF101[7] 数据集上得到了 1% 的效果提升。目 前,本文的方法在没有使用多流融合、iDT 信息融 合等手段,在 UCF101 数据集上获得了最高 94.46% 的准确率。 本文提出了一种新的基于 2D 卷积的行为识 别方法,使 用 2D 卷积提取时空信息;引入 了 DenseNet 作为行为识别的网络架构,分析其对时 空信息提取的促进作用;提出了一种新的基于 BGR 图像的时空关系组织提取方法。 1 相关工作 1.1 卷积网络 卷积神经网络模型由交替堆叠的卷积层、池 化层和全连接层构成。AlexNet、LeNet[8] 、VGGNet 在结构上并没有太大的改进,卷积层、池化层 和全连接层进行合理的组织来加深模型的深度。 GoogLeNet 引入了 Inception 结构来串联特征图, 通过多分辨率来丰富提取到的特征。 ResNet 引入了残差块,即增加了把当前输出 直接传输给后面层网络而绕过了非线性变换的直 接连接,梯度可以直接流向前面层,有助于解决 梯度消失和梯度爆炸问题。然而该网络的缺点 是,前一层的输出与其卷积变换后的输出之间通 过值相加操作结合在一起可能会阻碍网络中的信 息流[5-6]。 DenseNet 在 ResNet 的基础上提出了一种不 同的连接方式。它建立了一个密集块内前面层和 后面所有层的密集连接,即每层的输入是其前面 所有层的特征图,与 ResNet 在值上的累加不同, DenseNet 是维度上的累加,因此在信息流方面克 服了 ResNet 的缺点,改进了信息流。DenseNet 的 网络结构由密集块组成,其中,两个密集块之间 1×1 2×2 有过渡层。密集块内的结构参照了 ResNet 的瓶 颈结构 (Bottleneck),而过渡层中包括了一个 的卷积层和一个 的平均池化层。DenseNet 减少了参数,使网络更窄,缓解了梯度消失问题, 加强了特征的传播,鼓励特征重用[6]。 对于卷积网络而言,输入网络数据的宽度 (weight)、高度 (height)、通道数 (channels) 以及数 据的分布对网络的实际表现有很大的影响。而这 些卷积网络的源生输入数据均 为 3 通 道 的 RGB 图像,数据未归一化前分布在 0~255。因此, 为了充分发挥这些卷积网络的性能,本文决定将 时空信息组织成 BGR 图像形式作为输入数据的 组织形式。 1.2 行为识别算法 根据行为识别方法各自的特点,可大致分为 基于特征工程的算法和基于深度学习的算法两 大类。 基于特征工程的算法是传统的识别方法,其 中最经典的是改进的密集轨迹算法[9-13] (improved dense trajectories,iDT)。iDT 算法源于对 DT(dense trajectories) 算法的改进,主要思想是通过利用 光流场来获得视频序列中的一些轨迹,再提取 HOF 、 HOG 、 M B H 等特征, 用 BOF(bag of feature) 方法对提取到的特征进行编码,最后用 SVM 对编码的结果进行分类得到结果。iDT 在 消除了相机运动带来的影响,优化了光流信息的 同时,对提取的 HOF、HOG、MBH 等特征采用 L1 正则化后再对每个维度开方,并使用了费舍尔 向量的编码方式对 DT 算法进行优化,在 UCF50 上的准确率从原本的 84.5% 提升到了 91.2%,在 HMDB51 上的准确率也从原本的 46.6% 提升到 了 57.2%[1]。 基于深度学习的算法可分为基于卷积的行为 识别算法[14] 、基于 Two-Stream 架构的行为识别算 法 [ 1 5 - 1 8 ] 以及基于人体骨骼序列的行为识别算 法 [19-20] 3 类。前两者对视频进行像素级别的识别, 而后者则依赖于单帧关键点或骨架等信息进行时 间上的识别。 基于卷积的行为识别算法,最经典的是 C3D。 TRAN Du 等 [21] 提出的 C3D (3D ConvNets) 的基本 思想是将二维卷积拓展到三维空间,引入 3D 卷 积提取时空特征。在 C3D 的启发下,一系列的 2D 卷积网络结构的 3D 卷积版本被用于行为识 别,例如 3D ResNets[22] 、P3D[23] 、T3D[24] 等。为解 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·901·
·902· 智能系统学报 第15卷 决3D卷积学习参数冗余导致学习困难,TRAN 输人层 Du与WANG Heng在FSTCN(factorized spatio- 时空特征提取层 temporal convolutional networks)2]的启发下提出 了结合2D卷积和3D卷积的R(2+1)D2神经网 卷积层 卷积核7×7,步长2 络。(2+1)D卷积核与3D卷积核对比如图1所 示,R(2+1)D神经网络将3D的时空卷积分解为了 池化层 最大池化核3×3,步长2 2D的空间卷积和1D的时间卷积,使得空间信息 1×1卷积层 密集块(1) 与时间信息分离开来,便于分别对时空信息进行 L3×3卷积层 ×6 优化。 转化层(1) 平均池化核2×2,步长2 厂1×】卷积层7 密集块(2) 3x3卷层]x2 转化层(2) 平均池化核2×2,步长2 厂1×1卷积层7 密集块(3) ×48 3×3卷积层」 转化层(3) 平均池化核2×2,步长2 图1(2+1)D卷积核与3D卷积核对比 -1×1卷积层 密集块(4) ×32 Fig.1 (2+1)D vs 3D convolution L3×3卷积层」 基于Two-Stream2m架构的行为识别算法通常 分类层 全局平均池化核7×7 对空间信息和时域信息进行分流学习然后将特征 融合进行识别。比较经典的是Simonyan等27提 图22 DSDCN网络架构 出的Two-Stream Network。Two-Stream Network Fig.2 Structure of 2DSDCN 训练了两个CNN学习,一个用于学习2D的RGB 2.1 2D卷积理解与时空特征提取可行性分析 图,另一个用于学习光流信息,最后将两个分类 卷积神经网络(CNN)对信息特征的组织和提 取主要依靠两种操作:卷积和池化操作。卷积依 器的结果融合起来。 靠卷积集核将低层感受野中的相应信息组织到高 基于人体骨骼序列的行为识别算法使用循环 层的对应像素点中。高层像素点Au以及对应的 神经网络等方法,其通过时间序列上表征人体的 卷积核C.中的信息表征了底层感受野中每个像 关键点信息进行识别。现阶段主要利用的是骨架 素点A-1xy和其他像素点之间的关系。随着卷积 信息结合不同的循环神经网络进行研究。 层数的加深,这种关系影响的范围根据卷积核的 现在主流的数据组织形式是RGB图像和光 大小以线性级别扩大,最终在第d层的单个像素 流图像。光流图像对运动的表征通常优于RGB 点中得到涵盖输人层每个像素点之间的关系,通 图像。但是对光流的计算往往会带来时效上的损 过激活函数P以及反向传播的方式可以拟合出输 失,需要对新的数据组织形式进行探索。因此, 人层每个像素点A和其他像素点之间的一个非 本文尝试使用按照时间顺序组织的RGB平铺图 线性的函数关系R。对于一个输入、输出矩阵大 像作为数据组织形式,通过2D卷积提取时空 小均为w、卷积核大小为k的连续卷积操作来说, d满足式(1): 信息。 d=2x4 (1) 22D时空卷积设计以及时空特征组 k 若在卷积过程中,在合适位置使用n次过滤 织形式 窗口大小和移动步长均为f的池化操作,d满足 本节对2D卷积用于时空特征提取的可能 式(2): 性进行分析,设计了适用于2D卷积的输人数 d (2) 据组织形式,分析了DenseNet在时空信息特征 可以看出池化操作对底层像素点之间关系的 提取的促进作用,提出了最终的方案设计,如图2 建立起到了不错的加速效果,使模型可以在尽量 所示。 少的层次中获取对输入图像的表征
决 3D 卷积学习参数冗余导致学习困难,TRAN Du 与 WANG Heng 在 FSTCN (factorized spatiotemporal convolutional networks)[25] 的启发下提出 了结合 2D 卷积和 3D 卷积的 R(2+1)D[26] 神经网 络。(2+1)D 卷积核与 3D 卷积核对比如图 1 所 示,R(2+1)D 神经网络将 3D 的时空卷积分解为了 2D 的空间卷积和 1D 的时间卷积,使得空间信息 与时间信息分离开来,便于分别对时空信息进行 优化。 t×d×d t×1×1 Mi 1×d×d 图 1 (2+1)D 卷积核与 3D 卷积核对比 Fig. 1 (2+1)D vs 3D convolution 基于 Two-Stream[27] 架构的行为识别算法通常 对空间信息和时域信息进行分流学习然后将特征 融合进行识别。比较经典的是 Simonyan 等 [27] 提 出的 Two-Stream Network。Two-Stream Network 训练了两个 CNN 学习,一个用于学习 2D 的 RGB 图,另一个用于学习光流信息,最后将两个分类 器的结果融合起来。 基于人体骨骼序列的行为识别算法使用循环 神经网络等方法,其通过时间序列上表征人体的 关键点信息进行识别。现阶段主要利用的是骨架 信息结合不同的循环神经网络进行研究。 现在主流的数据组织形式是 RGB 图像和光 流图像。光流图像对运动的表征通常优于 RGB 图像。但是对光流的计算往往会带来时效上的损 失,需要对新的数据组织形式进行探索。因此, 本文尝试使用按照时间顺序组织的 RGB 平铺图 像作为数据组织形式,通过 2D 卷积提取时空 信息。 2 2D 时空卷积设计以及时空特征组 织形式 本节对 2D 卷积用于时空特征提取的可能 性进行分析,设计了适用于 2D 卷积的输入数 据组织形式,分析了 DenseNet 在时空信息特征 提取的促进作用,提出了最终的方案设计,如图 2 所示。 输入层 时空特征提取层 卷积层 池化层 密集块 (1) 转化层 (1) 密集块 (2) 转化层 (2) 密集块 (3) 转化层 (3) 密集块 (4) 分类层 卷积核7×7, 步长2 最大池化核3×3, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 平均池化核2×2, 步长2 全局平均池化核7×7 1×1 卷积层 ×6 3×3 卷积层 1×1 卷积层 ×12 3×3 卷积层 1×1 卷积层 ×48 3×3 卷积层 1×1 卷积层 ×32 3×3 卷积层 图 2 2DSDCN 网络架构 Fig. 2 Structure of 2DSDCN 2.1 2D 卷积理解与时空特征提取可行性分析 An,i, j Cn An−1,x,y d φ A0,i, j R w k d 卷积神经网络 (CNN) 对信息特征的组织和提 取主要依靠两种操作:卷积和池化操作。卷积依 靠卷积集核将低层感受野中的相应信息组织到高 层的对应像素点中。高层像素点 以及对应的 卷积核 中的信息表征了底层感受野中每个像 素点 和其他像素点之间的关系。随着卷积 层数的加深,这种关系影响的范围根据卷积核的 大小以线性级别扩大,最终在第 层的单个像素 点中得到涵盖输入层每个像素点之间的关系,通 过激活函数 以及反向传播的方式可以拟合出输 入层每个像素点 和其他像素点之间的一个非 线性的函数关系 。对于一个输入、输出矩阵大 小均为 、卷积核大小为 的连续卷积操作来说, 满足式 (1): d = 2×w k (1) n f d 若在卷积过程中,在合适位置使用 次过滤 窗口大小和移动步长均为 的池化操作, 满足 式 (2): d = 2×w k× f n (2) 可以看出池化操作对底层像素点之间关系的 建立起到了不错的加速效果,使模型可以在尽量 少的层次中获取对输入图像的表征。 ·902· 智 能 系 统 学 报 第 15 卷
第5期 刘董经典,等:一种基于2D时空信息提取的行为识别算法 ·903· 对一个卷积核尺寸为k的第n次卷积的输出 组织的顺序如图4所示,最终的维度为256× 层来说,第i行第j列的像素点Ai代表了第 256×3。该图像的组织方法基于实际运算中卷积 n-1次卷积的输出层A-中,部分像素点之间的 核的滑动的顺序,如图5所示,在卷积运算时,卷 一个非线性关系R: 积核在相邻像素点之间建立关系,这可以保证每 [A-1号小号 。…Am--学#号 一帧都是先和相邻时域之间建立联系。卷积核 Anij =R (3) 横向移动时可以学习到大粒度的动作特征,纵向 An4号号…Am-14学H号 移动时则可以学习连续帧之间动作特征,丰富了 随着进一步卷积,A在A,层所能表征的范 时间特征的维度。随着卷积层数的增加,最终通 围大小r。会以A为中心按图3所示方式扩大。 过网络拟合出整个时空域之间的关系。 其中, In=(rn-1+k-1)x fn-1 (4) 9 3 式中:fm-!表示在第n-1次卷积后进行池化的步 长,无池化操作时fm-1=1。 d=(2x 6 256×256 256×256 图4图像拼接 Fig.4 Image mosaicking 5 9 13 2 10 g (a)k=3 3 1 11 15 (2×w) 4 12 b 图5卷积示意图 Fig.5 Convolution diagram 2.3翻转操作及原因 单纯的拼接虽然可以快速提取相邻帧之间的 关系,但是在建立不同帧中相邻空间像素点之间 关系时,2D卷积相比3D卷积有一定的差距:如 (b)k=5 图6所示,只有当n的大小超过64时,相邻空间 图3不同卷积核的卷积对比 像素点之间关系才会开始被建立起来。 Fig.3 Comparison of different convolution kernels 对于单帧图像而言,2D维度上的卷积可以提 取到丰富的空间特征,这种特征是由单帧图像每 个像素点与其他像素点之间的关系来进行表征。 本文将多帧在时间上有相互关系的图像组织到空 间维度上,通过2D卷积建立起同帧像素点间以 及跨帧像素点间的关系,就可以提取到空间(同 帧内部)和时间(多帧之间)上的关系。据此,本 文提出了基于RGB图像和2D卷积对视频时空信 息提取的方法。 2.2选取和拼接的组织 本文从一个视频片段提取出16帧的64× 图6单纯拼接的缺点 64×3的有时序顺序的图像,组织成4×4的图像, Fig.6 Disadvantages of simple mosaicking
k n i j An,i, j n−1 An−1 R 对一个卷积核尺寸为 的第 次卷积的输出 层来说,第 行第 列的像素点 代表了第 次卷积的输出层 中,部分像素点之间的 一个非线性关系 : An,i, j = R An−1,i− k−1 2 , j− k−1 2 ··· An−1,i− k−1 2 , j+ k−1 2 . . . . . . An−1,i+ k−1 2 , j− k−1 2 ··· An−1,i+ k−1 2 , j+ k−1 2 (3) An,i, j A0 rn A0,i, j 随着进一步卷积, 在 层所能表征的范 围大小 会以 为中心按图 3 所示方式扩大。 其中, rn = (rn−1 +k−1)× fn−1 (4) fn−1 n−1 fn−1 = 1 式中: 表示在第 次卷积后进行池化的步 长,无池化操作时 。 (a) k=3 (b) k=5 d=(2×w)/k w w w w k k d=(2×w)/k k k w w w w 图 3 不同卷积核的卷积对比 Fig. 3 Comparison of different convolution kernels 对于单帧图像而言,2D 维度上的卷积可以提 取到丰富的空间特征,这种特征是由单帧图像每 个像素点与其他像素点之间的关系来进行表征。 本文将多帧在时间上有相互关系的图像组织到空 间维度上,通过 2D 卷积建立起同帧像素点间以 及跨帧像素点间的关系,就可以提取到空间 (同 帧内部) 和时间 (多帧之间) 上的关系。据此,本 文提出了基于 RGB 图像和 2D 卷积对视频时空信 息提取的方法。 2.2 选取和拼接的组织 64× 64×3 4×4 本文从一个视频片段提取 出 1 6 帧 的 的有时序顺序的图像,组织成 的图像, 256× 256×3 组织的顺序如 图 4 所示,最终的维度为 。该图像的组织方法基于实际运算中卷积 核的滑动的顺序,如图 5 所示,在卷积运算时,卷 积核在相邻像素点之间建立关系,这可以保证每 一帧都是先和相邻时域之间建立联系。 卷积核 横向移动时可以学习到大粒度的动作特征,纵向 移动时则可以学习连续帧之间动作特征,丰富了 时间特征的维度。随着卷积层数的增加,最终通 过网络拟合出整个时空域之间的关系。 256×256 256×256 256×256 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 图 4 图像拼接 Fig. 4 Image mosaicking 图 5 卷积示意图 Fig. 5 Convolution diagram 2.3 翻转操作及原因 rn 单纯的拼接虽然可以快速提取相邻帧之间的 关系,但是在建立不同帧中相邻空间像素点之间 关系时,2D 卷积相比 3D 卷积有一定的差距:如 图 6 所示,只有当 的大小超过 64 时,相邻空间 像素点之间关系才会开始被建立起来。 rn 64×64 图 6 单纯拼接的缺点 Fig. 6 Disadvantages of simple mosaicking 第 5 期 刘董经典,等:一种基于 2D 时空信息提取的行为识别算法 ·903·
·904· 智能系统学报 第15卷 为加快不同帧中相邻空间像素点之间关系 图7所示,其中H代表水平翻转,V代表垂直 的建立,本文对16帧图像进行翻转的操作,如 翻转。 9 13 0 H 0 H 6 10 14 HV HV 11 15 0 H 0 12 16 HV HV 256×256 256×256 256×256 (a)翻转拼接图像 (b)视频帧顺序 (©)翻转操作示意 图7图像翻转设计 Fig.7 Image reversal design 在卷积核位于多帧交界处时,能够在首次卷 边缘,随着深度d的加深,当,的大小变为 积中就建立范围。间像素点之间的关系。随着 64时,覆盖了所有单帧空间上的像素点,过程如 卷积核的移动,该范围不会只影响单帧图像的 图8所示。 图8像素点覆盖 Fig.8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像 征图,第1层的输出:可以表示为如下恒等函数: 素点之间联系的提取,使相邻帧图像帧之间的时 =H(《x0,,…,-) (5) 空联系在更低的层次上建立起来。对比无翻转 式(5)中:{x0,x1,…,-}表示0~1-1层的输出特 的组织形式,能够在相同深度下更好地提取时空 征图的集合,在运算时按照通道的维度拼接在一 信息。 起,作为第1层的输入。 2.4 DenseNet的选择 对本文提出的方法来说,不同卷积阶段所提 DenseNet是CVPR2017的最佳论文,不同于 取的特征,表征了不同时空维度的信息,经过 之前的神经网络在宽度(inception结构)和深度 DenseNet架构训练,对:进行卷积运算意味着对 (resblock结构)上的改进,在模型的特征维度进行 所有已得的特征x都进行了进一步的特征提取, 了改进,将不同卷积阶段所提取的特征进行维度 可以很好地保留不同维度的时空信息,更有利于 上的密集连接,可以保留更丰富的信息。DenseN- 时空特征的提取。 et建立了一个denseblock内前面层和后面所有层 2.5引入时空卷积层提取时空信息 的密集连接,即每层的输入是其前面所有层的特 结合2.1节提出加入4个大小为33×33的大
为加快不同帧中相邻空间像素点之间关系 的建立,本文对 16 帧图像进行翻转的操作,如 图 7 所示,其中 H 代表水平翻转, V 代表垂直 翻转。 (a) 翻转拼接图像 (b) 视频帧顺序 (c) 翻转操作示意 256×256 256×256 256×256 256×256 1 5 9 13 0 H 0 H 0 H 0 H V HV V HV V HV V HV 2 6 10 14 3 7 11 15 4 8 12 16 图 7 图像翻转设计 Fig. 7 Image reversal design r0 在卷积核位于多帧交界处时,能够在首次卷 积中就建立范围 间像素点之间的关系。随着 卷积核的移动,该范围不会只影响单帧图像的 边缘,随着深度 d 的加深,当 r 的大小变 为 64 时,覆盖了所有单帧空间上的像素点,过程如 图 8 所示。 rn rn rn 图 8 像素点覆盖 Fig. 8 Pixel point coverage 通过此操作可以加快部分相邻帧间对应像 素点之间联系的提取,使相邻帧图像帧之间的时 空联系在更低的层次上建立起来。对比无翻转 的组织形式,能够在相同深度下更好地提取时空 信息。 2.4 DenseNet 的选择 DenseNet 是 CVPR2017 的最佳论文,不同于 之前的神经网络在宽度 (inception 结构) 和深度 (resblock 结构) 上的改进,在模型的特征维度进行 了改进,将不同卷积阶段所提取的特征进行维度 上的密集连接,可以保留更丰富的信息。DenseNet 建立了一个 denseblock 内前面层和后面所有层 的密集连接,即每层的输入是其前面所有层的特 征图,第 l 层的输出 xl 可以表示为如下恒等函数: xl = Hl({x0, x1,··· , xl−1}) (5) {x0, x1,··· , xl−1} 0 ∼ l−1 l 式 (5) 中: 表示 层的输出特 征图的集合,在运算时按照通道的维度拼接在一 起,作为第 层的输入。 xl xl x 对本文提出的方法来说,不同卷积阶段所提 取的特征 表征了不同时空维度的信息,经过 DenseNet 架构训练,对 进行卷积运算意味着对 所有已得的特征 都进行了进一步的特征提取, 可以很好地保留不同维度的时空信息,更有利于 时空特征的提取。 2.5 引入时空卷积层提取时空信息 结合 2.1 节提出加入 4 个大小为 33×33 的大 ·904· 智 能 系 统 学 报 第 15 卷