摘要
我们研究了判别训练深度卷积网络(ConvNets)的结构,用于视频中的动作识别。难点在于如何从静止帧和帧之间的运动中获取图像外观的互补信息。我们还致力于在数据驱动的学习框架中概括表现最好的手工特征。
我们的贡献有三方面。首先,我们提出了一种融合时空网络的双流卷积神经网络架构。其次,我们证明了在训练数据有限的情况下,在多帧密集光流上训练的卷积神经网络能够获得非常好的性能。最后,我们证明了将多任务学习应用于两个不同的动作分类数据集,可以用来增加训练数据量并提高两者的性能。我们的架构在UCF-101和HMDB-51的标准视频动作基准上进行了训练和评估,在那里它与最先进的技术具有竞争力。它也大大超过了之前使用深度网络进行视频分类的尝试。
主要内容
提出了双流网络,一个用于提取空间特征,一个用于提取时间特征,最后采用融合,将两个特征融合在一起。
如上图1所示
- 空间流只需要输入一帧图像,类似于图像识别,可以使用Imagenet的预训练参数,提高识别的精度。
- 时间流需要使用光流信息来提取运动特征,文中采用L+1帧图像,使用两两图像来得到一帧光流图像,即得到L帧光流图像。
什么是光流?
例如上图a,b是射箭的两帧图像,而c就是光流的运动方向,可以分为水平(d)和竖直(e)两个方向
如何将光流图输入到网络中?
文中提出两个方法解决这个问题:
- (上图左边)将L帧光流图像直接堆叠在一起
- (上图右边)将L帧的每个像素轨迹信息存下来
如何进行两个网络的融合?(两种方法)
- 将两个网络的输出直接进行加权平均,最后取softmax取最大的那个值,就是网络分类结果
- 在得到softmax分数上再训练一个svm来做分类(效果更好)
实验结果
只看时间流和空间流两个网络的效果,其中空间流里,光流帧的图像越长效果越好。
融合时使用SVM效果要比直接使用加权平均效果好1个点左右。
展望
- 提取大数据集的光流特征非常耗时,并且需要非常大的存储空间
- 留下了一个问题,为什么使用轨迹信息的光流效果看起来更合理,但是效果反而没有直接堆叠起来的好呢?(已被cvpr2015王利民老师解决)