摘要
弱监督视频级别标签的异常检测通常被表述为一个多实例学习(MIL)问题,在这个问题中,我们的目标是识别包含异常事件的片段,每个视频表示为一袋视频片段。虽然目前的方法显示出有效的检测性能,但它们对阳性实例(即异常视频中罕见的异常片段)的识别在很大程度上受到占主导地位的阴性实例的影响,特别是当异常事件是与正常事件相比仅表现出微小差异的微妙异常时。在许多忽略重要视频时间依赖性的方法中,这个问题更加严重。为了解决这个问题,我们引入了一种新颖且理论上合理的方法,称为鲁棒时域特征幅度学习(RTFM),该方法训练了一个特征幅度学习函数来有效识别积极实例,从而大大提高了MIL方法对异常视频中的消极实例的鲁棒性。RTFM还采用扩展卷积和自注意机制来捕获长、短时时间依赖性,从而更忠实地学习特征大小。大量实验表明,基于rttm的MIL模型(i)在四个基准数据集(ShanghaiTech、UCF-Crime、XD-Violence和UCSD-Peds)上的性能大大优于几种最先进的方法,(ii)显著提高了细微异常的可判别性和样本效率。
引言
弱监督异常检测的主要挑战之一是如何从标记为异常的整个视频中识别异常片段。这是由于两个原因,即:1)来自异常视频的大部分片段由正常事件组成,这可能会压倒训练过程,并挑战少数异常片段的拟合;2)异常片段可能与正常片段没有足够的区别,这使得明确区分正常和异常片段具有挑战性。
使用多实例学习(MIL)方法训练的异常检测[57,67,75,81]通过平衡具有相同数量的异常片段和正常片段的训练集来缓解上述问题,其中正常片段是从正常视频中随机选择的,异常片段是从异常视频中获得最高异常分数的片段。虽然在一定程度上解决了上述问题,但MIL引入了四个问题:
1)异常视频中的最高异常分数可能不是来自异常片段;
2)从正常视频中随机选择的正常片段可能相对容易拟合,这对训练收敛性提出了挑战;
3)如果视频有多个异常片段,我们就错过了每个视频包含更多异常片段的更有效的训练过程的机会;
4)分类分数的使用提供了一个较弱的训练信号,不一定能够很好地区分正常和异常片段。这些问题在忽略重要的时间依赖性的方法中更加严重[28,31,67,79]。
为了解决上述MIL问题,我们提出了一种新的方法,称为鲁棒时间特征幅度(RTFM)学习。在RTFM中,我们依赖于视频片段的时间特征幅度,其中低幅度特征表示正常(即负)片段,高幅度特征表示异常(即正)片段。RTFM在理论上是由top-k实例MIL驱动的[25],该MIL使用异常和正常视频中分类分数最高的k个实例来训练分类器,但在我们的公式中,我们假设异常片段的平均特征大小大于正常片段的平均特征大小,而不是假设异常片段和正常片段的分类分数之间的可分性[25]。
RTFM解决了上述MIL问题:
1)从异常视频中选择异常片段的概率增加;
2)从正常视频中选择的硬负正态片段将更难拟合,提高训练收敛性;
3)每个异常视频可以包含更多的异常片段
;4)与使用分类分数的MIL方法相比,使用特征幅度来识别积极实例是有利的[25,57],因为它能够提供更强的学习信号,特别是对于在整个训练过程中具有可以增加的幅度的异常片段。
特征大小学习可以与MIL异常分类联合优化,在特征表示空间和异常分类输出空间上实现异常片段和正常片段之间的大边界。图1激励RTFM,表明top-k特征的选择(基于其大小)可以更好地区分异常视频和正常视频,当每个异常视频有多个异常片段并且异常视频的平均片段特征大小大于正常视频的平均片段特征大小时。
在实践中,RTFM在异常视频和正常视频中最大的前k个片段特征之间强制执行较大的空白,这在理论上保证了最大限度地分离异常和正常的视频表示。然后从正常和异常视频中选择前k个片段特征来训练片段分类器。为了在每个视频中无缝地整合长、短时时间依赖关系,我们将长、短时时间依赖关系的学习与扩张卷积金字塔(PDC)[70]和时间自注意模块(TSA)[66]结合起来。我们在ShanghaiTech[28]、UCF-Crime[57]、XD-Violence[67]和UCSD-Peds[24]四个异常检测基准数据集上验证了RTFM。我们表明,我们的方法在使用不同预训练特征(即C3D和I3D)的所有基准测试中都大大优于当前的sota。我们还表明,与流行的MIL方法相比,我们的方法具有更好的样本效率和细微的异常判别能力。
RTFM方法
我们提出的鲁棒时间特征幅度(RTFM)方法旨在使用弱标记视频进行训练来区分异常片段和正常片段。给定一组弱标记训练视频D = f(Fi;yi),其中F是T视频片段中预先计算的D维特征(如I3D[7]或C3D [61]),yi表示视频级标注(如果Fi是正常视频,则yi = 0,否则yi = 1)。RTFM使用的模型表示为rθ;φ(F) = fφ(sθ(F)),并返回一个t维特征[0;1]T表示将T个视频片段分为异常和正常两类,参数为θ;φ定义如下。该模型的训练包括端到端多尺度时间特征学习、特征幅度学习和RTFMenabled MIL分类器训练的联合优化,并带有损失:
RTFM的理论动因
从视频中提取一个时间特性是用X = sθ(F),所代表的片段Xt行的X异常片段,用P+表示异常片段,P-表示一个正常的片段,一个异常片段包含u个异常和T-u个正常段,而正常的片段全部都是正常的视频段。
文中提出正常的特征幅度要比异常的特征幅度低,特征幅度的计算方式如下:
关于对公式的理解:取前k个最大的l2范数的平均值
通过公式2得到正常和异常片段的特征幅度之后,可以利用公式三将正常和异常分得尽量开。
实验
UCF-crime
XD-Violence
关于复现
没找到ucf的数据集,只跑了shanghaitech的,论文中说的是97.21,我跑出来0.954左右