摘要
由于监控视频异常内容和持续时间的多样性,异常检测是一项具有挑战性的任务。在本文中,我们将视频异常检测看作是一个弱监督下视频片段异常分数的回归问题。因此,我们提出了一种异常检测框架,称为异常回归网(ARNet),它只需要在训练阶段进行视频级别的标记。
此外,为了学习异常检测的判别特征,我们为所提出的AR-Net设计了一个动态多实例学习损失和一个中心损失。前者用于扩大异常和正常实例之间的类间距离,后者用于减小正常实例之间的类内距离。综合实验是在一个具有挑战性的基准上进行的:上海科技。我们的方法为上海科技数据集的视频异常检测提供了新的最先进的结果
引言
视频异常检测是计算机视觉领域的一项重要而又具有挑战性的任务,在犯罪预警、智能视频监控和证据采集等领域有着广泛的应用。根据研究[1],弱监督视频异常检测有两种范式:一元分类和二元分类。异常通常被定义为与以往作品中通常模式不同的视频内容模式[2][3][4][5][6]。基于这一定义,基于一元分类范式的方法只能用正常的训练样本对常见模式进行建模。然而,不可能在一个训练集中收集到所有类型的正态样本。因此,在这种范式下,与训练视频不同的正常视频可能会产生错误警报。
为了解决这个问题,引入了二元分类范式,其中训练数据包含异常和正常视频。在二元分类范式下,一些关于异常检测的研究已经发表[1][7][8][9]。在[1]中,视频异常检测被表述为噪声标签下的全监督学习任务。作为修正,提出了一种图卷积网络(GCN)来训练动作分类器。GCN与动作分类器交替优化。
在本文中,我们将视频异常检测定义为一个遵循二元分类范式的弱监督学习问题,其中训练阶段只涉及视频级别的标签。近年来,多实例学习(Multiple-Instance Learning, MIL)已成为一些计算机视觉任务的主要技术,包括弱监督时间活动定位和分类[10][11]和弱监督目标检测[12]。也有一些基于mil的视频异常检测研究[7][8][9]。在这些方法中,每个训练视频被视为一个包,视频片段被视为实例。异常视频作为正包处理,正常视频作为负包呈现。Sultani等[7]以C3D网络[13]提取的特征作为输入,提出了一种深度MIL排序模型。提出了一种深度MIL排序损失方法,用于分离异常和正常实例的异常分数。Zhang等[9]提出了一种互补的内袋损失,可以同时减小实例的类内距离和扩大实例的类间距离。
需要异常视频和正常视频的最高和最低异常分数。Zhu和Newsam[8]提出了一种根据异常分数计算时间排序损失的方法。
视频的异常评分是视频异常评分向量和关注向量的加权和。然而,如图1所示,这些方法采用了对明智计算的损失,基于此,模型的检测能力部分取决于批大小。换句话说,检测性能部分受到图形内存的限制。在这项工作中,我们研究了一种最大化类间距离和最小化类内距离的方法,而不需要配对视频的实例。
我们提出了一个框架,称为异常回归网络(AR-Net),并提出了两个新的损失来学习视频级弱监督下的判别特征。如图1-(d)所示,提出了动态多实例学习损失(LDMIL)来使特征更加可分。
LDMIL是通过计算视频片段异常分数与其对应视频标签之间的交叉熵来获得的。中心损失被设计为每个训练正常视频中视频片段的异常分数与其对应的平均异常分数ci之间的距离。通过最小化这两种损失,可以获得用于视频异常检测的判别特征表示。
以上海科技为基准进行综合实验[14]。我们的方法获得了新的最先进的结果,在上海科技数据集上获得了4.94%的曲线下面积(AUC)的绝对增益。
PROPOSED METHOD
在本节中,我们首先定义符号和问题陈述。然后对所提出的特征提取网络进行了描述。最后,我们提出了我们的AR-Net,然后详细描述了拟议的损失。
问题陈述:
在异常检测数据集中,由n个视频组成的训练集用表示。数据集的时间持续时间定义为,其中为第i个视频的剪辑号。将视频异常标签集记为,其中,在测试阶段,将视频x的预测异常评分向量记为,其中, 为第j个视频片段的异常评分。
特征提取
为了同时利用视频的外观和运动信息,使用在Kinetics[15]数据集上进行预训练的Inflated 3D (I3D)[15]作为特征提取网络。一个输入视频被分成不重叠的片段,每个片段包含16个连续的帧。I3D的RGB版本和光流版本分别用I3DRGB和i3doptic - flow表示。前者以RGB帧作为输入,后者以光流帧作为输入。我们将I3DRGB和i3doptic - flow的倒数第二层的特征连接起来,作为视频剪辑的最终特征表示。
异常回归网络
R-Net的架构如图2所示。AR-Net中的全连接层(FC-Layer)和异常回归层(AR-Layer)只需要视频级别的标签就可以进行视频异常检测。我们采用ReLU[16]作为FC-Layer的激活函数。为了避免过拟合,在FC-Layer中引入Dropout[17],可以形式化如下
其中D表示dropout
我们通过ar层建立了表征与异常评分向量si之间的映射函数,ar层是一个全连通层。ar层可以表示如下:
动态多实例学习损失
如第1节所述,本文将视频异常检测视为MIL任务。在MIL中,一个正包至少包含一个正实例,一个负包不包含正实例,即一个异常视频至少包含一个异常事件,一个正常视频不包含异常事件。为了在弱监督下扩大异常和正常实例之间的类间距离,受[10][11]中的k-max MIL损失的启发,我们提出了一种考虑视频持续时间多样性的动态多实例学习(dil)损失。
与文献[7][8][9]中基于mil的损失函数的最大选择方法不同,我们引入了文献[10][11]中使用的kmax选择方法来获得k-max异常分数。k是根据视频中的片段数确定的。具体地说,
其中α是一个超参数。因此,第i段视频的k-max异常分数可以表示为:
其中si为第i个视频的异常评分向量,sort(·)为降序排序算子,PI为排序后的si。因此,Si由Si中的top-ki元素组成。DMIL损失可以表示如下:
式中yi = {0,1}为视频异常标签。此外,我们不再计算[10][11]中所选k个分数的平均值与视频标签之间的交叉熵,而是分别计算所选k个分数与视频标签之间的交叉熵作为实例损失。噪声标签会影响样本特征的异常分数,由此计算平均异常分数。而我们的DMIL损失关注的是个体异常得分,而不是平均得分。因此,这种损失可以防止噪声标签带来的误差传播。
异常评分回归的中心损失
DMIL损失的目的是扩大实例的类间距离。然而,max和k-max选择方法都不可避免地会产生错误的标签分配,因为异常视频中正常片段和异常片段在训练初期的异常分数是相似的。因此,很不幸的是,正常实例的类内距离被DMIL损失放大,这将降低测试阶段的检测精度。
受[18]中的中心损失的启发,我们提出了一种新的异常分数回归的中心损失来解决上述问题。在[18]中,中心损失学习每个类的特征中心,并对特征表示与其对应的类中心之间的距离进行惩罚。
在我们的例子中,为异常分数回归提出的中心损失收集正常视频片段的异常分数。
异常分数回归的中心损失可以表示为:
其中ci为第i个视频的异常评分向量si的中心。
AR-Net的总损失函数可表示为:
为了在训练阶段实现两种损失之间的平衡,我们经验地设置λ = 20。
EXPERIMENTS
总结
本文提出了一种基于mil的视频异常回归网络。此外,我们设计了一个动态损失LDMIL来学习可分离特征,设计了一个中心损失LDMIL来校正AR-Net输出的异常分数。
通过在弱监督下优化AR-Net的参数,动态多实例学习损失避免了片段特征之间干扰造成的虚警。中心回归损失通过平滑异常分数的分布来抑制标签噪声。此外,基于片段的实例生成策略有利于短期异常检测。在具有挑战性的数据集上进行的实验清楚地证明了我们的方法对视频异常检测的有效性。在未来,我们将研究实例之间的时间关系模型,以获得更强的鲁棒性。