ビデオ異常検出のための自己教師ありマルチタスク学習 (SSMTL) フレームワークが最近、文献で紹介されました。その精度の高さから、多くの研究者の注目を集めました。この作業では、自己教師ありマルチタスク学習フレームワークを再検討し、元の方法にいくつかの更新を提案します。まず、オプティカル フローまたはバックグラウンド減算を使用した高モーション領域の検出など、さまざまな検出方法を研究します。これは、現在使用されている事前トレーニング済みの YOLOv3 が次善であると考えているためです。たとえば、動いているオブジェクトや未知のクラスのオブジェクトは決して検出されません。次に、ビジョン トランスフォーマーの最近の成功に触発されたマルチヘッド自己注意モジュールを導入することにより、3D 畳み込みバックボーンを最新化します。そのため、代わりに 2D と 3D の両方の畳み込みビジョン トランスフォーマー (CvT) ブロックを導入します。第 3 に、モデルをさらに改善する試みとして、知識の蒸留によるセグメンテーション マップの予測、ジグソー パズルの解決、知識の蒸留による体の姿勢の推定、マスクされた領域の予測 (修復)、敵対的学習など、追加の自己教師あり学習タスクを研究します。疑似異常あり。導入された変更によるパフォーマンスへの影響を評価するための実験を行います。フレームワークのより有望な構成 (SSMTL++v1 および SSMTL++v2 と呼ばれる) を見つけたら、予備実験をより多くのデータ セットに拡張し、パフォーマンスの向上がすべてのデータ セットで一貫していることを示します。ほとんどの場合、Avenue、ShanghaiTech、および UBnormal での結果は、最先端のパフォーマンス バーを新しいレベルに引き上げます。
A self-supervised multi-task learning (SSMTL) framework for video anomaly detection was recently introduced in literature. Due to its highly accurate results, the method attracted the attention of many researchers. In this work, we revisit the self-supervised multi-task learning framework, proposing several updates to the original method. First, we study various detection methods, e.g. based on detecting high-motion regions using optical flow or background subtraction, since we believe the currently used pre-trained YOLOv3 is suboptimal, e.g. objects in motion or objects from unknown classes are never detected. Second, we modernize the 3D convolutional backbone by introducing multi-head self-attention modules, inspired by the recent success of vision transformers. As such, we alternatively introduce both 2D and 3D convolutional vision transformer (CvT) blocks. Third, in our attempt to further improve the model, we study additional self-supervised learning tasks, such as predicting segmentation maps through knowledge distillation, solving jigsaw puzzles, estimating body pose through knowledge distillation, predicting masked regions (inpainting), and adversarial learning with pseudo-anomalies. We conduct experiments to assess the performance impact of the introduced changes. Upon finding more promising configurations of the framework, dubbed SSMTL++v1 and SSMTL++v2, we extend our preliminary experiments to more data sets, demonstrating that our performance gains are consistent across all data sets. In most cases, our results on Avenue, ShanghaiTech and UBnormal raise the state-of-the-art performance bar to a new level.