ビデオでの異常なイベントの検出は、異常なパターンの多様性とそれに対応する注釈の欠如が原因の 1 つとして、困難な問題です。この論文では、オブジェクトレベルの正規性パターンを学習するための新しい制約付き口実タスクを提案します。私たちのアプローチは、縮小されたビジュアルクエリと、元の解像度での対応する通常の外観とモーション特性との間のマッピングを学習することにあります。提案されたタスクは、文献で広く使用されている再構成および将来のフレーム予測タスクよりも困難です。これは、モデルが空間的および時間的特徴を再構成するのではなく、共同で予測することを学習するためです。より制約された口実タスクは、正規性パターンのより良い学習を誘発すると考えています。いくつかのベンチマーク データセットでの実験は、時空間評価指標で現在の最先端技術を凌駕する、または到達する際に、異常をローカライズおよび追跡するための私たちのアプローチの有効性を示しています。
Abnormal event detection in videos is a challenging problem, partly due to the multiplicity of abnormal patterns and the lack of their corresponding annotations. In this paper, we propose new constrained pretext tasks to learn object level normality patterns. Our approach consists in learning a mapping between down-scaled visual queries and their corresponding normal appearance and motion characteristics at the original resolution. The proposed tasks are more challenging than reconstruction and future frame prediction tasks which are widely used in the literature, since our model learns to jointly predict spatial and temporal features rather than reconstructing them. We believe that more constrained pretext tasks induce a better learning of normality patterns. Experiments on several benchmark datasets demonstrate the effectiveness of our approach to localize and track anomalies as it outperforms or reaches the current state-of-the-art on spatio-temporal evaluation metrics.