ビデオ異常検出 (VAD) は、異常なイベントのあいまいさと多様性のために、パターン認識コミュニティでは依然として困難なタスクです。既存の深層学習ベースの VAD メソッドは通常、プロキシ タスクを利用して正常なパターンを学習し、そのようなパターンから逸脱したインスタンスを異常として識別します。ただし、それらのほとんどは、通常のパターンを理解するために重要な、ビデオ フレーム間の時空間相関を十分に活用していません。この論文では、長期的および短期的な外観と動きの進化の規則性を学習することにより、教師なしVADに対処し、通常のビデオの連続するフレーム間の時空間相関をより適切に活用します。具体的には、時空間長短期記憶 (ST-LSTM) を利用して、統合されたメモリセルの空間的外観と時間的変化を抽出して記憶することを提案しました。さらに、敵対的生成ネットワークに触発されて、学習機能を強化するために ST-LSTM で敵対的学習を実行する弁別器を導入します。標準的なベンチマークでの実験結果は、教師なし VAD の時空間相関の有効性を示しています。私たちの方法は、最先端の方法と比較して、UCSD Ped2、CUHK Avenue、ShanghaiTech でそれぞれ 96.7%、87.8%、73.1% の AUC で競争力のあるパフォーマンスを達成しています。
Video anomaly detection (VAD) remains a challenging task in the pattern recognition community due to the ambiguity and diversity of abnormal events. Existing deep learning-based VAD methods usually leverage proxy tasks to learn the normal patterns and discriminate the instances that deviate from such patterns as abnormal. However, most of them do not take full advantage of spatial-temporal correlations among video frames, which is critical for understanding normal patterns. In this paper, we address unsupervised VAD by learning the evolution regularity of appearance and motion in the long and short-term and exploit the spatial-temporal correlations among consecutive frames in normal videos more adequately. Specifically, we proposed to utilize the spatiotemporal long short-term memory (ST-LSTM) to extract and memorize spatial appearances and temporal variations in a unified memory cell. In addition, inspired by the generative adversarial network, we introduce a discriminator to perform adversarial learning with the ST-LSTM to enhance the learning capability. Experimental results on standard benchmarks demonstrate the effectiveness of spatial-temporal correlations for unsupervised VAD. Our method achieves competitive performance compared to the state-of-the-art methods with AUCs of 96.7%, 87.8%, and 73.1% on the UCSD Ped2, CUHK Avenue, and ShanghaiTech, respectively.