arXiv reaDer
ビデオ異常検出のための時空間ベースのコンテキスト融合
Spatio-Temporal-based Context Fusion for Video Anomaly Detection
映像異常検知は、映像の異常事象を発見することを目的としており、主な対象は人や車などの対象物です。ビデオ データ内の各ターゲットには、豊富な時空間コンテキスト情報があります。ほとんどの既存の方法は、異常検出における空間コンテキストの役割を無視して、時間コンテキストのみに焦点を当てています。空間コンテキスト情報は、検出ターゲットと周囲のターゲットとの関係を表します。異常検出は非常に理にかなっています。この目的のために、ターゲットの時空間コンテキスト融合に基づくビデオ異常検出アルゴリズムが提案されています。最初に、ビデオ フレーム内のターゲットは、ターゲット検出ネットワークを介して抽出され、背景干渉が低減されます。次に、隣接する 2 つのフレームのオプティカル フロー マップが計算されます。モーション機能は、ビデオ フレーム内の複数のターゲットを使用して空間コンテキストを同時に構築し、ターゲットの外観とモーション機能を再エンコードし、最後に時空間デュアル ストリーム ネットワークを介して上記の機能を再構築し、再構築エラーを使用してスコア異常。このアルゴリズムは、UCSDped2 および Avenue データセットでそれぞれ 98.5% および 86.3% のフレーム レベルの AUC を達成します。 UCSDped2 データセットでは、時空間デュアル ストリーム ネットワークは、時間および空間ストリーム ネットワークと比較して、フレームをそれぞれ 5.1% および 0.3% 改善します。空間コンテキスト エンコーディングを使用すると、フレーム レベルの AUC が 1% 向上し、この方法の有効性が検証されます。
Video anomaly detection aims to discover abnormal events in videos, and the principal objects are target objects such as people and vehicles. Each target in the video data has rich spatio-temporal context information. Most existing methods only focus on the temporal context, ignoring the role of the spatial context in anomaly detection. The spatial context information represents the relationship between the detection target and surrounding targets. Anomaly detection makes a lot of sense. To this end, a video anomaly detection algorithm based on target spatio-temporal context fusion is proposed. Firstly, the target in the video frame is extracted through the target detection network to reduce background interference. Then the optical flow map of two adjacent frames is calculated. Motion features are used multiple targets in the video frame to construct spatial context simultaneously, re-encoding the target appearance and motion features, and finally reconstructing the above features through the spatio-temporal dual-stream network, and using the reconstruction error to represent the abnormal score. The algorithm achieves frame-level AUCs of 98.5% and 86.3% on the UCSDped2 and Avenue datasets, respectively. On the UCSDped2 dataset, the spatio-temporal dual-stream network improves frames by 5.1% and 0.3%, respectively, compared to the temporal and spatial stream networks. After using spatial context encoding, the frame-level AUC is enhanced by 1%, which verifies the method's effectiveness.
updated: Tue Oct 18 2022 04:07:10 GMT+0000 (UTC)
published: Tue Oct 18 2022 04:07:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト