arXiv reaDer
ビデオ異常検出のためのマルチスケール時空間インタラクション ネットワーク
Multi-scale Spatial-temporal Interaction Network for Video Anomaly Detection
ビデオ異常検出 (VAD) は、信号処理において不可欠だが困難なタスクです。特定の異常は時間情報または空間情報のいずれかを単独で分析しても検出できないため、VAD ではこれら 2 種類のデータ間の相互作用が重要であると考えられます。ただし、現在のデュアル ストリーム アーキテクチャは、この統合的な対話をオートエンコーダのボトルネックに限定するか、異常に無関係な背景ピクセルを対話プロセスに導入して、VAD の精度を妨げます。これらの欠陥に対処するために、VAD 用のマルチスケール時空間相互作用ネットワーク (MSTI-Net) を提案します。まず、シーン内の移動オブジェクトの検出を優先し、2 種類のデータ間の実質的な意味の不一致を調和させるために、従来の直接融合の代わりに、注意ベースの時空間融合モジュール (ASTFM) を提案します。さらに、デュアルストリーム ネットワークの外観とモーション ストリームを橋渡しするマルチ ASTFM ベースの接続を注入し、マルチスケールの時空間相互作用を促進します。最後に、正常なアクティビティと異常なアクティビティの区別を強化するために、システムはメモリ モジュールに定期的な情報を記録します。 3 つのベンチマーク データセットでの実験結果は、UCSD Ped2、CUHK Avenue、ShanghaiTech データセットでそれぞれ 96.8%、87.6%、73.9% の AUC を達成するという私たちのアプローチの有効性を検証しています。
Video Anomaly Detection (VAD) is an essential yet challenging task in signal processing. Since certain anomalies cannot be detected by isolated analysis of either temporal or spatial information, the interaction between these two types of data is considered crucial for VAD. However, current dual-stream architectures either confine this integral interaction to the bottleneck of the autoencoder or introduce anomaly-irrelevant background pixels into the interactive process, hindering the accuracy of VAD. To address these deficiencies, we propose a Multi-scale Spatial-Temporal Interaction Network (MSTI-Net) for VAD. First, to prioritize the detection of moving objects in the scene and harmonize the substantial semantic discrepancies between the two types of data, we propose an Attention-based Spatial-Temporal Fusion Module (ASTFM) as a substitute for the conventional direct fusion. Furthermore, we inject multi-ASTFM-based connections that bridge the appearance and motion streams of the dual-stream network, thus fostering multi-scale spatial-temporal interaction. Finally, to bolster the delineation between normal and abnormal activities, our system records the regular information in a memory module. Experimental results on three benchmark datasets validate the effectiveness of our approach, which achieves AUCs of 96.8%, 87.6%, and 73.9% on the UCSD Ped2, CUHK Avenue, and ShanghaiTech datasets, respectively.
updated: Thu Jul 06 2023 04:38:44 GMT+0000 (UTC)
published: Sat Jun 17 2023 02:40:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト