arXiv reaDer
ビデオの異常検出のための階層的時空間グラフ畳み込みニューラルネットワーク
A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for Anomaly Detection in Videos
深層学習モデルは、監視ビデオの異常検出に広く使用されています。一般的なモデルには、正常なビデオを再構築し、異常なビデオの再構築エラーを評価して異常の程度を示す機能が備わっています。ただし、既存のアプローチには2つの欠点があります。第一に、それらは、異常を示す可能性のあるアイデンティティ間の相互作用を考慮せずに、各アイデンティティの動きを独立してエンコードすることしかできません。第二に、それらは異なるシーンの下で構造が固定されている柔軟性のないモデルを活用します。この構成はシーンの理解を無効にします。この論文では、これらの問題に対処するために、階層的時空間グラフ畳み込みニューラルネットワーク(HSTGCNN)を提案します。HSTGCNNは、さまざまなレベルのグラフ表現に対応する複数のブランチで構成されています。高レベルのグラフ表現は、人の軌跡と複数のID間の相互作用をエンコードし、低レベルのグラフ表現は、各人のローカルな体の姿勢をエンコードします。さらに、さまざまなシーンに適した複数のブランチを加重結合することを提案します。このようにして、単一レベルのグラフ表現に対する改善が実現されます。シーンの理解が達成され、異常検出に役立ちます。高レベルのグラフ表現には、低解像度のビデオで人の移動速度と方向をエンコードするために高い重みが割り当てられ、低レベルのグラフ表現には、高解像度のビデオで人間の骨格をエンコードするために高い重みが割り当てられます。実験結果は、提案されたHSTGCNNが、学習しにくいパラメータを使用することにより、4つのベンチマークデータセット(UCSD歩行者、ShanghaiTech、CUHKアベニュー、IITB-コリドー)で現在の最先端モデルを大幅に上回っていることを示しています。
Deep learning models have been widely used for anomaly detection in surveillance videos. Typical models are equipped with the capability to reconstruct normal videos and evaluate the reconstruction errors on anomalous videos to indicate the extent of abnormalities. However, existing approaches suffer from two disadvantages. Firstly, they can only encode the movements of each identity independently, without considering the interactions among identities which may also indicate anomalies. Secondly, they leverage inflexible models whose structures are fixed under different scenes, this configuration disables the understanding of scenes. In this paper, we propose a Hierarchical Spatio-Temporal Graph Convolutional Neural Network (HSTGCNN) to address these problems, the HSTGCNN is composed of multiple branches that correspond to different levels of graph representations. High-level graph representations encode the trajectories of people and the interactions among multiple identities while low-level graph representations encode the local body postures of each person. Furthermore, we propose to weightedly combine multiple branches that are better at different scenes. An improvement over single-level graph representations is achieved in this way. An understanding of scenes is achieved and serves anomaly detection. High-level graph representations are assigned higher weights to encode moving speed and directions of people in low-resolution videos while low-level graph representations are assigned higher weights to encode human skeletons in high-resolution videos. Experimental results show that the proposed HSTGCNN significantly outperforms current state-of-the-art models on four benchmark datasets (UCSD Pedestrian, ShanghaiTech, CUHK Avenue and IITB-Corridor) by using much less learnable parameters.
updated: Wed Dec 08 2021 14:03:33 GMT+0000 (UTC)
published: Wed Dec 08 2021 14:03:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト