arXiv reaDer
シーンを意識したビデオ異常検出のための階層的セマンティック コントラスト
Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection
シーン認識の向上は、ビデオ異常検出 (VAD) における重要な課題です。この作業では、通常のビデオからシーンを認識する VAD モデルを学習するための階層的セマンティック コントラスト (HSC) メソッドを提案します。まず、事前にトレーニングされたビデオ解析モデルを利用して、前景オブジェクトと背景シーンの機能を高レベルのセマンティクスに組み込みます。次に、オートエンコーダーベースの再構成フレームワークに基づいて、シーンレベルとオブジェクトレベルの両方の対照学習を導入して、エンコードされた潜在機能を同じセマンティッククラス内でコンパクトにし、異なるクラス間で分離可能にします。この階層的なセマンティック コントラスト戦略は、正常なパターンの多様性に対処するのに役立ち、それらの識別能力も高めます。さらに、まれな通常の活動に取り組むために、スケルトンベースのモーション拡張を設計して、サンプルを増やし、モデルをさらに改良します。 3 つの公開データセットとシーンに依存する混合データセットに関する広範な実験により、提案された方法の有効性が検証されます。
Increasing scene-awareness is a key challenge in video anomaly detection (VAD). In this work, we propose a hierarchical semantic contrast (HSC) method to learn a scene-aware VAD model from normal videos. We first incorporate foreground object and background scene features with high-level semantics by taking advantage of pre-trained video parsing models. Then, building upon the autoencoder-based reconstruction framework, we introduce both scene-level and object-level contrastive learning to enforce the encoded latent features to be compact within the same semantic classes while being separable across different classes. This hierarchical semantic contrast strategy helps to deal with the diversity of normal patterns and also increases their discrimination ability. Moreover, for the sake of tackling rare normal activities, we design a skeleton-based motion augmentation to increase samples and refine the model further. Extensive experiments on three public datasets and scene-dependent mixture datasets validate the effectiveness of our proposed method.
updated: Thu Mar 23 2023 05:53:34 GMT+0000 (UTC)
published: Thu Mar 23 2023 05:53:34 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト