暴力検出用のビデオ ビジョン トランスフォーマー
Video Vision Transformers for Violence Detection
法執行機関と都市の安全は、監視システムで暴力事件を検出することによって大きな影響を受けます。最新の (スマート) カメラは広く入手可能で手頃な価格ですが、そのような技術的ソリューションはほとんどの場合無力です。さらに、CCTV の記録を監視している職員の反応が遅れることが多く、その結果、人や財産に大惨事が起こる可能性があります。したがって、迅速な行動のための暴力の自動検出は非常に重要です。提案されたソリューションは、ビデオ シーケンス内の戦い、敵対的な動き、および暴力的なイベントを巧みに識別することができる、新しいエンド ツー エンドのディープ ラーニング ベースのビデオ ビジョン トランスフォーマー (ViViT) を使用します。この研究では、データ拡張戦略を利用して、より小さなトレーニング データセットでビジョン トランスフォーマーをトレーニングしながら、弱い誘導バイアスの欠点を克服することを示しています。その後、評価結果を地元の関係当局に送信し、キャプチャしたビデオを分析することができます。状態 (SOTA) アプローチと比較して、提案された方法は、挑戦的なベンチマーク データセットのいくつかで幸先の良いパフォーマンスを達成しました。
Law enforcement and city safety are significantly impacted by detecting violent incidents in surveillance systems. Although modern (smart) cameras are widely available and affordable, such technological solutions are impotent in most instances. Furthermore, personnel monitoring CCTV recordings frequently show a belated reaction, resulting in the potential cause of catastrophe to people and property. Thus automated detection of violence for swift actions is very crucial. The proposed solution uses a novel end-to-end deep learning-based video vision transformer (ViViT) that can proficiently discern fights, hostile movements, and violent events in video sequences. The study presents utilizing a data augmentation strategy to overcome the downside of weaker inductive biasness while training vision transformers on a smaller training datasets. The evaluated results can be subsequently sent to local concerned authority, and the captured video can be analyzed. In comparison to state-of-theart (SOTA) approaches the proposed method achieved auspicious performance on some of the challenging benchmark datasets.
updated: Thu Nov 10 2022 12:29:44 GMT+0000 (UTC)
published: Thu Sep 08 2022 04:44:01 GMT+0000 (UTC)
