arXiv reaDer
Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests
ビデオ異常イベント検出(VAD)は、異常が実際には利用できないことが多いため、大まかにラベル付けされた通常のビデオのみで学習する必要がある重要な半教師ありタスクです。ディープニューラルネットワーク(DNN)はVADの大きな進歩を可能にしますが、既存のソリューションには通常2つの問題があります。(1)ビデオイベントの正確で包括的なローカリゼーションが無視されます。 (2)ビデオのセマンティクスと時間的コンテキストは十分に検討されていません。これらの問題に対処するために、私たちは教育で普及しているクローズテストに動機付けられ、「ビジュアルクローズテスト」(VCT)の完了を学習してVADを実行するビジュアルクローズ完了(VCC)という新しいアプローチを提案します。具体的には、VCCは最初に各ビデオイベントをローカライズし、それを時空間キューブ(STC)に囲みます。正確で包括的なローカリゼーションを実現するために、外観と動きは、各ビデオイベントに関連付けられたオブジェクト領域をマークするための相互に補完的な手がかりとして使用されます。マークされた領域ごとに、正規化されたパッチシーケンスが時間的に隣接するフレームから抽出され、STCにスタックされます。 STCの各パッチとパッチシーケンスをそれぞれ視覚的な「単語」と「文」と比較することにより、特定の「単語」(パッチ)を意図的に消去してVCTを生成できます。次に、DNNは、VCTを完了するために、ビデオセマンティクスによって消去されたパッチを推測するようにトレーニングされます。時間的コンテキストを十分に活用するために、STCの各パッチを交互に消去して複数のVCTを作成し、消去されたパッチのオプティカルフローも推測されてより豊富なモーションの手がかりを統合します。一方、新しいDNNアーキテクチャは、ビデオセマンティクスと時間コンテキストを利用するためのモデルレベルのソリューションとして設計されています。広範な実験により、VCCが最先端のVADパフォーマンスを実現していることが実証されています。コードと結果はで公開されています
Video abnormal event detection (VAD) is a vital semi-supervised task that requires learning with only roughly labeled normal videos, as anomalies are often practically unavailable. Although deep neural networks (DNNs) enable great progress in VAD, existing solutions typically suffer from two issues: (1) The precise and comprehensive localization of video events is ignored. (2) The video semantics and temporal context are under-explored. To address those issues, we are motivated by the prevalent cloze test in education and propose a novel approach named visual cloze completion (VCC), which performs VAD by learning to complete "visual cloze tests" (VCTs). Specifically, VCC first localizes each video event and encloses it into a spatio-temporal cube (STC). To achieve both precise and comprehensive localization, appearance and motion are used as mutually complementary cues to mark the object region associated with each video event. For each marked region, a normalized patch sequence is extracted from temporally adjacent frames and stacked into the STC. By comparing each patch and the patch sequence of a STC to a visual "word" and "sentence" respectively, we can deliberately erase a certain "word" (patch) to yield a VCT. DNNs are then trained to infer the erased patch by video semantics, so as to complete the VCT. To fully exploit the temporal context, each patch in STC is alternatively erased to create multiple VCTs, and the erased patch's optical flow is also inferred to integrate richer motion clues. Meanwhile, a new DNN architecture is designed as a model-level solution to utilize video semantics and temporal context. Extensive experiments demonstrate that VCC achieves state-of-the-art VAD performance. Our codes and results are open at
updated: Thu Aug 05 2021 04:05:36 GMT+0000 (UTC)
published: Thu Aug 05 2021 04:05:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト