arXiv reaDer
ビデオ異常検出のためのVisionTransformerを使用したマルチコンテキスト予測
Multi-Contextual Predictions with Vision Transformer for Video Anomaly Detection
ビデオ異常検出(VAD)は、従来、再構成ベースのアプローチと予測ベースのアプローチという2つの主要な方法で取り組んできました。再構成ベースの方法が入力画像を一般化することを学習するとき、モデルは単に恒等関数を学習し、一般化問題と呼ばれる問題を強く引き起こします。一方、予測ベースのものは、いくつかの前のフレームが与えられた場合に将来のフレームを予測することを学習するため、一般化の問題に対する感度が低くなります。ただし、モデルがビデオの時空間コンテキストを学習できるかどうかはまだ不明です。私たちの直感では、ビデオの時空間コンテキストを理解することは、ビデオクリップ内のイベントの外観がどのように変化するかについての正確な情報を提供するため、VADで重要な役割を果たします。したがって、ビデオ環境での異常検出のためにコンテキスト情報を十分に活用するために、3つの異なるコンテキスト予測ストリーム(マスク、全体、および部分)を使用してトランスフォーマーモデルを設計しました。連続する通常のフレームの欠落フレームを予測することを学習することにより、モデルはビデオ内のさまざまな正常性パターンを効果的に学習できます。これにより、学習したコンテキストに適さない異常なケースで高い再構成エラーが発生します。私たちのアプローチの有効性を検証するために、公開ベンチマークデータセット(USCD Pedestrian 2、CUHK Avenue、ShanghaiTech)でモデルを評価し、再構築エラーの異常スコアメトリックを使用してパフォーマンスを評価します。結果は、提案されたアプローチが既存のビデオ異常検出方法と比較して競争力のあるパフォーマンスを達成することを示しています。
Video Anomaly Detection(VAD) has been traditionally tackled in two main methodologies: the reconstruction-based approach and the prediction-based one. As the reconstruction-based methods learn to generalize the input image, the model merely learns an identity function and strongly causes the problem called generalizing issue. On the other hand, since the prediction-based ones learn to predict a future frame given several previous frames, they are less sensitive to the generalizing issue. However, it is still uncertain if the model can learn the spatio-temporal context of a video. Our intuition is that the understanding of the spatio-temporal context of a video plays a vital role in VAD as it provides precise information on how the appearance of an event in a video clip changes. Hence, to fully exploit the context information for anomaly detection in video circumstances, we designed the transformer model with three different contextual prediction streams: masked, whole and partial. By learning to predict the missing frames of consecutive normal frames, our model can effectively learn various normality patterns in the video, which leads to a high reconstruction error at the abnormal cases that are unsuitable to the learned context. To verify the effectiveness of our approach, we assess our model on the public benchmark datasets: USCD Pedestrian 2, CUHK Avenue and ShanghaiTech and evaluate the performance with the anomaly score metric of reconstruction error. The results demonstrate that our proposed approach achieves a competitive performance compared to the existing video anomaly detection methods.
updated: Fri Jun 17 2022 05:54:31 GMT+0000 (UTC)
published: Fri Jun 17 2022 05:54:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト