ビデオの異常を検出するための軽量で正確な方法を提案します。既存の方法では、複数インスタンス学習 (MIL) を使用して、ビデオの各セグメントの正常/異常ステータスを判断していました。最近の成功した研究は、単一のセグメントのみに焦点を当てるのではなく、セグメント間の時間的関係を学習して高い精度を達成することが重要であると主張しています。そのため、近年成功している既存の方法を分析したところ、すべてのセグメントをまとめて学習することは確かに重要ですが、それらの間の時間的順序は高精度の達成には無関係であることがわかりました。この発見に基づいて、MILフレームワークを使用せず、代わりに、すべての入力セグメントから正常/異常を判断するために重要な特徴を自動的に抽出する自己注意メカニズムを備えた軽量モデルを提案します。その結果、私たちのニューラル ネットワーク モデルは、既存の方法のパラメーター数の 1.3% を持ちます。 3 つのベンチマーク データセット (UCF-Crime、ShanghaiTech、および XD-Violence) でこの方法のフレーム レベルの検出精度を評価し、この方法が最先端の方法と同等またはそれ以上の精度を達成できることを実証しました。
We propose a lightweight and accurate method for detecting anomalies in videos. Existing methods used multiple-instance learning (MIL) to determine the normal/abnormal status of each segment of the video. Recent successful researches argue that it is important to learn the temporal relationships among segments to achieve high accuracy, instead of focusing on only a single segment. Therefore we analyzed the existing methods that have been successful in recent years, and found that while it is indeed important to learn all segments together, the temporal orders among them are irrelevant to achieving high accuracy. Based on this finding, we do not use the MIL framework, but instead propose a lightweight model with a self-attention mechanism to automatically extract features that are important for determining normal/abnormal from all input segments. As a result, our neural network model has 1.3% of the number of parameters of the existing method. We evaluated the frame-level detection accuracy of our method on three benchmark datasets (UCF-Crime, ShanghaiTech, and XD-Violence) and demonstrate that our method can achieve the comparable or better accuracy than state-of-the-art methods.