arXiv reaDer
弱い監視下のビデオ異常検出のためのロング ショート テンポラル コティーチング
Long-Short Temporal Co-Teaching for Weakly Supervised Video Anomaly Detection
弱教師ありビデオ異常検出 (WS-VAD) は、ビデオ レベルの注釈のみを使用して VAD モデルを学習することを目的とした困難な問題です。この作業では、WS-VAD の問題に対処するために、Long-Short Temporal Co-teaching (LSTC) メソッドを提案します。 2 つのチューブレット ベースの時空間変換ネットワークを構築して、それぞれ短期および長期のビデオ クリップから学習します。各ネットワークは、複数インスタンス学習 (MIL) ベースのランキング損失と、クリップ レベルの疑似ラベルが使用可能な場合のクロス エントロピー損失に関してトレーニングされます。 2 つのネットワークをトレーニングするために共同教育戦略が採用されています。つまり、各ネットワークから生成されたクリップレベルの疑似ラベルを使用して、次のトレーニング ラウンドで他のネットワークを監視し、2 つのネットワークを交互に繰り返し学習します。提案された方法は、さまざまな期間の異常や微妙な異常をより適切に処理できます。 3 つの公開データセットでの広範な実験により、私たちの方法が最先端の WS-VAD 方法よりも優れていることが実証されました。
Weakly supervised video anomaly detection (WS-VAD) is a challenging problem that aims to learn VAD models only with video-level annotations. In this work, we propose a Long-Short Temporal Co-teaching (LSTC) method to address the WS-VAD problem. It constructs two tubelet-based spatio-temporal transformer networks to learn from short- and long-term video clips respectively. Each network is trained with respect to a multiple instance learning (MIL)-based ranking loss, together with a cross-entropy loss when clip-level pseudo labels are available. A co-teaching strategy is adopted to train the two networks. That is, clip-level pseudo labels generated from each network are used to supervise the other one at the next training round, and the two networks are learned alternatively and iteratively. Our proposed method is able to better deal with the anomalies with varying durations as well as subtle anomalies. Extensive experiments on three public datasets demonstrate that our method outperforms state-of-the-art WS-VAD methods.
updated: Fri Mar 31 2023 13:28:06 GMT+0000 (UTC)
published: Fri Mar 31 2023 13:28:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト