トリミングされていないビデオでのオンラインアクション検出は、発生したアクションを特定することを目的としているため、リアルタイムアプリケーションにとって非常に重要です。以前の方法は、トレーニングのために時間的アクション境界の面倒な注釈に依存しており、オンラインアクション検出システムのスケーラビリティを妨げています。ビデオクラスのラベルのみを使用してトレーニングできる、弱く監視されたフレームワークであるWOADを提案します。 WOADには、共同でトレーニングされた2つのモジュール、つまり、時間的提案ジェネレーター(TPG)とオンラインアクションレコグナイザー(OAR)が含まれています。 TPGは、ビデオクラスのラベルによって監視され、オフラインで動作し、OARの疑似フレームレベルのラベルを正確にマイニングすることを目的としています。 OARは、TPGからの監視信号を使用して、オンラインでアクション検出を実行することを学習します。 THUMOS'14、ActivityNet1.2、およびActivityNet1.3の実験結果は、弱教師ありメソッドが弱教師ありベースラインを大幅に上回り、以前の強教師ありメソッドと同等のパフォーマンスを達成することを示しています。それを超えて、WOADはそれが利用可能であるときに強力な監督を活用するために柔軟です。強力に監視されている場合、私たちの方法は、フレームごとのオンラインアクション認識とアクション開始のオンライン検出の両方のタスクで最先端の結果を取得します。
Online action detection in untrimmed videos aims to identify an action as it happens, which makes it very important for real-time applications. Previous methods rely on tedious annotations of temporal action boundaries for training, which hinders the scalability of online action detection systems. We propose WOAD, a weakly supervised framework that can be trained using only video-class labels. WOAD contains two jointly-trained modules, i.e., temporal proposal generator (TPG) and online action recognizer (OAR). Supervised by video-class labels, TPG works offline and targets at accurately mining pseudo frame-level labels for OAR. With the supervisory signals from TPG, OAR learns to conduct action detection in an online fashion. Experimental results on THUMOS'14, ActivityNet1.2 and ActivityNet1.3 show that our weakly-supervised method largely outperforms weakly-supervised baselines and achieves comparable performance to the previous strongly-supervised methods. Beyond that, WOAD is flexible to leverage strong supervision when it is available. When strongly supervised, our method obtains the state-of-the-art results in the tasks of both online per-frame action recognition and online detection of action start.