ビデオで人間の行動の時間的範囲を検出することは、フレームレベルのラベルを含む詳細な手動監視を必要とする、コンピュータビジョンの難しい問題です。この高価な注釈プロセスは、アクション検出器の展開を限られた数のカテゴリに制限します。ビデオレベルのラベルのみを使用して、弱い監視からアクションを検出することを学習するWSGNと呼ばれる新しい方法を提案します。 WSGNは、ビデオ固有の統計とデータセット全体の統計の両方を活用して、各フレームとアクションカテゴリの関連性を予測することを学習します。この戦略により、2つの標準ベンチマークTHUMOS14とCharadesのアクション検出が大幅に向上します。 THUMOS14データセットで同様の機能と損失関数を使用する最先端の方法と比較して、この方法は優れた結果を取得します。同様に、私たちの弱く監督された方法は、アクションのローカリゼーションのための挑戦的なCharadesデータセットの最先端の監督された方法のわずか0.3%mAPです。
Detecting temporal extents of human actions in videos is a challenging computer vision problem that requires detailed manual supervision including frame-level labels. This expensive annotation process limits deploying action detectors to a limited number of categories. We propose a novel method, called WSGN, that learns to detect actions from weak supervision, using only video-level labels. WSGN learns to exploit both video-specific and dataset-wide statistics to predict relevance of each frame to an action category. This strategy leads to significant gains in action detection for two standard benchmarks THUMOS14 and Charades. Our method obtains excellent results compared to state-of-the-art methods that uses similar features and loss functions on THUMOS14 dataset. Similarly, our weakly supervised method is only 0.3% mAP behind a state-of-the-art supervised method on challenging Charades dataset for action localization.