ポイントレベルの時間的アクションローカリゼーション(PTAL)は、アクションインスタンスごとに1つのタイムスタンプアノテーションのみを使用して、トリミングされていないビデオのアクションをローカライズすることを目的としています。既存の方法は、フレームレベルの予測パラダイムを採用して、まばらな単一フレームラベルから学習します。ただし、そのようなフレームワークは必然的に大きなソリューションスペースに悩まされます。このホワイトペーパーでは、ポイントレベルの注釈の提案ベースの予測パラダイムを探求します。これには、より制約されたソリューションスペースと、隣接するフレーム間での一貫した予測という利点があります。ポイントレベルの注釈は、最初にキーポイント検出器をトレーニングするためのキーポイント監視として使用されます。次に、位置予測段階で、トレーニングエラーのバックプロパゲーションを可能にするシンプルで効果的なマッパーモジュールが導入され、完全に監視されたフレームワークと弱い監視を橋渡しします。私たちの知る限り、これは完全に監視されたパラダイムをポイントレベルの設定に活用する最初の作業です。 THUMOS14、BEOID、GTEAでの実験により、提案された方法の有効性が定量的および定性的に検証され、私たちの方法が最先端の方法よりも優れていることが実証されました。
Point-Level temporal action localization (PTAL) aims to localize actions in untrimmed videos with only one timestamp annotation for each action instance. Existing methods adopt the frame-level prediction paradigm to learn from the sparse single-frame labels. However, such a framework inevitably suffers from a large solution space. This paper attempts to explore the proposal-based prediction paradigm for point-level annotations, which has the advantage of more constrained solution space and consistent predictions among neighboring frames. The point-level annotations are first used as the keypoint supervision to train a keypoint detector. At the location prediction stage, a simple but effective mapper module, which enables back-propagation of training errors, is then introduced to bridge the fully-supervised framework with weak supervision. To our best of knowledge, this is the first work to leverage the fully-supervised paradigm for the point-level setting. Experiments on THUMOS14, BEOID, and GTEA verify the effectiveness of our proposed method both quantitatively and qualitatively, and demonstrate that our method outperforms state-of-the-art methods.