説明ビデオは、人間のデモンストレーションから手順タスクを学ぶための重要なリソースです。ただし、このようなビデオの手順は通常短くまばらであり、ほとんどのビデオは手順とは無関係です。これは、そのようなビデオの命令ステップを一時的にローカライズする必要性を動機付けます。つまり、キーステップのローカリゼーションと呼ばれるタスクです。キーステップのローカリゼーションの従来の方法では、ビデオ レベルの人間による注釈が必要なため、大規模なデータセットに対応できません。この作業では、人間の監督なしで問題に取り組み、ビデオ内の指示ステップを発見してローカライズする自己教師ありモデルである StepFormer を紹介します。 StepFormer は、学習可能なクエリを使用してビデオに対応し、ビデオの重要なステップをキャプチャする一連のスロットを生成する変換デコーダです。自動生成された字幕を監督の唯一のソースとして使用して、教育用ビデオの大規模なデータセットでシステムをトレーニングします。特に、無関係なフレーズを除外する順序認識損失関数を使用して、一連のテキスト ナレーションでシステムを監視します。私たちのモデルは、3 つの困難なベンチマークで、ステップの検出とローカリゼーションに関する以前のすべての教師なしおよび教師なしのアプローチよりも大幅に優れていることを示しています。さらに、私たちのモデルは、ゼロショットのマルチステップローカリゼーションを解決するための緊急の特性を示し、このタスクで関連するすべてのベースラインよりも優れています。
Instructional videos are an important resource to learn procedural tasks from human demonstrations. However, the instruction steps in such videos are typically short and sparse, with most of the video being irrelevant to the procedure. This motivates the need to temporally localize the instruction steps in such videos, i.e. the task called key-step localization. Traditional methods for key-step localization require video-level human annotations and thus do not scale to large datasets. In this work, we tackle the problem with no human supervision and introduce StepFormer, a self-supervised model that discovers and localizes instruction steps in a video. StepFormer is a transformer decoder that attends to the video with learnable queries, and produces a sequence of slots capturing the key-steps in the video. We train our system on a large dataset of instructional videos, using their automatically-generated subtitles as the only source of supervision. In particular, we supervise our system with a sequence of text narrations using an order-aware loss function that filters out irrelevant phrases. We show that our model outperforms all previous unsupervised and weakly-supervised approaches on step detection and localization by a large margin on three challenging benchmarks. Moreover, our model demonstrates an emergent property to solve zero-shot multi-step localization and outperforms all relevant baselines at this task.