最近の時間アクション セグメンテーション アプローチは非常に効果的です。ただし、これらのアプローチのほとんどは、トレーニングにフレーム アノテーションが必要です。これらの注釈を取得するには、非常にコストと時間がかかります。これにより、限られた注釈付きデータしか利用できない場合、パフォーマンスが制限されます。対照的に、インターネットを介して清掃することで、ドメイン内の注釈のないビデオの大規模なコーパスを簡単に収集できます。したがって、この論文では、注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用できる時間アクションセグメンテーションタスクのアプローチを提案します。私たちのアプローチは、フレーム予測を繰り返し改良し、最終的に結合するマルチストリーム蒸留を使用します。私たちのモデルは、アクションの順序も予測します。これは、後でフレーム ラベルを推定する際に一時的な制約として使用され、注釈のないビデオに対する監督の欠如に対抗します。最後に、2 つの異なるデータセットに対する提案されたアプローチの評価は、限られた注釈にもかかわらず、完全な監督に匹敵するパフォーマンスを達成する能力を示しています。
Recent temporal action segmentation approaches have been very effective. However, most of these approaches need frame annotations to train. These annotations are very expensive and time-consuming to obtain. This limits their performances when only limited annotated data is available. In contrast, we can easily collect a large corpus of in-domain unannotated videos by scavenging through the internet. Thus, this paper proposes an approach for the temporal action segmentation task that can simultaneously leverage knowledge from annotated and unannotated video sequences. Our approach uses multi-stream distillation that repeatedly refines and finally combines their frame predictions. Our model also predicts the action order, which is later used as a temporal constraint while estimating frames labels to counter the lack of supervision for unannotated videos. In the end, our evaluation of the proposed approach on two different datasets demonstrates its capability to achieve comparable performance to the full supervision despite limited annotation.