アクションセグメンテーションは、ビデオの各フレームのアクションを予測するタスクです。アクションセグメンテーションのためにビデオの完全な注釈を取得することは費用がかかるため、トランスクリプトからのみ学習できる弱く監視されたアプローチが魅力的です。この論文では、2分岐ニューラルネットワークに基づく弱教師ありアクションセグメンテーションのための新しいエンドツーエンドアプローチを提案します。私たちのネットワークの2つのブランチは、アクションセグメンテーションの2つの冗長であるが異なる表現を予測し、2つの冗長表現の一貫性を強制する新しい相互一貫性(MuCon)損失を提案します。 MuConの損失とトランスクリプト予測の損失を併用することで、提案されたアプローチは、トレーニングが14倍、推論が20倍高速でありながら、最先端のアプローチの精度を実現します。 MuConの損失は、完全に監視された設定でも有益であることが証明されています。
Action segmentation is the task of predicting the actions for each frame of a video. As obtaining the full annotation of videos for action segmentation is expensive, weakly supervised approaches that can learn only from transcripts are appealing. In this paper, we propose a novel end-to-end approach for weakly supervised action segmentation based on a two-branch neural network. The two branches of our network predict two redundant but different representations for action segmentation and we propose a novel mutual consistency (MuCon) loss that enforces the consistency of the two redundant representations. Using the MuCon loss together with a loss for transcript prediction, our proposed approach achieves the accuracy of state-of-the-art approaches while being 14 times faster to train and 20 times faster during inference. The MuCon loss proves beneficial even in the fully supervised setting.