Temporal Cycle-Consistency Learning
ビデオ間の時間的整合のタスクに基づいた自己教師付き表現学習方法を紹介します。この方法は、時間サイクル一貫性(TCC)を使用してネットワークをトレーニングします。TCCは、複数のビデオで時間をまたいで対応を見つけるために使用できる微分可能なサイクル一貫性損失です。結果のフレームごとの埋め込みを使用して、学習した埋め込みスペース内の最近傍を使用してフレームを単純に一致させることにより、ビデオを整列させることができます。埋め込みのパワーを評価するために、アクションフェーズのPouringおよびPenn Actionビデオデータセットに密にラベルを付けます。 (i)学習した埋め込みにより、これらのアクションフェーズの数ショット分類が可能になり、監視されたトレーニング要件が大幅に削減されることを示します。 (ii)TCCは、Shuffle and LearnおよびTime-Contrastive Networksなど、ビデオでの自己監視型学習の他の方法を補完します。埋め込みは、ビデオ間の同期モダリティのメタデータの転送(サウンド、一時的なセマンティックラベル)、複数のビデオの同期再生、異常検出など、ビデオペア間のアライメント(密な時間的対応)に基づく多くのアプリケーションにも使用されます。プロジェクトWebページ:
We introduce a self-supervised representation learning method based on the task of temporal alignment between videos. The method trains a network using temporal cycle consistency (TCC), a differentiable cycle-consistency loss that can be used to find correspondences across time in multiple videos. The resulting per-frame embeddings can be used to align videos by simply matching frames using the nearest-neighbors in the learned embedding space. To evaluate the power of the embeddings, we densely label the Pouring and Penn Action video datasets for action phases. We show that (i) the learned embeddings enable few-shot classification of these action phases, significantly reducing the supervised training requirements; and (ii) TCC is complementary to other methods of self-supervised learning in videos, such as Shuffle and Learn and Time-Contrastive Networks. The embeddings are also used for a number of applications based on alignment (dense temporal correspondence) between video pairs, including transfer of metadata of synchronized modalities between videos (sounds, temporal semantic labels), synchronized playback of multiple videos, and anomaly detection. Project webpage: .
updated: Tue Apr 16 2019 17:49:50 GMT+0000 (UTC)
published: Tue Apr 16 2019 17:49:50 GMT+0000 (UTC)
