ビデオ表現を学習するための新しい自己教師あり方法であるCycle-ContrastiveLearning(CCL)を紹介します。ビデオとそのフレームには帰属関係と包含関係があるという性質に従い、CCLは、それぞれのドメインでの対照的な表現を考慮して、フレームとビデオ間の対応を見つけるように設計されています。これは、フレームまたはクリップ間の対応を学習するだけの最近のアプローチとは異なります。私たちの方法では、フレームとビデオの表現は、R3Dアーキテクチャに基づく単一のネットワークから学習され、サイクルコントラストの損失の前にフレームとビデオの両方の機能を埋め込むための共有非線形変換が行われます。 CCLによって学習されたビデオ表現は、ビデオ理解のダウンストリームタスクにうまく転送でき、UCF101、HMDB51、およびMMActの最近傍検索およびアクション認識タスクの以前の方法よりも優れていることを示します。
We present Cycle-Contrastive Learning (CCL), a novel self-supervised method for learning video representation. Following a nature that there is a belong and inclusion relation of video and its frames, CCL is designed to find correspondences across frames and videos considering the contrastive representation in their domains respectively. It is different from recent approaches that merely learn correspondences across frames or clips. In our method, the frame and video representations are learned from a single network based on an R3D architecture, with a shared non-linear transformation for embedding both frame and video features before the cycle-contrastive loss. We demonstrate that the video representation learned by CCL can be transferred well to downstream tasks of video understanding, outperforming previous methods in nearest neighbour retrieval and action recognition tasks on UCF101, HMDB51 and MMAct.