ディープニューラルネットワークでは、トレーニングを成功させるために大量のデータを収集して注釈を付ける必要があります。注釈のボトルネックを軽減するために、ビデオから抽出された時空間的特徴のための新しい自己教師付き表現学習アプローチを提案します。スキップクリップ、ビデオの時間的コヒーレンスを利用する方法を紹介します。これは、ビデオの将来予測の代理目的として、コンテキストクリップを条件とする将来のクリップ順序ランキングのディープモデルをトレーニングすることによって行われます。この方法を使用して学習した機能は一般化可能であり、下流のタスクに強く移行することを示します。 UCF101データセットでのアクション認識では、ランダムな初期化と比較して51.8%の改善が得られ、膨張したImageNetパラメーターを使用して初期化されたモデルよりも優れています。 Skip-Clipは、最先端の自己監視方法と競合する結果も達成します。
Deep neural networks require collecting and annotating large amounts of data to train successfully. In order to alleviate the annotation bottleneck, we propose a novel self-supervised representation learning approach for spatiotemporal features extracted from videos. We introduce Skip-Clip, a method that utilizes temporal coherence in videos, by training a deep model for future clip order ranking conditioned on a context clip as a surrogate objective for video future prediction. We show that features learned using our method are generalizable and transfer strongly to downstream tasks. For action recognition on the UCF101 dataset, we obtain 51.8% improvement over random initialization and outperform models initialized using inflated ImageNet parameters. Skip-Clip also achieves results competitive with state-of-the-art self-supervision methods.