この論文の目的は、人間の行動認識に適した、ビデオからの時空間埋め込みの自己監視学習です。 3つの貢献を行います。最初に、ビデオの自己教師付き表現学習のための高密度予測コーディング(DPC)フレームワークを導入します。これは、将来の表現を繰り返し予測することにより、時空間ブロックの高密度エンコードを学習します。第二に、時間的文脈が徐々に少なくなるように、将来をさらに予測するためのカリキュラムトレーニングスキームを提案します。これにより、モデルはゆっくり変化する時空間信号のみをエンコードするようになり、したがって意味表現につながります。第三に、最初に自己監視型学習でKinetics-400データセットのDPCモデルをトレーニングし、次にダウンストリームタスクの表現、つまりアクション認識を微調整することにより、アプローチを評価します。シングルストリーム(RGBのみ)で、DPC事前トレーニング済み表現は、UCF101(75.7%top1 acc)とHMDB51(35.7%top1 acc)の両方で最先端の自己監視パフォーマンスを達成し、以前の学習方法をすべて大幅に上回るImageNetで事前にトレーニングされたベースラインのパフォーマンスに近づきます。
The objective of this paper is self-supervised learning of spatio-temporal embeddings from video, suitable for human action recognition. We make three contributions: First, we introduce the Dense Predictive Coding (DPC) framework for self-supervised representation learning on videos. This learns a dense encoding of spatio-temporal blocks by recurrently predicting future representations; Second, we propose a curriculum training scheme to predict further into the future with progressively less temporal context. This encourages the model to only encode slowly varying spatial-temporal signals, therefore leading to semantic representations; Third, we evaluate the approach by first training the DPC model on the Kinetics-400 dataset with self-supervised learning, and then finetuning the representation on a downstream task, i.e. action recognition. With single stream (RGB only), DPC pretrained representations achieve state-of-the-art self-supervised performance on both UCF101(75.7% top1 acc) and HMDB51(35.7% top1 acc), outperforming all previous learning methods by a significant margin, and approaching the performance of a baseline pre-trained on ImageNet.