私たちは、ラベル付けされていないビデオからビデオの特徴を学習しようとする自己教師付きビデオ表現学習を研究しています。これは、ビデオのラベル付けが労力を要するため、ビデオ分析に広く使用されています。現在の方法では、多くの場合、一部のビデオ領域をマスクしてから、モデルをトレーニングして、これらの領域の空間情報 (元のピクセルなど) を再構築します。ただし、このモデルでは、単一のフレーム内のコンテンツを考慮することで、この情報を簡単に再構築できます。その結果、ビデオ分析にとって重要なフレーム間の相互作用を学習することを怠る可能性があります。この論文では、マスクされた領域内の移動オブジェクトの動きをモデルに強制的に予測させることによって表現を学習するための、マスク モーション モデリング (M^3Video) と呼ばれる新しい自己教師あり学習タスクを提示します。このタスクのモーション ターゲットを生成するために、オプティカル フローを使用してオブジェクトを追跡します。モーション ターゲットは、追跡されるオブジェクトの位置遷移と形状変化で構成されるため、モデルは複数のフレームを包括的に考慮する必要があります。さらに、モデルがきめ細かいモーションの詳細をキャプチャできるようにするために、低時間解像度のビデオに基づいて高時間解像度で軌跡モーション ターゲットを予測するようにモデルを強制します。 M^3Video タスクを使用して事前トレーニングを行った後、モデルはまばらにサンプリングされたビデオを入力として使用しても、きめの細かい動きの詳細を予測できます。 4 つのベンチマーク データセットで広範な実験を行います。驚くべきことに、400 エポックで事前トレーニングを行うと、Something-Something V2 と Kinetics-400 データセットでそれぞれ精度が 67.6% から 69.2% に、78.8% から 79.7% に向上しました。
We study self-supervised video representation learning that seeks to learn video features from unlabeled videos, which is widely used for video analysis as labeling videos is labor-intensive. Current methods often mask some video regions and then train a model to reconstruct spatial information in these regions (e.g., original pixels). However, the model is easy to reconstruct this information by considering content in a single frame. As a result, it may neglect to learn the interactions between frames, which are critical for video analysis. In this paper, we present a new self-supervised learning task, called Masked Motion Modeling (M^3Video), for learning representation by enforcing the model to predict the motion of moving objects in the masked regions. To generate motion targets for this task, we track the objects using optical flow. The motion targets consist of position transitions and shape changes of the tracked objects, thus the model has to consider multiple frames comprehensively. Besides, to help the model capture fine-grained motion details, we enforce the model to predict trajectory motion targets in high temporal resolution based on a video in low temporal resolution. After pre-training using our M^3Video task, the model is able to anticipate fine-grained motion details even taking a sparsely sampled video as input. We conduct extensive experiments on four benchmark datasets. Remarkably, when doing pre-training with 400 epochs, we improve the accuracy from 67.6% to 69.2% and from 78.8% to 79.7% on Something-Something V2 and Kinetics-400 datasets, respectively.