比較的小さなデータセットで優れたパフォーマンスを実現するには、通常、超大規模なデータセットでビデオ トランスフォーマーを事前トレーニングする必要があります。この論文では、ビデオ マスク オートエンコーダー (VideoMAE) が、自己教師ありビデオ事前トレーニング (SSVP) のデータ効率の高い学習器であることを示します。最近の ImageMAE に触発され、非常に高い比率でカスタマイズされたビデオ チューブ マスキングを提案します。この単純な設計により、ビデオの再構成がより困難な自己監視タスクになり、この事前トレーニング プロセス中により効果的なビデオ表現を抽出することが促進されます。 SSVP に関する 3 つの重要な発見が得られました。(1) 非常に高い割合のマスキング率 (つまり、90% から 95%) でも、VideoMAE の良好なパフォーマンスが得られます。時間的に冗長なビデオコンテンツは、画像よりも高いマスキング率を可能にします。 (2) VideoMAE は、余分なデータを使用せずに、非常に小さなデータセット (約 3k ~ 4k ビデオ) で印象的な結果を達成します。 (3) VideoMAE は、SSVP のデータ量よりもデータ品質が重要であることを示しています。事前トレーニングとターゲット データセット間のドメイン シフトは重要な問題です。特に、バニラ ViT を使用した VideoMAE は、余分なデータを使用せずに、Kinetics-400 で 87.4%、Something-Something V2 で 75.4%、UCF101 で 91.3%、HMDB51 で 62.6% を達成できます。コードは https://github.com/MCG-NJU/VideoMAE で入手できます。
Pre-training video transformers on extra large-scale datasets is generally required to achieve premier performance on relatively small datasets. In this paper, we show that video masked autoencoders (VideoMAE) are data-efficient learners for self-supervised video pre-training (SSVP). We are inspired by the recent ImageMAE and propose customized video tube masking with an extremely high ratio. This simple design makes video reconstruction a more challenging self-supervision task, thus encouraging extracting more effective video representations during this pre-training process. We obtain three important findings on SSVP: (1) An extremely high proportion of masking ratio (i.e., 90% to 95%) still yields favorable performance of VideoMAE. The temporally redundant video content enables a higher masking ratio than that of images. (2) VideoMAE achieves impressive results on very small datasets (i.e., around 3k-4k videos) without using any extra data. (3) VideoMAE shows that data quality is more important than data quantity for SSVP. Domain shift between pre-training and target datasets is an important issue. Notably, our VideoMAE with the vanilla ViT can achieve 87.4% on Kinetics-400, 75.4% on Something-Something V2, 91.3% on UCF101, and 62.6% on HMDB51, without using any extra data. Code is available at https://github.com/MCG-NJU/VideoMAE.