arXiv reaDer
BEVT:ビデオトランスフォーマーのBERT事前トレーニング
BEVT: BERT Pretraining of Video Transformers
この論文は、ビデオトランスのBERT事前トレーニングを研究しています。イメージトランスフォーマーのBERT事前トレーニングによる最近の成功を考えると、これは単純ですが、調査する価値のある拡張機能です。ビデオ表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介します。特に、BEVTは、最初に画像データに対してマスクされた画像モデリングを実行し、次にビデオデータに対してマスクされたビデオモデリングと共同でマスクされた画像モデリングを実行します。この設計は、2つの観察によって動機付けられています。1)画像データセットで学習されたトランスフォーマーは、ビデオトランスフォーマーの学習を容易にする適切な空間事前分布を提供します。 2)正しい予測を行うために必要な識別の手がかり、つまり空間的および時間的情報は、クラス内およびクラス間の大きな変動のために、ビデオごとに異なります。 BEVTが非常に有望な結果を達成する、3つの挑戦的なビデオベンチマークで広範な実験を実施します。認識が主に識別的な空間表現に依存しているKinetics400では、BEVTは強力な監視対象ベースラインと同等の結果を達成します。時間的ダイナミクスに依存するビデオを含むSomething-Something-V2およびDiving48では、BEVTはすべての代替ベースラインを明確に上回り、それぞれ71.4%および87.2%のトップ1精度で最先端のパフォーマンスを実現します。コードはhttps://github.com/xyzforever/BEVTで利用できるようになります。
This paper studies the BERT pretraining of video transformers. It is a straightforward but worth-studying extension given the recent success from BERT pretraining of image transformers. We introduce BEVT which decouples video representation learning into spatial representation learning and temporal dynamics learning. In particular, BEVT first performs masked image modeling on image data, and then conducts masked image modeling jointly with masked video modeling on video data. This design is motivated by two observations: 1) transformers learned on image datasets provide decent spatial priors that can ease the learning of video transformers, which are often times computationally-intensive if trained from scratch; 2) discriminative clues, i.e., spatial and temporal information, needed to make correct predictions vary among different videos due to large intra-class and inter-class variations. We conduct extensive experiments on three challenging video benchmarks where BEVT achieves very promising results. On Kinetics 400, for which recognition mostly relies on discriminative spatial representations, BEVT achieves comparable results to strong supervised baselines. On Something-Something-V2 and Diving 48, which contain videos relying on temporal dynamics, BEVT outperforms by clear margins all alternative baselines and achieves state-of-the-art performance with a 71.4% and 87.2% Top-1 accuracy respectively. Code will be made available at https://github.com/xyzforever/BEVT.
updated: Thu Mar 03 2022 18:59:58 GMT+0000 (UTC)
published: Thu Dec 02 2021 18:59:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト