arXiv reaDer
時空間学習者としてのマスクされたオートエンコーダ
Masked Autoencoders As Spatiotemporal Learners
この論文は、ビデオから学習する時空間表現へのマスクされたオートエンコーダ(MAE)の概念的に単純な拡張を研究します。ビデオの時空パッチをランダムにマスクし、オートエンコーダーを学習してピクセル単位で再構築します。興味深いことに、私たちのMAEメソッドは、時空にほとんど誘導バイアスをかけずに強力な表現を学習でき(パッチと位置の埋め込みを除く)、時空にとらわれないランダムマスキングが最適であることを示しています。最適なマスキング率は90%(画像では75%)と高いことがわかり、この比率がデータの情報の冗長性に関連しているという仮説が裏付けられています。マスキング率が高いと、大幅な高速化につながります。たとえば、壁掛け時計の時間は4倍以上になります。バニラビジョントランスフォーマーを使用して、いくつかの挑戦的なビデオデータセットに関する競争力のある結果を報告します。 MAEは、監視された事前トレーニングよりも大幅に優れていることがわかります。さらに、実際のキュレーションされていないInstagramデータに関するトレーニングの有望な結果を報告します。私たちの研究は、マスクされた自動エンコーディングの一般的なフレームワーク(BERT、MAEなど)が、最小限のドメイン知識で表現学習のための統一された方法論である可能性があることを示唆しています。
This paper studies a conceptually simple extension of Masked Autoencoders (MAE) to spatiotemporal representation learning from videos. We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels. Interestingly, we show that our MAE method can learn strong representations with almost no inductive bias on spacetime (only except for patch and positional embeddings), and spacetime-agnostic random masking performs the best. We observe that the optimal masking ratio is as high as 90% (vs. 75% on images), supporting the hypothesis that this ratio is related to information redundancy of the data. A high masking ratio leads to a large speedup, e.g., > 4x in wall-clock time or even more. We report competitive results on several challenging video datasets using vanilla Vision Transformers. We observe that MAE can outperform supervised pre-training by large margins. We further report encouraging results of training on real-world, uncurated Instagram data. Our study suggests that the general framework of masked autoencoding (BERT, MAE, etc.) can be a unified methodology for representation learning with minimal domain knowledge.
updated: Wed May 18 2022 17:59:59 GMT+0000 (UTC)
published: Wed May 18 2022 17:59:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト