arXiv reaDer
MVP:マルチモダリティガイド付きビジュアル事前トレーニング
MVP: Multimodality-guided Visual Pre-training
最近、マスクされた画像モデリング(MIM)は、視覚的な事前トレーニングの有望な方向になっています。ビジョントランスフォーマーのコンテキストでは、MIMは、トークンレベルの機能を事前定義されたスペースに揃えることによって効果的な視覚的表現を学習します(たとえば、BEITは大きな画像コーパスでトレーニングされたd-VAEをトークナイザーとして使用しました)。このホワイトペーパーでは、他のモダリティからのガイダンスを紹介し、そのような追加の知識が視覚的な事前トレーニングの印象的な向上につながることを検証することで、さらに一歩進んでいます。提案されたアプローチは、マルチモダリティガイド付き視覚事前トレーニング(MVP)と呼ばれ、トークナイザーを、4億の画像とテキストのペアで事前トレーニングされた視覚言語モデルであるCLIPの視覚ブランチに置き換えます。標準的な実験を実行することにより、MVPの有効性を示します。つまり、ImageNetでViTモデルを事前トレーニングし、一連のダウンストリーム視覚認識タスクで微調整します。特に、300エポックでViT-Base / 16を事前トレーニングすると、MVPはADE20Kで52.4%mIoUを報告し、6.8%の印象的なマージンでBEIT(ベースラインおよび以前の最先端)を上回ります。
Recently, masked image modeling (MIM) has become a promising direction for visual pre-training. In the context of vision transformers, MIM learns effective visual representation by aligning the token-level features with a pre-defined space (e.g., BEIT used a d-VAE trained on a large image corpus as the tokenizer). In this paper, we go one step further by introducing guidance from other modalities and validating that such additional knowledge leads to impressive gains for visual pre-training. The proposed approach is named Multimodality-guided Visual Pre-training (MVP), in which we replace the tokenizer with the vision branch of CLIP, a vision-language model pre-trained on 400 million image-text pairs. We demonstrate the effectiveness of MVP by performing standard experiments, i.e., pre-training the ViT models on ImageNet and fine-tuning them on a series of downstream visual recognition tasks. In particular, pre-training ViT-Base/16 for 300 epochs, MVP reports a 52.4% mIoU on ADE20K, surpassing BEIT (the baseline and previous state-of-the-art) with an impressive margin of 6.8%.
updated: Thu Mar 10 2022 06:11:20 GMT+0000 (UTC)
published: Thu Mar 10 2022 06:11:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト