arXiv reaDer
マルチモーダルマスクされたオートエンコーダは、転送可能な表現を学習します
Multimodal Masked Autoencoders Learn Transferable Representations
多様なマルチモーダルデータから学習するためのスケーラブルなモデルを構築することは、未解決の課題です。視覚言語データの場合、主なアプローチは、モダリティごとに個別のエンコーダーをトレーニングする対照的な学習目標に基づいています。効果的で対照的な学習アプローチでは、使用するデータ拡張に応じてサンプリングバイアスが発生し、ダウンストリームタスクのパフォーマンスが低下する可能性があります。さらに、これらの方法はペアの画像とテキストのデータに限定されており、広く利用可能なペアのないデータを活用することはできません。この論文では、モダリティ固有のエンコーダや対照学習を使用せずに、マスクされたトークン予測を介して純粋にトレーニングされた大規模なマルチモーダルモデルが、ダウンストリームタスクの転送可能な表現を学習できるかどうかを調査します。シンプルでスケーラブルなネットワークアーキテクチャであるマルチモーダルマスクドオートエンコーダー(M3AE)を提案します。これは、マスクされたトークン予測を介して視覚データと言語データの両方の統合エンコーダーを学習します。大規模な画像テキストデータセットでトレーニングされたM3AEの実証的研究を提供し、M3AEがダウンストリームタスクにうまく転送される一般化可能な表現を学習できることを発見しました。驚いたことに、2つのデータモダリティの共同トレーニングにより、標準のマスキング率が15%であるBERTとは対照的に、M3AEはより高いテキストマスク率(50〜90%)の恩恵を受けていることがわかりました。また、学習した表現に画像と言語の両方からの意味のある情報が組み込まれていることを示す定性分析も提供します。最後に、モデルサイズとトレーニング時間が大きいM3AEのスケーラビリティと、ペアの画像テキストデータとペアのないデータの両方でトレーニングできる柔軟性を示します。
Building scalable models to learn from diverse, multimodal data remains an open challenge. For vision-language data, the dominant approaches are based on contrastive learning objectives that train a separate encoder for each modality. While effective, contrastive learning approaches introduce sampling bias depending on the data augmentations used, which can degrade performance on downstream tasks. Moreover, these methods are limited to paired image-text data, and cannot leverage widely-available unpaired data. In this paper, we investigate whether a large multimodal model trained purely via masked token prediction, without using modality-specific encoders or contrastive learning, can learn transferable representations for downstream tasks. We propose a simple and scalable network architecture, the Multimodal Masked Autoencoder (M3AE), which learns a unified encoder for both vision and language data via masked token prediction. We provide an empirical study of M3AE trained on a large-scale image-text dataset, and find that M3AE is able to learn generalizable representations that transfer well to downstream tasks. Surprisingly, we find that M3AE benefits from a higher text mask ratio (50-90%), in contrast to BERT whose standard masking ratio is 15%, due to the joint training of two data modalities. We also provide qualitative analysis showing that the learned representation incorporates meaningful information from both image and language. Lastly, we demonstrate the scalability of M3AE with larger model size and training time, and its flexibility to train on both paired image-text data as well as unpaired data.
updated: Tue May 31 2022 22:56:41 GMT+0000 (UTC)
published: Fri May 27 2022 19:09:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト