arXiv reaDer
検索拡張マルチモーダル言語モデリング
Retrieval-Augmented Multimodal Language Modeling
DALL-E や CM3 などの最近のマルチモーダル モデルは、テキストから画像へ、および画像からテキストへの生成において目覚ましい進歩を遂げました。ただし、これらのモデルは、学習したすべての知識 (エッフェル塔の外観など) をモデル パラメーターに格納するため、より多くの知識を取得するには、ますます大きなモデルとトレーニング データが必要になります。よりスケーラブルでモジュール化された方法で知識を統合するために、基本的なマルチモーダル モデル (ジェネレーター) が外部メモリ (たとえば、Web 上のマルチモーダル ドキュメント) から取得者によってフェッチされた関連する知識を参照できるようにする、検索拡張マルチモーダル モデルを提案します。 .具体的には、事前トレーニング済みの CLIP モデルを使用してレトリーバーを実装し、CM3 Transformer アーキテクチャを使用してジェネレーターを実装し、LAION データセットを使用してこのモデルをトレーニングします。得られたモデルは、Retrieval-Augmented CM3 (RA-CM3) と名付けられ、テキストと画像の混合物を取得して生成できる最初のマルチモーダル モデルです。 RA-CM3 は、画像とキャプション生成タスクの両方で DALL-E や CM3 などのベースライン マルチモーダル モデルよりも大幅に優れていることを示しています (MS-COCO では 12 FID と 17 CIDEr の改善)。 DALL-E)。さらに、RA-CM3 が、知識集約型の画像生成やマルチモーダル イン コンテキスト学習などの新しい機能を発揮することを示します。
Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant knowledge fetched by a retriever from external memory (e.g., multimodal documents on the web). Specifically, we implement a retriever using the pretrained CLIP model and a generator using the CM3 Transformer architecture, and train this model using the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate mixtures of text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities such as knowledge-intensive image generation and multimodal in-context learning.
updated: Tue Nov 22 2022 20:26:44 GMT+0000 (UTC)
published: Tue Nov 22 2022 20:26:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト