大規模な言語モデルのスケールアップにおける最近の進歩は、幅広いテキストベースのタスクで数ショット学習を実行する際の優れた機能を示しています。ただし、重要な制限は、これらの言語モデルが基本的に視覚を欠いていることです。これは、これらのモデルを拡張して現実世界とやり取りし、視覚的質問応答やロボット工学などの視覚タスクを解決できるようにするために必要な重要な属性です。以前の研究では、精選された画像とテキストのデータセットで事前トレーニングや微調整を行うことで、画像とテキストを大部分関連付けていましたが、これはコストとコストのかかるプロセスになる可能性があります。この制限を解決するために、Language-Quantized AutoEncoder (LQAE) と呼ばれるシンプルで効果的なアプローチを提案します。これは、事前トレーニング済みの言語モデル (BERT など) を活用して教師なしでテキスト画像データを整列させることを学習する VQ-VAE の修正版です。 、RoBERTa)。私たちの主なアイデアは、事前に訓練された言語コードブックを使用して画像埋め込みを直接量子化することにより、画像をテキスト トークンのシーケンスとしてエンコードすることです。次に、BERT モデルに続いてランダム マスキングを適用し、BERT 予測テキスト トークン埋め込みからデコーダに元の画像を再構築させます。そうすることで、LQAE は類似した画像を類似したテキスト トークンのクラスターで表現することを学習し、それによって整列されたテキストと画像のペアを使用せずにこれら 2 つのモダリティを整列させます。これにより、大規模な言語モデル (GPT-3 など) を使用した少数ショットの画像分類と、BERT テキスト機能に基づく画像の線形分類が可能になります。私たちの知る限り、私たちの研究は、事前学習済みの言語モデルの力を活用して、マルチモーダル タスクに位置合わせされていない画像を使用する最初の研究です。
Recent progress in scaling up large language models has shown impressive capabilities in performing few-shot learning across a wide range of text-based tasks. However, a key limitation is that these language models fundamentally lack visual perception - a crucial attribute needed to extend these models to be able to interact with the real world and solve vision tasks, such as in visual-question answering and robotics. Prior works have largely connected image to text through pretraining and/or fine-tuning on curated image-text datasets, which can be a costly and expensive process. In order to resolve this limitation, we propose a simple yet effective approach called Language-Quantized AutoEncoder (LQAE), a modification of VQ-VAE that learns to align text-image data in an unsupervised manner by leveraging pretrained language models (e.g., BERT, RoBERTa). Our main idea is to encode image as sequences of text tokens by directly quantizing image embeddings using a pretrained language codebook. We then apply random masking followed by a BERT model, and have the decoder reconstruct the original image from BERT predicted text token embeddings. By doing so, LQAE learns to represent similar images with similar clusters of text tokens, thereby aligning these two modalities without the use of aligned text-image pairs. This enables few-shot image classification with large language models (e.g., GPT-3) as well as linear classification of images based on BERT text features. To the best of our knowledge, our work is the first work that uses unaligned images for multimodal tasks by leveraging the power of pretrained language models.