arXiv reaDer
凍結言語モデルを使用したマルチモーダル少数ショット学習
Multimodal Few-Shot Learning with Frozen Language Models
十分な規模でトレーニングされると、自己回帰言語モデルは、いくつかの例で促された後、新しい言語タスクを学習する顕著な能力を示します。ここでは、この数ショットの学習能力をマルチモーダル設定(ビジョンと言語)に移行するための、シンプルでありながら効果的なアプローチを紹介します。位置合わせされた画像とキャプションデータを使用して、ビジョンエンコーダーをトレーニングし、各画像を連続埋め込みのシーケンスとして表現します。これにより、このプレフィックスでプロンプトが表示される事前トレーニング済みの凍結言語モデルが適切なキャプションを生成します。結果として得られるシステムは、マルチモーダルの数ショット学習者であり、複数のインターリーブされた画像とテキストの埋め込みのシーケンスとして表される、例を条件としてさまざまな新しいタスクを学習する驚くべき能力を備えています。確立されたさまざまな新しいベンチマークで単一のモデルを測定することにより、新しいオブジェクトや新しい視覚カテゴリの単語を迅速に学習し、ほんの一握りの例で視覚的な質問応答を行い、外部の知識を活用できることを示します。
When trained at sufficient scale, auto-regressive language models exhibit the notable ability to learn a new language task after being prompted with just a few examples. Here, we present a simple, yet effective, approach for transferring this few-shot learning ability to a multimodal setting (vision and language). Using aligned image and caption data, we train a vision encoder to represent each image as a sequence of continuous embeddings, such that a pre-trained, frozen language model prompted with this prefix generates the appropriate caption. The resulting system is a multimodal few-shot learner, with the surprising ability to learn a variety of new tasks when conditioned on examples, represented as a sequence of multiple interleaved image and text embeddings. We demonstrate that it can rapidly learn words for new objects and novel visual categories, do visual question-answering with only a handful of examples, and make use of outside knowledge, by measuring a single model on a variety of established and new benchmarks.
updated: Fri Jun 25 2021 21:07:09 GMT+0000 (UTC)
published: Fri Jun 25 2021 21:07:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト