arXiv reaDer
視覚言語の理解と生成のための統一されたマルチモーダル事前トレーニングとプロンプトベースのチューニング
Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation
ほとんどの既存のビジョン言語の事前トレーニング方法は、タスクの理解に重点を置いており、事前トレーニング中にBERTのような目的(マスクされた言語モデリングと画像とテキストのマッチング)を使用します。それらは、視覚的な質問応答、画像テキストの検索、視覚的な含意など、下流のタスクを理解する上でうまく機能しますが、生成する機能を備えていません。この問題に取り組むために、ビジョン言語の理解と生成(UniVL)の両方のための統合マルチモーダル事前トレーニングを提案します。提案されたUniVLは、理解タスクと生成タスクの両方を処理できます。因果マスクを使用したランダムマスクのみを使用する既存の事前トレーニングパラダイム、つまり、事前トレーニングされたモデルが設計により自己回帰生成機能を持つことができるように、将来のトークンをマスクする三角形マスクを拡張します。いくつかの以前の理解タスクをテキスト生成タスクとして定式化し、さまざまなダウンストリームタスクを微調整するためにプロンプトベースの方法を使用することを提案します。私たちの実験は、同じモデルを使用しながらタスクを理解することと生成タスクの間にトレードオフがあることを示しています。両方のタスクを改善するための実行可能な方法は、より多くのデータを使用することです。私たちのUniVLフレームワークは、理解タスクと生成タスクの両方で、最近の視覚言語の事前トレーニング方法と同等のパフォーマンスを実現します。さらに、プロンプトベースの微調整の方がデータ効率が高いことを示しています。これは、少数のショットのシナリオでは識別方法よりも優れています。
Most existing vision-language pre-training methods focus on understanding tasks and use BERT-like objectives (masked language modeling and image-text matching) during pretraining. Although they perform well in many understanding downstream tasks, e.g., visual question answering, image-text retrieval and visual entailment, they do not possess the ability to generate. To tackle this problem, we propose Unified multimodal pre-training for both Vision-Language understanding and generation (UniVL). The proposed UniVL is capable of handling both understanding tasks and generative tasks. We augment existing pretraining paradigms that only use random masks with causal masks, i.e., triangular masks that mask out future tokens, such that the pre-trained models can have autoregressive generation abilities by design. We formulate several previous understanding tasks as a text generation task and propose to use prompt-based method for fine-tuning on different downstream tasks. Our experiments show that there is a trade-off between understanding tasks and generation tasks while using the same model, and a feasible way to improve both tasks is to use more data. Our UniVL framework attains comparable performance to recent vision-language pre-training methods on both understanding tasks and generation tasks. Moreover, we demostrate that prompt-based finetuning is more data-efficient - it outperforms discriminative methods in few-shot scenarios.
updated: Wed Dec 15 2021 05:55:13 GMT+0000 (UTC)
published: Fri Dec 10 2021 14:59:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト