視覚言語の事前トレーニングの成功により、最先端の技術がマルチモーダルな理解と生成に押し進められているのを目の当たりにしました。ただし、現在の事前トレーニングパラダイムは、すべてのモダリティを一度にターゲットにすることができないか(たとえば、テキスト生成と画像生成)、スケーラビリティを大幅に制限する複数の適切に設計されたタスクを必要とします。統一されたモーダルモデルは、テキストと画像のシーケンスに基づいて、接頭辞言語モデリングの目的で学習できることを示しています。シンプルでありながら強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、膨大なデータにスケーラブルであり、モダリティ(言語/ビジョン/ビジョン+言語)、タイプ(理解)にわたるさまざまなダウンストリームタスクに適応できます。 /生成)および単一の統合アーキテクチャを使用した設定(ゼロショット、微調整、線形評価など)。 DaVinciは、26の理解/生成タスクの広い範囲で競争力のあるパフォーマンスを達成し、ImageNet分類(+ 1.6%)、VQAv2(+ 1.4%)、COCOキャプション生成(BLEU @)を含むほとんどのタスクで以前の統合ビジョン言語モデルを上回ります。 4 + 1.1%、CIDEr + 1.5%)およびCOCO画像生成(IS + 0.9%、FID -1.0%)、同等のモデルおよびデータスケールで。さらに、不均一で広い分布範囲での事前トレーニングデータセットのさまざまなスケールでのパフォーマンスを報告することにより、将来の研究のために明確に定義されたベンチマークを提供します。私たちの結果は、さまざまなデータスケールでの将来の比較のための新しい、より強力なベースラインを確立し、VLPモデルをより一般的に比較することの難しさを明らかにします。
With the success of vision-language pre-training, we have witnessed the state-of-the-art has been pushed on multi-modal understanding and generation. However, the current pre-training paradigm is either incapable of targeting all modalities at once (e.g., text generation and image generation), or requires multi-fold well-designed tasks which significantly limits the scalability. We demonstrate that a unified modal model could be learned with a prefix language modeling objective upon text and image sequences. Thanks to the simple but powerful pre-training paradigm, our proposed model, DaVinci, is simple to train, scalable to huge data, and adaptable to a variety of downstream tasks across modalities (language / vision / vision+language), types (understanding / generation) and settings (e.g., zero-shot, fine-tuning, linear evaluation) with a single unified architecture. DaVinci achieves the competitive performance on a wide range of 26 understanding / generation tasks, and outperforms previous unified vision-language models on most tasks, including ImageNet classification (+1.6%), VQAv2 (+1.4%), COCO caption generation (BLEU@4 +1.1%, CIDEr +1.5%) and COCO image generation (IS +0.9%, FID -1.0%), at the comparable model and data scale. Furthermore, we offer a well-defined benchmark for future research by reporting the performance on different scales of the pre-training dataset on a heterogeneous and wide distribution coverage. Our results establish new, stronger baselines for future comparisons at different data scales and shed light on the difficulties of comparing VLP models more generally.