arXiv reaDer
FLAVA:基本的な言語とビジョンの調整モデル
FLAVA: A Foundational Language And Vision Alignment Model
最先端のビジョンおよびビジョンと言語のモデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを実現するために、大規模なVisio-言語の事前トレーニングに依存しています。一般に、このようなモデルは、多くの場合、クロスモーダル(対照)またはマルチモーダル(以前の融合)のいずれかですが、両方ではありません。多くの場合、特定のモダリティまたはタスクのみを対象としています。有望な方向性は、すべてのモダリティを一度に対象とする単一の全体論的ユニバーサルモデルを「基盤」として使用することです。真のビジョンおよび言語基盤モデルは、ビジョンタスク、言語タスク、およびクロスおよびマルチに優れている必要があります。モーダルビジョンと言語タスク。そのようなモデルとしてFLAVAを紹介し、これらのターゲットモダリティにまたがる35のタスクの広い範囲で印象的なパフォーマンスを示します。
State-of-the-art vision and vision-and-language models rely on large-scale visio-linguistic pretraining for obtaining good performance on a variety of downstream tasks. Generally, such models are often either cross-modal (contrastive) or multi-modal (with earlier fusion) but not both; and they often only target specific modalities or tasks. A promising direction would be to use a single holistic universal model, as a "foundation", that targets all modalities at once -- a true vision and language foundation model should be good at vision tasks, language tasks, and cross- and multi-modal vision and language tasks. We introduce FLAVA as such a model and demonstrate impressive performance on a wide range of 35 tasks spanning these target modalities.
updated: Wed Dec 08 2021 18:59:16 GMT+0000 (UTC)
published: Wed Dec 08 2021 18:59:16 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト