arXiv reaDer
UFO:視覚言語表現学習のための統一されたトランスフォーマー
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning
この論文では、視覚言語(たとえば、画像または質問)のユニモーダル入力(たとえば、画像または言語)またはマルチモーダル入力(たとえば、画像と質問の連結)のいずれかを処理できる単一のUniFiedトランスフォーマー(UFO)を提案します。 VL)表現学習。既存のアプローチは通常、各モダリティ用の個別のネットワークおよび/またはマルチモーダルタスク用の特定の融合ネットワークを設計します。ネットワークアーキテクチャを簡素化するために、単一のトランスフォーマーネットワークを使用し、VL事前トレーニング中にマルチタスク学習を実施します。これには、画像テキストのコントラスト損失、画像テキストのマッチング損失、双方向およびseq2seqアテンションマスク。同じトランスネットワークが、異なる事前トレーニングタスクで画像エンコーダ、テキストエンコーダ、またはフュージョンネットワークとして使用されます。経験的に、さまざまなタスク間の競合が少なくなり、視覚的な質問応答、COCO画像キャプション(クロスエントロピー最適化)、およびnocaps(SPICE)に関する新しい最先端技術を実現します。画像テキスト検索などの他のダウンストリームタスクでも、競争力のあるパフォーマンスを実現します。
In this paper, we propose a single UniFied transfOrmer (UFO), which is capable of processing either unimodal inputs (e.g., image or language) or multimodal inputs (e.g., the concatenation of the image and the question), for vision-language (VL) representation learning. Existing approaches typically design an individual network for each modality and/or a specific fusion network for multimodal tasks. To simplify the network architecture, we use a single transformer network and enforce multi-task learning during VL pre-training, which includes the image-text contrastive loss, image-text matching loss, and masked language modeling loss based on the bidirectional and the seq2seq attention mask. The same transformer network is used as the image encoder, the text encoder, or the fusion network in different pre-training tasks. Empirically, we observe less conflict among different tasks and achieve new state of the arts on visual question answering, COCO image captioning (cross-entropy optimization) and nocaps (in SPICE). On other downstream tasks, e.g., image-text retrieval, we also achieve competitive performance.
updated: Fri Nov 19 2021 03:23:10 GMT+0000 (UTC)
published: Fri Nov 19 2021 03:23:10 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト