arXiv reaDer
トリプル対照学習による視覚言語の事前トレーニング
Vision-Language Pre-Training with Triple Contrastive Learning
視覚言語表現学習は、対照的な損失(InfoNCE損失など)による画像とテキストの位置合わせから主に恩恵を受けます。この位置合わせ戦略の成功は、画像とそれに一致するテキストの間の相互情報量(MI)を最大化する能力に起因しています。ただし、クロスモーダルアライメント(CMA)を実行するだけでは、各モダリティ内のデータの可能性が無視されるため、表現が低下する可能性があります。たとえば、CMAベースのモデルは、埋め込みスペースで画像とテキストのペアを近接してマッピングできますが、同じモダリティからの同様の入力が近くにあることを保証できません。トレーニング前のデータにノイズが多い場合、この問題はさらに悪化する可能性があります。この論文では、クロスモーダルとイントラモーダルの両方の自己監視を活用することにより、視覚言語の事前トレーニングのためのトリプルコントラスト学習(TCL)を提案します。 CMAに加えて、TCLは、表現学習において補完的な利点を提供するために、モーダル内の対照的な目的を導入します。画像およびテキスト入力からのローカライズされた構造情報を利用するために、TCLは画像/テキストのローカル領域とそれらのグローバルサマリー間の平均MIをさらに最大化します。私たちの知る限りでは、私たちの作品は、マルチモダリティ表現学習のために局所構造情報を考慮に入れた最初の作品です。実験的評価は、私たちのアプローチが競争力があり、画像テキスト検索や視覚的な質問応答などのさまざまな一般的な下流の視覚言語タスクで新しい最先端を達成することを示しています。
Vision-language representation learning largely benefits from image-text alignment through contrastive losses (e.g., InfoNCE loss). The success of this alignment strategy is attributed to its capability in maximizing the mutual information (MI) between an image and its matched text. However, simply performing cross-modal alignment (CMA) ignores data potential within each modality, which may result in degraded representations. For instance, although CMA-based models are able to map image-text pairs close together in the embedding space, they fail to ensure that similar inputs from the same modality stay close by. This problem can get even worse when the pre-training data is noisy. In this paper, we propose triple contrastive learning (TCL) for vision-language pre-training by leveraging both cross-modal and intra-modal self-supervision. Besides CMA, TCL introduces an intra-modal contrastive objective to provide complementary benefits in representation learning. To take advantage of localized and structural information from image and text input, TCL further maximizes the average MI between local regions of image/text and their global summary. To the best of our knowledge, ours is the first work that takes into account local structure information for multi-modality representation learning. Experimental evaluations show that our approach is competitive and achieve the new state of the art on various common down-stream vision-language tasks such as image-text retrieval and visual question answering.
updated: Thu Mar 03 2022 05:15:25 GMT+0000 (UTC)
published: Mon Feb 21 2022 17:54:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト