arXiv reaDer
シングルタワートランスによる視覚言語表現空間の統一
Unifying Vision-Language Representation Space with Single-tower Transformer
対照学習は、2 つの関連する表現から不変の特徴を学習することを目的とした遠隔学習の形式です。このホワイト ペーパーでは、画像とそのキャプションは、基礎となる相互情報の 2 つの異なるビューと単純に見なすことができるという大胆な仮説を探り、モデルをトレーニングして、両方のモダリティを一度にエンコードする統一された視覚言語表現空間を学習します。モダリティにとらわれない方法。最初に、ビジョン言語事前トレーニング (VLP) の一般的なワンタワー モデルを学習する際の難しさを特定し、OneR をシンプルかつ効果的なフレームワークとして提案します。 OneR を、ゼロ ショット オブジェクト ローカリゼーション、テキスト ガイドによる視覚的推論、マルチモーダル検索などのモダリティ固有の表現空間を学習する以前の研究と区別する興味深い特性を発見し、この新しい形式のマルチモーダルへの洞察を提供する分析を提示します。モーダル表現学習。徹底的な評価により、統一されたモダリティにとらわれない VLP フレームワークの可能性が示されます。
Contrastive learning is a form of distance learning that aims to learn invariant features from two related representations. In this paper, we explore the bold hypothesis that an image and its caption can be simply regarded as two different views of the underlying mutual information, and train a model to learn a unified vision-language representation space that encodes both modalities at once in a modality-agnostic manner. We first identify difficulties in learning a generic one-tower model for vision-language pretraining (VLP), and propose OneR as a simple yet effective framework for our goal. We discover intriguing properties that distinguish OneR from the previous works that learn modality-specific representation spaces such as zero-shot object localization, text-guided visual reasoning and multi-modal retrieval, and present analyses to provide insights into this new form of multi-modal representation learning. Thorough evaluations demonstrate the potential of a unified modality-agnostic VLP framework.
updated: Mon Nov 21 2022 02:34:21 GMT+0000 (UTC)
published: Mon Nov 21 2022 02:34:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト