arXiv reaDer
対照学習におけるマルチモーダル表現の再考: パッチとトークンの埋め込みから有限離散トークンまで
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens
CLIP などの対照的な学習ベースの視覚言語事前トレーニング アプローチは、多くの視覚言語タスクで大きな成功を収めています。これらのメソッドは、ビジュアル パッチと言語トークンからの情報を集約することによって生成される、一致する画像とテキストのペアを同様の機能埋め込みでエンコードすることにより、クロスモーダル アラインメントを実現します。ただし、ビジュアル パッチとテキスト トークンはセマンティック レベルと粒度が異なるため、このような表現を使用してクロスモーダル情報を直接配置することは困難です。この問題を軽減するために、有限離散トークン (FDT) ベースのマルチモーダル表現を提案します。 FDT は、特定の視覚的意味概念を表す学習可能なトークンのセットです。画像とテキストの両方が、最初にマルチモーダル入力を FDT 空間に接地し、次にアクティブ化された FDT 表現を集約することにより、共有 FDT を使用して埋め込まれます。一致した視覚的概念と意味論的概念は、スパース アクティベーション制約によって、個別のトークンの同じセットで表現されるように強制されます。その結果、2 つのモダリティ間の粒度のギャップが縮小されます。定量分析と定性分析の両方を通じて、CLIP スタイルのモデルで FDT 表現を使用すると、視覚認識と視覚言語のダウンストリーム タスクにおけるクロス モーダル アライメントとパフォーマンスが向上することを実証します。さらに、私たちの方法がより包括的な表現を学習できることを示し、学習された FDT は、オブジェクトからアクションや属性に至るまで、意味のあるクロスモーダル対応をキャプチャします。
Contrastive learning-based vision-language pre-training approaches, such as CLIP, have demonstrated great success in many vision-language tasks. These methods achieve cross-modal alignment by encoding a matched image-text pair with similar feature embeddings, which are generated by aggregating information from visual patches and language tokens. However, direct aligning cross-modal information using such representations is challenging, as visual patches and text tokens differ in semantic levels and granularities. To alleviate this issue, we propose a Finite Discrete Tokens (FDT) based multimodal representation. FDT is a set of learnable tokens representing certain visual-semantic concepts. Both images and texts are embedded using shared FDT by first grounding multimodal inputs to FDT space and then aggregating the activated FDT representations. The matched visual and semantic concepts are enforced to be represented by the same set of discrete tokens by a sparse activation constraint. As a result, the granularity gap between the two modalities is reduced. Through both quantitative and qualitative analyses, we demonstrate that using FDT representations in CLIP-style models improves cross-modal alignment and performance in visual recognition and vision-language downstream tasks. Furthermore, we show that our method can learn more comprehensive representations, and the learned FDT capture meaningful cross-modal correspondence, ranging from objects to actions and attributes.
updated: Mon Mar 27 2023 00:58:39 GMT+0000 (UTC)
published: Mon Mar 27 2023 00:58:39 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト