arXiv reaDer
表現コードブックを使用したマルチモーダルアライメント
Multi-modal Alignment using Representation Codebook
異なるモダリティからの信号を整列させることは、クロスモダリティ融合などの後の段階のパフォーマンスに影響を与えるため、視覚言語表現学習の重要なステップです。画像とテキストは通常、フィーチャスペースの異なる領域に存在するため、特にトレーニング中にフィーチャがまだ進化している場合は、インスタンスレベルでそれらを直接位置合わせすることは困難です。この論文では、クラスター表現を使用して、より高く、より安定したレベルで整列することを提案します。具体的には、画像とテキストを同じエンティティの2つの「ビュー」として扱い、クラスターセンターの辞書(コードブック)にまたがる共同のビジョン言語コーディングスペースにエンコードします。クラスターの中心を同時に最適化しながら、クラスターの割り当てを介してポジティブサンプルとネガティブサンプルを対比します。学習プロセスをさらにスムーズにするために、教師と生徒の蒸留パラダイムを採用しています。このパラダイムでは、一方のビューの勢いのある教師が、もう一方のビューの生徒の学習をガイドします。共通の視覚言語ベンチマークでアプローチを評価し、他のさまざまな転送タスクで競争しながら、ゼロショットクロスモダリティ検索で新しいSoTAを取得しました。
Aligning signals from different modalities is an important step in vision-language representation learning as it affects the performance of later stages such as cross-modality fusion. Since image and text typically reside in different regions of the feature space, directly aligning them at instance level is challenging especially when features are still evolving during training. In this paper, we propose to align at a higher and more stable level using cluster representation. Specifically, we treat image and text as two "views" of the same entity, and encode them into a joint vision-language coding space spanned by a dictionary of cluster centers (codebook). We contrast positive and negative samples via their cluster assignments while simultaneously optimizing the cluster centers. To further smooth out the learning process, we adopt a teacher-student distillation paradigm, where the momentum teacher of one view guides the student learning of the other. We evaluated our approach on common vision language benchmarks and obtain new SoTA on zero-shot cross modality retrieval while being competitive on various other transfer tasks.
updated: Thu Mar 03 2022 01:44:48 GMT+0000 (UTC)
published: Mon Feb 28 2022 19:26:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト