arXiv reaDer
CODER: 画像テキスト検索のための結合された多様性に敏感な運動量対照学習
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval
画像テキスト検索 (ITR) は、視覚的モダリティと言語的モダリティを橋渡しすることに挑戦しています。対照的な学習は、ほとんどの先行技術で採用されています。限られた量の否定的な画像とテキストのペアを除いて、否定的なペアを手動で重み付けすることと、外部の知識を認識しないことによって、制約的学習の能力が制限されます。この論文では、クロスモーダル表現を改善するための新しい結合ダイバーシティセンシティブモメンタムコンストラスティブラーニング(CODER)を提案します。まず、新しい多様性に敏感な対照学習 (DCL) アーキテクチャが発明されました。両方のモダリティに動的辞書を導入して、画像とテキストのペアのスケールを拡大し、適応的な負のペアの重み付けによって多様性に敏感になります。さらに、CODER では 2 つの分岐が設計されています。画像/テキストからインスタンス レベルの埋め込みを学習し、その埋め込みに基づいて入力画像/テキストの疑似オンライン クラスタリング ラベルも生成します。一方、もう一方のブランチは、常識的なナレッジ グラフからクエリを実行して、両方のモダリティの概念レベルの記述子を形成することを学習します。その後、両方の分岐が DCL を活用してクロスモーダル埋め込み空間を整列させ、追加の疑似クラスタリング ラベル予測損失を利用して、2 番目の分岐の概念レベルの表現学習を促進します。 MSCOCO と Flicker30K という 2 つの一般的なベンチマークで実施された広範な実験では、CODER が最先端のアプローチよりも著しく優れていることが検証されています。
Image-Text Retrieval (ITR) is challenging in bridging visual and lingual modalities. Contrastive learning has been adopted by most prior arts. Except for limited amount of negative image-text pairs, the capability of constrastive learning is restricted by manually weighting negative pairs as well as unawareness of external knowledge. In this paper, we propose our novel Coupled Diversity-Sensitive Momentum Constrastive Learning (CODER) for improving cross-modal representation. Firstly, a novel diversity-sensitive contrastive learning (DCL) architecture is invented. We introduce dynamic dictionaries for both modalities to enlarge the scale of image-text pairs, and diversity-sensitiveness is achieved by adaptive negative pair weighting. Furthermore, two branches are designed in CODER. One learns instance-level embeddings from image/text, and it also generates pseudo online clustering labels for its input image/text based on their embeddings. Meanwhile, the other branch learns to query from commonsense knowledge graph to form concept-level descriptors for both modalities. Afterwards, both branches leverage DCL to align the cross-modal embedding spaces while an extra pseudo clustering label prediction loss is utilized to promote concept-level representation learning for the second branch. Extensive experiments conducted on two popular benchmarks, i.e. MSCOCO and Flicker30K, validate CODER remarkably outperforms the state-of-the-art approaches.
updated: Sun Aug 21 2022 08:37:50 GMT+0000 (UTC)
published: Sun Aug 21 2022 08:37:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト