arXiv reaDer
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval
  テキスト画像のクロスモーダル検索は、言語と視覚の分野での挑戦的な仕事です。従来のアプローチのほとんどは、画像と文章を共同埋め込みスペースに個別に埋め込み、それらの類似性を比較します。ただし、以前のアプローチでは、共同空間での類似性を計算する前に画像と文の間の相互作用を調べることはめったにありません。直感的には、画像と文を照合する場合、人間は画像内の領域と文内の単語に交互に参加し、両方のモダリティ間の相互作用を考慮して最も顕著な情報を選択します。本論文では、モダリティ間でメッセージを渡すための情報フローを適応的に制御するクロスモーダル適応メッセージパッシング(CAMP)を提案します。私たちのアプローチでは、包括的かつきめ細かいクロスモーダル相互作用を考慮するだけでなく、ネガティブペアと無関係な情報を適応ゲーティングスキームで適切に処理します。さらに、テキスト画像マッチングのための従来の共同埋め込みアプローチの代わりに、融合された特徴に基づいてマッチングスコアを推測し、トレーニングのために最も困難な負のバイナリクロスエントロピー損失を提案します。 COCOとFlickr30kの結果は、最先端の手法を大幅に上回っており、当社のアプローチの有効性を実証しています。
Text-image cross-modal retrieval is a challenging task in the field of language and vision. Most previous approaches independently embed images and sentences into a joint embedding space and compare their similarities. However, previous approaches rarely explore the interactions between images and sentences before calculating similarities in the joint space. Intuitively, when matching between images and sentences, human beings would alternatively attend to regions in images and words in sentences, and select the most salient information considering the interaction between both modalities. In this paper, we propose Cross-modal Adaptive Message Passing (CAMP), which adaptively controls the information flow for message passing across modalities. Our approach not only takes comprehensive and fine-grained cross-modal interactions into account, but also properly handles negative pairs and irrelevant information with an adaptive gating scheme. Moreover, instead of conventional joint embedding approaches for text-image matching, we infer the matching score based on the fused features, and propose a hardest negative binary cross-entropy loss for training. Results on COCO and Flickr30k significantly surpass state-of-the-art methods, demonstrating the effectiveness of our approach.
updated: Thu Sep 12 2019 08:46:11 GMT+0000 (UTC)
published: Thu Sep 12 2019 08:46:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト