arXiv reaDer
画像文マッチングのための顕著性誘導アテンションネットワーク
Saliency-Guided Attention Network for Image-Sentence Matching
 この論文では、画像と文章のマッチングのタスクを研究します。マルチモーダルデータ全体で適切な表現を学習することが主な課題であると思われます。両方のモダリティを表すために対称アーキテクチャを主に展開する以前のアプローチとは異なり、視覚とテキストの注意モジュールを非対称的に使用して視覚と言語の間に絡み合ったきめの細かい相関関係を学習する顕著性誘導アテンションネットワーク(SAN)を提案します。提案されたSANには、主に3つのコンポーネントが含まれます。顕著性検出器、顕著性強調視覚的注意(SVA)モジュール、および顕著性ガイド付きテキスト注意(STA)モジュールです。具体的には、顕著性検出器は、2つのアテンションモジュールのガイダンスとして視覚的顕著性情報を提供します。 SVAは、顕著性情報の利点を活用して視覚表現の識別を改善するように設計されています。マルチモーダルガイダンスとしてSVAからの視覚情報とテキスト情報を融合することにより、STAは視覚的な手がかりに非常に敏感な識別テキスト表現を学習します。広範な実験により、SANはベンチマークFlickr30KおよびMSCOCOデータセットの最新の結果を大幅に改善できることが実証されています。
This paper studies the task of matching image and sentence, where learning appropriate representations across the multi-modal data appears to be the main challenge. Unlike previous approaches that predominantly deploy symmetrical architecture to represent both modalities, we propose Saliency-guided Attention Network (SAN) that asymmetrically employs visual and textual attention modules to learn the fine-grained correlation intertwined between vision and language. The proposed SAN mainly includes three components: saliency detector, Saliency-weighted Visual Attention (SVA) module, and Saliency-guided Textual Attention (STA) module. Concretely, the saliency detector provides the visual saliency information as the guidance for the two attention modules. SVA is designed to leverage the advantage of the saliency information to improve discrimination of visual representations. By fusing the visual information from SVA and textual information as a multi-modal guidance, STA learns discriminative textual representations that are highly sensitive to visual clues. Extensive experiments demonstrate SAN can substantially improve the state-of-the-art results on the benchmark Flickr30K and MSCOCO datasets by a large margin.
updated: Fri Apr 30 2021 10:19:50 GMT+0000 (UTC)
published: Sat Apr 20 2019 17:27:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト