現在の最先端の画像文検索方法は、画像内の領域や文中の単語などの視覚的テキストフラグメントを暗黙的に整列させ、アテンションモジュールを採用してクロスモーダルセマンティック対応の関連性を強調します。ただし、セマンティクスと構造空間の両方で一貫した表現がないため、検索パフォーマンスは不十分なままです。この作業では、2つの側面から上記の問題に対処することを提案します。(i)それぞれのモダリティのフラグメント間で(関係とともに)固有の構造を構築します。たとえば、画像の意味構造で「犬\遊び\ボール」などです。 、および(ii)視覚的モダリティとテキストモダリティの間の明示的なモード間構造的および意味的対応を求める。この論文では、画像文検索のための新しい構造化マルチモーダル特徴埋め込みおよび整列(SMFEA)モデルを提案します。ビジュアルテキストの埋め込みとクロスモーダルアライメントを共同で明示的に学習するために、SMFEAは、共有コンテキストアウェア参照ツリーを備えた新しいマルチモーダル構造化モジュールを作成します。特に、視覚的フラグメントとテキストフラグメントの関係は、視覚的およびテキスト的特徴から共有ラベルを使用して、視覚的コンテキスト認識構造化ツリーエンコーダー(VCS-Tree)およびテキスト的コンテキスト認識構造化ツリーエンコーダー(TCS-Tree)を構築することによってモデル化されます。共同で学習し、最適化することができます。マルチモーダルツリー構造を利用して、対応するモーダル間ツリーノード間の意味的および構造的類似性を最大化することにより、異種の画像文データを明示的に整列させます。 Microsoft COCOおよびFlickr30Kベンチマークに関する広範な実験は、最先端の方法と比較して、提案されたモデルの優位性を示しています。
The current state-of-the-art image-sentence retrieval methods implicitly align the visual-textual fragments, like regions in images and words in sentences, and adopt attention modules to highlight the relevance of cross-modal semantic correspondences. However, the retrieval performance remains unsatisfactory due to a lack of consistent representation in both semantics and structural spaces. In this work, we propose to address the above issue from two aspects: (i) constructing intrinsic structure (along with relations) among the fragments of respective modalities, e.g., "dog \to play \to ball" in semantic structure for an image, and (ii) seeking explicit inter-modal structural and semantic correspondence between the visual and textual modalities. In this paper, we propose a novel Structured Multi-modal Feature Embedding and Alignment (SMFEA) model for image-sentence retrieval. In order to jointly and explicitly learn the visual-textual embedding and the cross-modal alignment, SMFEA creates a novel multi-modal structured module with a shared context-aware referral tree. In particular, the relations of the visual and textual fragments are modeled by constructing Visual Context-aware Structured Tree encoder (VCS-Tree) and Textual Context-aware Structured Tree encoder (TCS-Tree) with shared labels, from which visual and textual features can be jointly learned and optimized. We utilize the multi-modal tree structure to explicitly align the heterogeneous image-sentence data by maximizing the semantic and structural similarity between corresponding inter-modal tree nodes. Extensive experiments on Microsoft COCO and Flickr30K benchmarks demonstrate the superiority of the proposed model in comparison to the state-of-the-art methods.