arXiv reaDer
深い相互情報量の最大化によるクロスモーダル画像検索
Cross-modal Image Retrieval with Deep Mutual Information Maximization
この論文では、クロスモーダル画像検索を研究します。ここで、入力には、ソース画像に加えて、この画像と目的の画像への特定の変更を説明するテキストが含まれます。以前の作業では通常、このタスクに取り組むために3段階の戦略を使用します。1)入力の特徴を抽出します。 2)ソース画像の特徴とその修正されたテキストを融合して融合特徴を取得します。 3)ディープメトリック学習を使用して、目的の画像とソース画像+変更されたテキストの間の類似性メトリックを学習します。古典的な画像/テキストエンコーダーは有用な表現を学習でき、距離計量学習の一般的なペアベースの損失関数はクロスモーダル検索に十分であるため、人々は通常、新しい融合ネットワークを設計することによって検索精度を向上させます。ただし、これらの方法では、異なるモダリティの特徴の一貫性のない分布と表現によって引き起こされるモダリティギャップをうまく処理できません。これは、特徴の融合と類似性の学習に大きく影響します。この問題を軽減するために、テキスト、画像、およびそれらの融合の間の依存関係を強化することによってこのギャップを埋めるアプローチに、対照的な自己教師あり学習方法Deep InforMax(DIM)を採用します。具体的には、私たちの方法は、テキストモダリティと画像モダリティの間のモダリティギャップを、それらの正確に意味的に同一ではない表現間の相互情報量を最大化することによって狭めます。さらに、画像エンコーダーの低レベル層と融合ネットワークの高レベル層の間でDeep InforMaxを利用することにより、意味的に同じ融合機能と目的の画像の機能のための効果的な共通部分空間を探します。 3つの大規模なベンチマークデータセットでの広範な実験は、異なるモダリティ間のモダリティギャップを埋め、最先端の検索パフォーマンスを達成したことを示しています。
In this paper, we study the cross-modal image retrieval, where the inputs contain a source image plus some text that describes certain modifications to this image and the desired image. Prior work usually uses a three-stage strategy to tackle this task: 1) extract the features of the inputs; 2) fuse the feature of the source image and its modified text to obtain fusion feature; 3) learn a similarity metric between the desired image and the source image + modified text by using deep metric learning. Since classical image/text encoders can learn the useful representation and common pair-based loss functions of distance metric learning are enough for cross-modal retrieval, people usually improve retrieval accuracy by designing new fusion networks. However, these methods do not successfully handle the modality gap caused by the inconsistent distribution and representation of the features of different modalities, which greatly influences the feature fusion and similarity learning. To alleviate this problem, we adopt the contrastive self-supervised learning method Deep InforMax (DIM) to our approach to bridge this gap by enhancing the dependence between the text, the image, and their fusion. Specifically, our method narrows the modality gap between the text modality and the image modality by maximizing mutual information between their not exactly semantically identical representation. Moreover, we seek an effective common subspace for the semantically same fusion feature and desired image's feature by utilizing Deep InforMax between the low-level layer of the image encoder and the high-level layer of the fusion network. Extensive experiments on three large-scale benchmark datasets show that we have bridged the modality gap between different modalities and achieve state-of-the-art retrieval performance.
updated: Wed Mar 10 2021 13:08:09 GMT+0000 (UTC)
published: Wed Mar 10 2021 13:08:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト