Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking
画像とテキストの照合における主な課題は、それらが本質的に異なるデータ分布と特徴表現を持っていることです。ほとんどの既存のアプローチは、埋め込みまたは分類のいずれかに基づいています。1つ目は、画像とテキストインスタンスを距離測定用の共通の埋め込みスペースにマッピングし、2つ目は、画像とテキストのマッチングをバイナリ分類問題として扱います。ただし、これらのアプローチはどちらも、マッチングの精度とモデルの複雑さのバランスをうまくとることができません。許容可能なモデルの複雑さで驚くべきマッチング性能を実現する新しいフレームワークを提案します。具体的には、トレーニング段階で、新しいマルチモーダルテンソルフュージョンネットワーク(MTFN)を提案し、各画像テキストインスタンスに共通の埋め込みスペースを探すのではなく、ランクベースのテンソルフュージョンを使用して正確な画像テキスト類似性関数を明示的に学習します。次に、テスト中に、追加のトレーニング手順を必要とせずに、改良のための汎用クロスモーダル再ランキング(RR)スキームを展開します。 2つのデータセットでの広範な実験は、MTFN-RRが一貫して最先端のマッチングパフォーマンスをはるかに少ない時間の複雑さで達成することを示しています。実装コードはで入手できます。
A major challenge in matching images and text is that they have intrinsically different data distributions and feature representations. Most existing approaches are based either on embedding or classification, the first one mapping image and text instances into a common embedding space for distance measuring, and the second one regarding image-text matching as a binary classification problem. Neither of these approaches can, however, balance the matching accuracy and model complexity well. We propose a novel framework that achieves remarkable matching performance with acceptable model complexity. Specifically, in the training stage, we propose a novel Multi-modal Tensor Fusion Network (MTFN) to explicitly learn an accurate image-text similarity function with rank-based tensor fusion rather than seeking a common embedding space for each image-text instance. Then, during testing, we deploy a generic Cross-modal Re-ranking (RR) scheme for refinement without requiring additional training procedure. Extensive experiments on two datasets demonstrate that our MTFN-RR consistently achieves the state-of-the-art matching performance with much less time complexity. The implementation code is available at
updated: Wed Jul 29 2020 14:11:32 GMT+0000 (UTC)
published: Mon Aug 12 2019 05:52:44 GMT+0000 (UTC)
