画像キャプション、視覚的な質問への回答、人物検索などの多くのコンピュータービジョンアプリケーションでは、画像レベルとテキストレベルの両方で識別的特徴表現を学習することが不可欠でありながら困難な問題です。その課題は、テキスト領域内の大きな単語のばらつきと、2つのモダリティの特徴間の距離を正確に測定することの難しさに起因しています。ネットワークがより良い特徴表現を学習するのに役立つ損失関数を導入することにより、ほとんどの先行研究は後者の課題に焦点を合わせていますが、テキスト入力の複雑さを説明できません。そのことを念頭に置いて、TIMAMを導入します。これは、敵対的およびクロスモーダルマッチング目標を使用して、モダリティ不変の特徴表現を学習するテキスト画像モダリティ敵対マッチングアプローチです。さらに、ワード埋め込みを抽出する公的に利用可能な言語モデルであるBERTが、テキストと画像のマッチングドメインに正常に適用できることを示します。提案されたアプローチは、広く使用されている4つの公開データセットで最先端のクロスモーダルマッチングパフォーマンスを達成し、ランク1の精度に関して2%から5%の範囲の絶対的な改善をもたらします。
For many computer vision applications such as image captioning, visual question answering, and person search, learning discriminative feature representations at both image and text level is an essential yet challenging problem. Its challenges originate from the large word variance in the text domain as well as the difficulty of accurately measuring the distance between the features of the two modalities. Most prior work focuses on the latter challenge, by introducing loss functions that help the network learn better feature representations but fail to account for the complexity of the textual input. With that in mind, we introduce TIMAM: a Text-Image Modality Adversarial Matching approach that learns modality-invariant feature representations using adversarial and cross-modal matching objectives. In addition, we demonstrate that BERT, a publicly-available language model that extracts word embeddings, can successfully be applied in the text-to-image matching domain. The proposed approach achieves state-of-the-art cross-modal matching performance on four widely-used publicly-available datasets resulting in absolute improvements ranging from 2% to 5% in terms of rank-1 accuracy.