Dual-Path Convolutional Image-Text Embeddings with Instance Loss
画像と文を一致させるには、両方のモダリティを細かく理解する必要があります。本論文では、画像とテキストを共有された視覚的テキスト空間に識別的に埋め込むための新しいシステムを提案する。この分野では、ほとんどの既存の作品は、ランキングの損失を適用して、ポジティブな画像/テキストのペアを近づけ、ネガティブなペアを互いに引き離します。ただし、ランキング損失を直接展開することは、2つの異種機能から開始してインターモーダル関係を構築するため、ネットワーク学習にとって困難です。この問題に対処するために、モーダル内のデータ分布を明示的に考慮するインスタンス損失を提案します。これは、各画像/テキストグループをクラスとして表示できるという教師なしの仮定に基づいています。したがって、ネットワークはすべての画像/テキストグループから細かい粒度を学習できます。実験は、インスタンスの損失がランキングの損失に対してより良い重みの初期化を提供することを示しているため、より識別力のある埋め込みを学習できます。その上、既存の作品は通常、既成の機能、すなわち、word2vecと固定された視覚的機能を適用します。したがって、マイナーな貢献で、このペーパーは、画像とテキストの表現を学習するために、エンドツーエンドのデュアルパス畳み込みネットワークを構築します。エンドツーエンドの学習により、システムはデータから直接学習し、監視を十分に活用できます。 2つの一般的な検索データセット(Flickr30kとMSCOCO)で、実験は、私たちの方法が最先端の方法と比較して競争力のある精度をもたらすことを示しています。さらに、言語ベースの人の検索では、最先端技術を大幅に改善します。コードは公開されています。
Matching images and sentences demands a fine understanding of both modalities. In this paper, we propose a new system to discriminatively embed the image and text to a shared visual-textual space. In this field, most existing works apply the ranking loss to pull the positive image / text pairs close and push the negative pairs apart from each other. However, directly deploying the ranking loss is hard for network learning, since it starts from the two heterogeneous features to build inter-modal relationship. To address this problem, we propose the instance loss which explicitly considers the intra-modal data distribution. It is based on an unsupervised assumption that each image / text group can be viewed as a class. So the network can learn the fine granularity from every image/text group. The experiment shows that the instance loss offers better weight initialization for the ranking loss, so that more discriminative embeddings can be learned. Besides, existing works usually apply the off-the-shelf features, i.e., word2vec and fixed visual feature. So in a minor contribution, this paper constructs an end-to-end dual-path convolutional network to learn the image and text representations. End-to-end learning allows the system to directly learn from the data and fully utilize the supervision. On two generic retrieval datasets (Flickr30k and MSCOCO), experiments demonstrate that our method yields competitive accuracy compared to state-of-the-art methods. Moreover, in language based person retrieval, we improve the state of the art by a large margin. The code has been made publicly available.
updated: Tue Jul 27 2021 07:45:26 GMT+0000 (UTC)
published: Wed Nov 15 2017 12:40:11 GMT+0000 (UTC)
