arXiv reaDer
一貫したマルチモーダルな対比トレーニングによる効率的なトークンガイドによる画像テキスト検索
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training
画像とテキストの検索は、視覚と言語の間の意味論的な関係を理解するための中心的な問題であり、さまざまな視覚および言語タスクの基礎として機能します。これまでの研究のほとんどは、画像とテキスト全体の粗粒表現を単純に学習するか、画像領域またはピクセルとテキスト単語の間の対応を入念に確立するかのどちらかでした。ただし、各モダリティの粗粒表現と細粒表現の間の密接な関係は、画像テキスト検索にとって重要ですが、ほとんど無視されています。結果として、このような以前の研究では、必然的に検索精度が低くなったり、計算コストが重くなったりする。この研究では、粗粒表現学習と細粒表現学習を統合フレームワークに組み合わせることで、新しい観点から画像テキスト検索に取り組みます。人間は意味内容を理解するためにサンプル全体と地域要素に同時に注意を払うため、このフレームワークは人間の認知と一致しています。この目的を達成するために、画像とテキストのそれぞれのモダリティに対する 2 つの同種の分岐から構成されるトークンガイド デュアル トランスフォーマー (TGDT) アーキテクチャが、画像とテキストの検索のために提案されています。 TGDT は、粗い検索と細かい検索の両方を統合フレームワークに組み込み、両方の検索アプローチの利点を有効に活用します。それに応じて、共通の埋め込み空間における画像とテキスト間のモーダル内およびモーダル間の意味論的一貫性を確保するために、Consistent Multimodal Contrastive (CMC) 損失と呼ばれる新しいトレーニング目標が提案されています。提案手法は、グローバルとローカルの混合クロスモーダル類似性に基づく二段階推論手法を備えており、最近の代表的な手法と比較して極めて短い推論時間で最先端の検索性能を実現します。
Image-text retrieval is a central problem for understanding the semantic relationship between vision and language, and serves as the basis for various visual and language tasks. Most previous works either simply learn coarse-grained representations of the overall image and text, or elaborately establish the correspondence between image regions or pixels and text words. However, the close relations between coarse- and fine-grained representations for each modality are important for image-text retrieval but almost neglected. As a result, such previous works inevitably suffer from low retrieval accuracy or heavy computational cost. In this work, we address image-text retrieval from a novel perspective by combining coarse- and fine-grained representation learning into a unified framework. This framework is consistent with human cognition, as humans simultaneously pay attention to the entire sample and regional elements to understand the semantic content. To this end, a Token-Guided Dual Transformer (TGDT) architecture which consists of two homogeneous branches for image and text modalities, respectively, is proposed for image-text retrieval. The TGDT incorporates both coarse- and fine-grained retrievals into a unified framework and beneficially leverages the advantages of both retrieval approaches. A novel training objective called Consistent Multimodal Contrastive (CMC) loss is proposed accordingly to ensure the intra- and inter-modal semantic consistencies between images and texts in the common embedding space. Equipped with a two-stage inference method based on the mixed global and local cross-modal similarity, the proposed method achieves state-of-the-art retrieval performances with extremely low inference time when compared with representative recent approaches.
updated: Thu Jun 15 2023 00:19:13 GMT+0000 (UTC)
published: Thu Jun 15 2023 00:19:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト