TIReID は、指定されたテキスト クエリに対応する画像を候補画像のプールから取得することを目的としています。既存の方法は、単一モダリティの事前トレーニングからの事前知識を使用して学習を促進しますが、マルチモーダル対応が欠けています。さらに、モダリティ間の実質的なギャップにより、既存の方法では、元のモーダル機能がクロスモーダル アラインメントのために同じ潜在空間に埋め込まれます。ただし、機能の埋め込みは、モーダル内の情報の歪みにつながる可能性があります。最近、CLIP は、その強力なセマンティック概念学習能力と豊富なマルチモーダル知識により、研究者から大きな注目を集めており、上記の問題を解決するのに役立ちます。したがって、この論文では、CLIP の強力な知識を TIReID に十分に活用するために、CLIP 駆動の細粒度情報発掘フレームワーク (CFine) を提案します。マルチモーダルな知識を効果的に伝達するために、きめ細かい情報発掘を行い、モーダル内の識別的な手がかりとモーダル間の対応をマイニングします。具体的には、最初にマルチグレインのグローバル機能学習モジュールを設計して、モーダル内識別ローカル情報を完全にマイニングします。これにより、グローバル イメージ (テキスト) と有益なローカル パッチ (単語) の間の相互作用を強化することで、アイデンティティ関連の識別手がかりを強調できます。第 2 に、モダリティ間のクロスグレインおよびファイングレインの相互作用を確立するために、クロスグレイン フィーチャ リファインメント (CFR) およびファイングレイン コレスポンデンス ディスカバリー (FCD) モジュールが提案されています。粗いものから細かいものまで、クロスモーダル対応をマイニングします。 CFR と FCD は、計算コストを節約するために推論中に削除されます。上記のプロセスは、さらに特徴を埋め込むことなく、元のモダリティ空間で実行されることに注意してください。複数のベンチマークでの広範な実験により、TIReID での方法の優れたパフォーマンスが実証されました。
TIReID aims to retrieve the image corresponding to the given text query from a pool of candidate images. Existing methods employ prior knowledge from single-modality pre-training to facilitate learning, but lack multi-modal correspondences. Besides, due to the substantial gap between modalities, existing methods embed the original modal features into the same latent space for cross-modal alignment. However, feature embedding may lead to intra-modal information distortion. Recently, CLIP has attracted extensive attention from researchers due to its powerful semantic concept learning capacity and rich multi-modal knowledge, which can help us solve the above problems. Accordingly, in the paper, we propose a CLIP-driven Fine-grained information excavation framework (CFine) to fully utilize the powerful knowledge of CLIP for TIReID. To transfer the multi-modal knowledge effectively, we perform fine-grained information excavation to mine intra-modal discriminative clues and inter-modal correspondences. Specifically, we first design a multi-grained global feature learning module to fully mine intra-modal discriminative local information, which can emphasize identity-related discriminative clues by enhancing the interactions between global image (text) and informative local patches (words). Secondly, cross-grained feature refinement (CFR) and fine-grained correspondence discovery (FCD) modules are proposed to establish the cross-grained and fine-grained interactions between modalities, which can filter out non-modality-shared image patches/words and mine cross-modal correspondences from coarse to fine. CFR and FCD are removed during inference to save computational costs. Note that the above process is performed in the original modality space without further feature embedding. Extensive experiments on multiple benchmarks demonstrate the superior performance of our method on TIReID.