テキストベースの人物検索 (TBPS) は、与えられた自然言語記述に基づいて、大規模な画像ギャラリーから対象人物の画像を取得することを目的としています。既存の方法は、画像とテキストの並列ペアを使用したトレーニング モデルが主流であり、収集に非常にコストがかかります。この論文では、非並列画像とテキスト、あるいは画像のみのデータのみを採用できる並列画像テキストデータなしの TBPS (μ-TBPS) を検討する最初の試みを行います。この目的に向けて、我々は、最初に各画像に対応する疑似テキストを生成し、次に教師付き方法で検索を実行する、2 段階のフレームワークである生成→検索 (GTR) を提案します。生成段階では、人物画像の豊富な説明を取得するためのきめの細かい画像キャプション戦略を提案します。これはまず、一連の指示プロンプトを利用して、既製の事前学習済み視覚言語モデルをアクティブにして、細かい画像をキャプチャして生成します。 -人物の属性を詳細に抽出し、微調整された大規模な言語モデルまたは手作りのテンプレートを介して、抽出された属性をテキストの説明に変換します。検索段階では、トレーニングモデル用に生成されたテキストのノイズ干渉を考慮して、より信頼性の高いテキストがトレーニング中により多く寄与できるようにすることで、信頼スコアベースのトレーニングスキームを開発します。複数の TBPS ベンチマーク (CUHK-PEDES、ICFG-PEDES、RSTPReid) の実験結果は、提案された GTR が並列画像テキスト データに依存せずに有望なパフォーマンスを達成できることを示しています。
Text-based person search (TBPS) aims to retrieve the images of the target person from a large image gallery based on a given natural language description. Existing methods are dominated by training models with parallel image-text pairs, which are very costly to collect. In this paper, we make the first attempt to explore TBPS without parallel image-text data (μ-TBPS), in which only non-parallel images and texts, or even image-only data, can be adopted. Towards this end, we propose a two-stage framework, generation-then-retrieval (GTR), to first generate the corresponding pseudo text for each image and then perform the retrieval in a supervised manner. In the generation stage, we propose a fine-grained image captioning strategy to obtain an enriched description of the person image, which firstly utilizes a set of instruction prompts to activate the off-the-shelf pretrained vision-language model to capture and generate fine-grained person attributes, and then converts the extracted attributes into a textual description via the finetuned large language model or the hand-crafted template. In the retrieval stage, considering the noise interference of the generated texts for training model, we develop a confidence score-based training scheme by enabling more reliable texts to contribute more during the training. Experimental results on multiple TBPS benchmarks (i.e., CUHK-PEDES, ICFG-PEDES and RSTPReid) show that the proposed GTR can achieve a promising performance without relying on parallel image-text data.