テキストベースの人物検索は、人物に関する説明文によって画像データベース内の対応する人物画像を取得することを目的としています。これは、ビデオ監視などのさまざまなアプリケーションに大きな可能性をもたらします。人間の説明に対応する視覚的なコンテンツを抽出することが、このクロスモーダルマッチング問題の鍵です。さらに、相関画像と説明には、意味的関連性のさまざまな粒度が含まれますが、これは通常、以前の方法では無視されていました。対応するマルチレベルの視覚的コンテンツを活用するために、私たちはポーズガイド付きのマルチグラニュラリティアテンションネットワーク(PMA)を提案します。まず、粗いアライメントネットワーク(CA)を提案して、類似性に基づく注意によってグローバルな説明に関連する画像領域を選択します。フレーズに関連する視覚的な身体部分をさらにキャプチャするために、ポーズ情報を使用して視覚的な身体部分とテキストの名詞句の間の潜在的なセマンティックアライメントを学習する、きめの細かいアライメントネットワーク(FA)が提案されます。モデルの有効性を検証するために、現在テキストベースの個人検索で使用可能な唯一のデータセットであるCUHK個人説明データセット(CUHK-PEDES)で広範な実験を実行します。実験結果は、我々のアプローチが最先端の方法よりもトップ1メトリックの点で15%優れていることを示しています。
Text-based person search aims to retrieve the corresponding person images in an image database by virtue of a describing sentence about the person, which poses great potential for various applications such as video surveillance. Extracting visual contents corresponding to the human description is the key to this cross-modal matching problem. Moreover, correlated images and descriptions involve different granularities of semantic relevance, which is usually ignored in previous methods. To exploit the multilevel corresponding visual contents, we propose a pose-guided multi-granularity attention network (PMA). Firstly, we propose a coarse alignment network (CA) to select the related image regions to the global description by a similarity-based attention. To further capture the phrase-related visual body part, a fine-grained alignment network (FA) is proposed, which employs pose information to learn latent semantic alignment between visual body part and textual noun phrase. To verify the effectiveness of our model, we perform extensive experiments on the CUHK Person Description Dataset (CUHK-PEDES) which is currently the only available dataset for text-based person search. Experimental results show that our approach outperforms the state-of-the-art methods by 15 % in terms of the top-1 metric.