最近、人の検索は、歩行者の検出と人の再識別に共同で取り組む挑戦的なタスクとして浮上しています。既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に監視された設定に従います。ただし、IDに注釈を付けることは労働集約的であり、現在のフレームワークの実用性とスケーラビリティを制限します。この論文は、境界ボックスの注釈のみを使用した、弱く監視された人物の検索を独創的に検討しています。制約のない自然画像の3つのレベルのコンテキスト手がかり(つまり、検出、記憶、シーン)を調査することにより、この新しいタスク、つまりコンテキストガイド付き人物検索(CGPS)に対処する最初のフレームワークを提案しました。最初の2つは、ローカルおよびグローバルの識別機能を促進するために使用され、後者はクラスタリングの精度を向上させます。シンプルなデザインにもかかわらず、CGPSはCUHK-SYSUのmAPでベースラインモデルを8.3%ブーストします。驚いたことに、それはより高い効率を示しながら、2段階の人物検索モデルと同等のパフォーマンスを達成します。私たちのコードはhttps://github.com/ljpadam/CGPSで入手できます。
Person search has recently emerged as a challenging task that jointly addresses pedestrian detection and person re-identification. Existing approaches follow a fully supervised setting where both bounding box and identity annotations are available. However, annotating identities is labor-intensive, limiting the practicability and scalability of current frameworks. This paper inventively considers weakly supervised person search with only bounding box annotations. We proposed the first framework to address this novel task, namely Context-Guided Person Search (CGPS), by investigating three levels of context clues (i.e., detection, memory and scene) in unconstrained natural images. The first two are employed to promote local and global discriminative capabilities, while the latter enhances clustering accuracy. Despite its simple design, our CGPS boosts the baseline model by 8.3% in mAP on CUHK-SYSU. Surprisingly, it even achieves comparable performance to two-step person search models, while displaying higher efficiency. Our code is available at https://github.com/ljpadam/CGPS.