最近、人の検索は、歩行者の検出と人の再識別に共同で取り組む挑戦的なタスクとして浮上しています。既存のアプローチは、バウンディングボックスとIDアノテーションの両方が利用可能な完全に監視された設定に従います。ただし、IDに注釈を付けることは労働集約的であり、現在のフレームワークの実用性とスケーラビリティを制限します。この論文は、境界ボックスの注釈のみを使用した、弱く監視された人物の検索を独創的に検討しています。制約のない自然画像のコンテキストの手がかりの3つのレベル(つまり、検出、記憶、シーン)を調査することにより、この新しいタスクに対処することを提案しました。最初の2つは、ローカルおよびグローバルの識別機能を促進するために使用され、後者はクラスタリングの精度を向上させます。シンプルなデザインにもかかわらず、CGPSはCUHK-SYSUのmAPで80.0%を達成し、ベースラインモデルを8.8%向上させます。驚いたことに、それはいくつかの監視された人の検索モデルと同等のパフォーマンスを達成します。私たちのコードはhttps://github.com/ljpadam/CGPSで入手できます
Person search has recently emerged as a challenging task that jointly addresses pedestrian detection and person re-identification. Existing approaches follow a fully supervised setting where both bounding box and identity annotations are available. However, annotating identities is labor-intensive, limiting the practicability and scalability of current frameworks. This paper inventively considers weakly supervised person search with only bounding box annotations. We proposed to address this novel task by investigating three levels of context clues (i.e., detection, memory and scene) in unconstrained natural images. The first two are employed to promote local and global discriminative capabilities, while the latter enhances clustering accuracy. Despite its simple design, our CGPS achieves 80.0% in mAP on CUHK-SYSU, boosting the baseline model by 8.8%. Surprisingly, it even achieves comparable performance with several supervised person search models. Our code is available at https://github.com/ljpadam/CGPS