最近、人間が注釈を付けたIDを破棄し、バウンディングボックスの注釈のみを使用してモデルをトレーニングするために、弱く監視された人物検索が提案されています。この問題を解決する自然な方法は、問題を検出と教師なし再識別(Re-ID)のステップに分けることです。ただし、このように、制約のないシーン画像の2つの重要な手がかりは無視されます。一方では、既存の教師なしRe-IDモデルは、シーン画像からトリミングされた画像のみを活用し、その豊富なコンテキスト情報を無視します。一方、実世界のシーン画像には対になっていない人物が多数います。それらを独立したIDとして直接扱うと、ロングテール効果が発生しますが、完全に破棄すると、重大な情報損失が発生する可能性があります。これらの課題に照らして、コンテキストガイドおよびペアなし支援(CGUA)の弱く監視された人物検索フレームワークを紹介します。具体的には、クラスタリングプロセスでコンテキスト情報を活用する新しいコンテキストガイドクラスター(CGC)アルゴリズムと、ペアになっていない人とペアになっている人を押しのけることで区別するUnpaired-Assisted Memory(UAM)ユニットを提案します。広範な実験は、提案されたアプローチが、最先端の弱く監視された方法を大幅に上回ることができることを示しています(CUHK-SYSUで5%以上のmAP)。さらに、私たちの方法は、より多様なラベルのないデータを活用することにより、最先端の監視された方法と同等またはそれ以上のパフォーマンスを実現します。コードとモデルはまもなくリリースされます。
Recently, weakly supervised person search is proposed to discard human-annotated identities and train the model with only bounding box annotations. A natural way to solve this problem is to separate it into detection and unsupervised re-identification (Re-ID) steps. However, in this way, two important clues in unconstrained scene images are ignored. On the one hand, existing unsupervised Re-ID models only leverage cropped images from scene images but ignore its rich context information. On the other hand, there are numerous unpaired persons in real-world scene images. Directly dealing with them as independent identities leads to the long-tail effect, while completely discarding them can result in serious information loss. In light of these challenges, we introduce a Context-Guided and Unpaired-Assisted (CGUA) weakly supervised person search framework. Specifically, we propose a novel Context-Guided Cluster (CGC) algorithm to leverage context information in the clustering process and an Unpaired-Assisted Memory (UAM) unit to distinguish unpaired and paired persons by pushing them away. Extensive experiments demonstrate that the proposed approach can surpass the state-of-the-art weakly supervised methods by a large margin (more than 5% mAP on CUHK-SYSU). Moreover, our method achieves comparable or better performance to the state-of-the-art supervised methods by leveraging more diverse unlabeled data. Codes and models will be released soon.