arXiv reaDer
地域シャムネットワークによる弱く監視された人の検索
Weakly Supervised Person Search with Region Siamese Networks
教師あり学習は、個人検索では支配的ですが、境界ボックスとIDの入念なラベル付けが必要です。大規模なラベル付きトレーニングデータは、特に個人のIDの場合、収集が難しいことがよくあります。当然の問題は、アイデンティティの監視を必要とせずに、優れた人物検索モデルをトレーニングできるかどうかです。この論文では、バウンディングボックスの注釈のみが利用可能な弱く監視された設定を提示します。この新しい設定に基づいて、Region Siamese Networks(R-SiamNets)と呼ばれる効果的なベースラインモデルを提供します。 IDラベルがない場合の認識に役立つ表現の学習に向けて、インスタンスレベルの一貫性の喪失とクラスターレベルのコントラストの喪失を伴うR-SiamNetを監督します。インスタンスレベルの一貫性学習の場合、R-SiamNetは、領域外コンテキストの有無にかかわらず、各個人領域から一貫性のある特徴を抽出するように制約されます。クラスターレベルの対照的な学習では、最も近いインスタンスの集約と、機能空間内の異なるインスタンスの分離を強制します。広範な実験により、弱く監視された方法の有用性が検証されます。私たちのモデルは、CUHK-SYSUベンチマークでランク1の87.1%とmAPの86.0%を達成します。これは、OIMやMGTSなどのいくつかの完全に監視された方法を明確に上回っています。追加のトレーニングデータを組み込むことで、より有望なパフォーマンスを実現できます。この研究がこの分野の将来の研究を促進することを願っています。
Supervised learning is dominant in person search, but it requires elaborate labeling of bounding boxes and identities. Large-scale labeled training data is often difficult to collect, especially for person identities. A natural question is whether a good person search model can be trained without the need of identity supervision. In this paper, we present a weakly supervised setting where only bounding box annotations are available. Based on this new setting, we provide an effective baseline model termed Region Siamese Networks (R-SiamNets). Towards learning useful representations for recognition in the absence of identity labels, we supervise the R-SiamNet with instance-level consistency loss and cluster-level contrastive loss. For instance-level consistency learning, the R-SiamNet is constrained to extract consistent features from each person region with or without out-of-region context. For cluster-level contrastive learning, we enforce the aggregation of closest instances and the separation of dissimilar ones in feature space. Extensive experiments validate the utility of our weakly supervised method. Our model achieves the rank-1 of 87.1% and mAP of 86.0% on CUHK-SYSU benchmark, which surpasses several fully supervised methods, such as OIM and MGTS, by a clear margin. More promising performance can be reached by incorporating extra training data. We hope this work could encourage the future research in this field.
updated: Mon Sep 13 2021 16:33:27 GMT+0000 (UTC)
published: Mon Sep 13 2021 16:33:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト