この論文は、ノイズの多いラベルを使用した個人の再識別(Re-ID)の事前トレーニングの問題に対処することを目的としています。事前トレーニングタスクを設定するために、既存のラベルなしRe-IDデータセット「LUPerson」の生のビデオに簡単なオンラインマルチオブジェクト追跡システムを適用し、「LUPerson-NL」と呼ばれるノイズの多いラベル付きバリアントを構築します。トラックレットから自動的に導出されるこれらのIDラベルには必然的にノイズが含まれるため、教師ありRe-ID学習、プロトタイプベースの対比学習、およびラベルの3つの学習モジュールで構成されるNoisy Labels(PNL)を利用した大規模な事前トレーニングフレームワークを開発します。 -ガイド付き対照学習。原則として、これら3つのモジュールの共同学習は、1つのプロトタイプに類似した例をクラスター化するだけでなく、プロトタイプの割り当てに基づいてノイズの多いラベルを修正します。生のビデオから直接学習することは、弱い監視として空間的および時間的相関を利用する事前トレーニングの有望な代替手段であることを示しています。この単純な事前トレーニングタスクは、ベルやホイッスルなしで「LUPerson-NL」でSOTARe-ID表現を最初から学習するスケーラブルな方法を提供します。たとえば、同じ教師ありRe-IDメソッドMGNを適用することにより、事前トレーニング済みモデルは、教師なし事前トレーニングの対応するモデルよりも、CUHK03、DukeMTMC、およびMSMT17でそれぞれ5.7%、2.2%、2.3%mAPを改善します。小規模または数ショットの設定では、パフォーマンスの向上はさらに重要であり、学習した表現の転送性が向上していることを示しています。コードはhttps://github.com/DengpanFu/LUPerson-NLで入手できます
This paper aims to address the problem of pre-training for person re-identification (Re-ID) with noisy labels. To setup the pre-training task, we apply a simple online multi-object tracking system on raw videos of an existing unlabeled Re-ID dataset "LUPerson" nd build the Noisy Labeled variant called "LUPerson-NL". Since theses ID labels automatically derived from tracklets inevitably contain noises, we develop a large-scale Pre-training framework utilizing Noisy Labels (PNL), which consists of three learning modules: supervised Re-ID learning, prototype-based contrastive learning, and label-guided contrastive learning. In principle, joint learning of these three modules not only clusters similar examples to one prototype, but also rectifies noisy labels based on the prototype assignment. We demonstrate that learning directly from raw videos is a promising alternative for pre-training, which utilizes spatial and temporal correlations as weak supervision. This simple pre-training task provides a scalable way to learn SOTA Re-ID representations from scratch on "LUPerson-NL" without bells and whistles. For example, by applying on the same supervised Re-ID method MGN, our pre-trained model improves the mAP over the unsupervised pre-training counterpart by 5.7%, 2.2%, 2.3% on CUHK03, DukeMTMC, and MSMT17 respectively. Under the small-scale or few-shot setting, the performance gain is even more significant, suggesting a better transferability of the learned representation. Code is available at https://github.com/DengpanFu/LUPerson-NL