既存の公人の再識別〜(ReID)データセットは、ラベル付けが難しいため、現代的には小さいです。ラベルのない監視ビデオは豊富で比較的簡単に入手できますが、これらの映像を活用して意味のあるReID表現を学習する方法は不明です。特に、ほとんどの既存の教師なしおよびドメイン適応ReIDメソッドは、ラベルが削除された状態で、実験で公開データセットのみを利用します。さらに、データサイズが小さいため、これらの方法は通常、テストドメイン内のラベルのないトレーニングデータによる微調整に依存して、良好なパフォーマンスを実現します。対照学習を使用した大規模な自己教師あり画像分類の最近の進歩に触発されて、大規模なラベルなし監視ビデオのみからReID表現を学習することを提案します。既製の歩行者検出ツールの支援を受けて、画像レベルとトラックレットレベルの両方で対照的な損失を適用します。自由に利用できるカメララベルを使用した主成分分析ステップとともに、大規模なラベルなしデータセットを使用した評価は、テストドメインでトレーニングデータを使用しない教師なしメソッドの中ではるかに優れたパフォーマンスを示しています。さらに、精度はデータサイズとともに向上するため、私たちの方法は、さらに大きく、より多様化したデータセットで大きな可能性を秘めています。
Existing public person Re-Identification~(ReID) datasets are small in modern terms because of labeling difficulty. Although unlabeled surveillance video is abundant and relatively easy to obtain, it is unclear how to leverage these footage to learn meaningful ReID representations. In particular, most existing unsupervised and domain adaptation ReID methods utilize only the public datasets in their experiments, with labels removed. In addition, due to small data sizes, these methods usually rely on fine tuning by the unlabeled training data in the testing domain to achieve good performance. Inspired by the recent progress of large-scale self-supervised image classification using contrastive learning, we propose to learn ReID representation from large-scale unlabeled surveillance video alone. Assisted by off-the-shelf pedestrian detection tools, we apply the contrastive loss at both the image and the tracklet levels. Together with a principal component analysis step using camera labels freely available, our evaluation using a large-scale unlabeled dataset shows far superior performance among unsupervised methods that do not use any training data in the testing domain. Furthermore, the accuracy improves with the data size and therefore our method has great potential with even larger and more diversified datasets.