教師なし事前トレーニングは、ダウンストリームタスクに有益な転送可能な機能を学習することを目的としています。ただし、ほとんどの最先端の教師なし手法は、識別可能なローカル領域表現ではなく、画像レベルの分類タスクのグローバル表現の学習に重点を置いているため、オブジェクト検出などの領域レベルのダウンストリームタスクへの転送が制限されます。事前にトレーニングされた機能のオブジェクト検出への転送可能性を向上させるために、教師なし視覚表現学習のためのシンプルで効果的な方法である、Deeply Unsupervised Patch Re-ID(DUPR)を紹介します。パッチのRe-IDタスクは、個々のパッチを疑似IDとして扱い、2つのビューでその対応を対照的に学習します。これにより、オブジェクト検出のための識別可能なローカル機能を取得できます。次に、提案されたパッチRe-IDは、監視されていない方法で実行され、通常はマルチレベルの機能マップを必要とするオブジェクト検出にアピールします。広範な実験により、DUPRは、オブジェクト検出に関連するさまざまなダウンストリームタスクで、最先端の教師なし事前トレーニングやImageNetの教師あり事前トレーニングよりも優れていることが実証されています。
Unsupervised pre-training aims at learning transferable features that are beneficial for downstream tasks. However, most state-of-the-art unsupervised methods concentrate on learning global representations for image-level classification tasks instead of discriminative local region representations, which limits their transferability to region-level downstream tasks, such as object detection. To improve the transferability of pre-trained features to object detection, we present Deeply Unsupervised Patch Re-ID (DUPR), a simple yet effective method for unsupervised visual representation learning. The patch Re-ID task treats individual patch as a pseudo-identity and contrastively learns its correspondence in two views, enabling us to obtain discriminative local features for object detection. Then the proposed patch Re-ID is performed in a deeply unsupervised manner, appealing to object detection, which usually requires multilevel feature maps. Extensive experiments demonstrate that DUPR outperforms state-of-the-art unsupervised pre-trainings and even the ImageNet supervised pre-training on various downstream tasks related to object detection.