事前トレーニングは、コンピューター ビジョンの主要なパラダイムです。一般に、教師付き ImageNet 事前トレーニングは、個人再識別 (Re-ID) モデルのバックボーンを初期化するためによく使用されます。ただし、最近の研究では、ImageNet と個人の再 ID データとの間のドメインギャップが大きいため、ImageNet での CNN ベースの事前トレーニングが再 ID システムへの影響を制限しているという驚くべき結果が示されています。従来の事前トレーニングに代わるものを探すために、ここではセマンティック ベースの事前トレーニングを、ImageNet 事前トレーニングに対して追加のテキスト データを利用する別の方法として調査します。具体的には、人の再識別イベントで初めて、多様な FineGPR-C キャプション データセットを手動で構築します。それに基づいて、VTBR と呼ばれる純粋なセマンティック ベースの事前トレーニング アプローチが提案され、高密度のキャプションを採用して、より少ない画像で視覚的表現を学習します。 FineGPR-C データセットのキャプションで畳み込みニューラル ネットワークをゼロからトレーニングし、それらを下流の Re-ID タスクに転送します。ベンチマーク データセットで実施された包括的な実験は、VTBR が ImageNet 事前トレーニングと比較して競争力のあるパフォーマンスを達成できることを示しています。
Pretraining is a dominant paradigm in computer vision. Generally, supervised ImageNet pretraining is commonly used to initialize the backbones of person re-identification (Re-ID) models. However, recent works show a surprising result that CNN-based pretraining on ImageNet has limited impacts on Re-ID system due to the large domain gap between ImageNet and person Re-ID data. To seek an alternative to traditional pretraining, here we investigate semantic-based pretraining as another method to utilize additional textual data against ImageNet pretraining. Specifically, we manually construct a diversified FineGPR-C caption dataset for the first time on person Re-ID events. Based on it, a pure semantic-based pretraining approach named VTBR is proposed to adopt dense captions to learn visual representations with fewer images. We train convolutional neural networks from scratch on the captions of FineGPR-C dataset, and then transfer them to downstream Re-ID tasks. Comprehensive experiments conducted on benchmark datasets show that our VTBR can achieve competitive performance compared with ImageNet pretraining - despite using up to 1.4x fewer images, revealing its potential in Re-ID pretraining.