arXiv reaDer
VTBR:人の再識別のためのセマンティックベースの事前トレーニング
VTBR: Semantic-based Pretraining for Person Re-Identification
事前トレーニングは、コンピュータビジョンの主要なパラダイムです。一般に、監視対象のImageNet事前トレーニングは、個人の再識別(Re-ID)モデルのバックボーンを初期化するために一般的に使用されます。ただし、最近の研究では、ImageNetと個人のRe-IDデータ間のドメインギャップが大きいため、ImageNetの事前トレーニングによるRe-IDシステムへの影響は限定的であるという驚くべき結果が示されています。従来の事前トレーニングに代わるものを探すために、個人のRe-IDイベントで初めて多様なFineGPR-Cキャプションデータセットを手動で構築します。これに基づいて、VTBRという名前の純粋なセマンティックベースの事前トレーニングアプローチを提案します。これは、密なキャプションを使用して、より少ない画像で視覚表現を学習します。具体的には、FineGPR-Cデータセットのキャプションで畳み込みネットワークを最初からトレーニングし、それらをダウンストリームのRe-IDタスクに転送します。ベンチマークで実施された包括的な実験は、VTBRがImageNet事前トレーニングと比較して競争力のあるパフォーマンスを達成できることを示しています-使用する画像が最大1.4倍少ないにもかかわらず、Re-ID事前トレーニングの可能性を明らかにしています。
Pretraining is a dominant paradigm in computer vision. Generally, supervised ImageNet pretraining is commonly used to initialize the backbones of person re-identification (Re-ID) models. However, recent works show a surprising result that ImageNet pretraining has limited impacts on Re-ID system due to the large domain gap between ImageNet and person Re-ID data. To seek an alternative to traditional pretraining, we manually construct a diversified FineGPR-C caption dataset for the first time on person Re-ID events. Based on it, we propose a pure semantic-based pretraining approach named VTBR, which uses dense captions to learn visual representations with fewer images. Specifically, we train convolutional networks from scratch on the captions of FineGPR-C dataset, and transfer them to downstream Re-ID tasks. Comprehensive experiments conducted on benchmarks show that our VTBR can achieve competitive performance compared with ImageNet pretraining -- despite using up to 1.4x fewer images, revealing its potential in Re-ID pretraining.
updated: Mon Oct 11 2021 08:19:45 GMT+0000 (UTC)
published: Mon Oct 11 2021 08:19:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト