モデルの微調整は、個人の再識別(ReID)アプリケーションで広く使用されている転移学習アプローチであり、モデルを最初からトレーニングするのではなく、事前にトレーニングされた特徴抽出モデルをターゲットシナリオに微調整します。カメラの視点の違い、照明の変化、オクルージョンなど、ターゲットシナリオ内の大きな変動のため、これは困難です。これらの変動により、ミニバッチトレーニングを使用すると、各ミニバッチの分布とデータセット全体の分布の間にギャップが生じます。本論文では、ミニバッチトレーニングを使用する場合のデータセットのグローバル情報の集約と利用の観点からモデルの微調整を研究します。具体的には、バッチ関連畳み込みセル(BConv-Cell)と呼ばれる新しいネットワーク構造を導入します。これは、データセットのグローバル情報を段階的に収集して潜在状態にし、それを使用して抽出された特徴を修正します。 BConv-Cellsに基づいて、BConv-Cellsと事前トレーニング済みReIDモデルを共同で最適化することにより、モデルの微調整プロセスを容易にするプログレッシブ転送学習(PTL)メソッドをさらに提案しました。経験的実験は、私たちの提案がMSMT17、Market-1501、CUHK03、およびDukeMTMC-reIDデータセットでReIDモデルのパフォーマンスを大幅に改善できることを示しています。さらに、提案を一般的な画像分類タスクに拡張します。いくつかの画像分類ベンチマークデータセットでの実験は、私たちの提案がベースラインモデルのパフォーマンスを大幅に改善できることを示しています。コードはhttps://github.com/ZJULearning/PTLでリリースされています
Model fine-tuning is a widely used transfer learning approach in person Re-identification (ReID) applications, which fine-tuning a pre-trained feature extraction model into the target scenario instead of training a model from scratch. It is challenging due to the significant variations inside the target scenario, e.g., different camera viewpoint, illumination changes, and occlusion. These variations result in a gap between the distribution of each mini-batch and the whole dataset's distribution when using mini-batch training. In this paper, we study model fine-tuning from the perspective of the aggregation and utilization of the global information of the dataset when using mini-batch training. Specifically, we introduce a novel network structure called Batch-related Convolutional Cell (BConv-Cell), which progressively collects the global information of the dataset into a latent state and uses it to rectify the extracted feature. Based on BConv-Cells, we further proposed the Progressive Transfer Learning (PTL) method to facilitate the model fine-tuning process by jointly optimizing the BConv-Cells and the pre-trained ReID model. Empirical experiments show that our proposal can improve the performance of the ReID model greatly on MSMT17, Market-1501, CUHK03 and DukeMTMC-reID datasets. Moreover, we extend our proposal to the general image classification task. The experiments in several image classification benchmark datasets demonstrate that our proposal can significantly improve the performance of baseline models. The code has been released at https://github.com/ZJULearning/PTL