教師なし学習テクノロジーは、一般オブジェクト分類(GOC)および個人の再識別(re-ID)において、教師あり学習テクノロジーに追いついているか、それを上回っています。ただし、教師なし視覚分類(FGVC)の学習は、GOCや人物の再IDよりも難しいことがわかります。 FGVCの教師なし学習と教師あり学習の間のギャップを埋めるために、教師ありと教師なしFGVCの間のパフォーマンスギャップの本質的な要因(特徴抽出、クラスタリング、対照学習など)を調査します。さらに、ギャップを緩和するために、UFCLと呼ばれるシンプルで効果的かつ実用的な方法を提案します。 3つの重要な問題が懸念され、改善されています。まず、堅牢で強力なバックボーンであるResNet50-IBNを導入します。これは、ImageNetの事前トレーニング済みモデルをFGVCタスクに転送するときにドメイン適応機能を備えています。次に、クラスタリングを行うためにDBSCANの代わりにHDBSCANを導入することを提案します。これにより、より少ないハイパーパラメーターで隣接するカテゴリーに対してより良いクラスターを生成できます。最後に、重み付き特徴エージェントとその更新メカニズムを提案し、不可避のノイズを伴う疑似ラベルを使用して対照的な学習を行います。これにより、ネットワークのパラメーターを学習する最適化プロセスを改善できます。 UFCLの有効性は、CUB-200-2011、Oxford-Flowers、Oxford-Pets、Stanford-Dogs、Stanford-Cars、およびFGVC-Aircraftのデータセットで検証されています。教師なしFGVC設定の下で、最先端の結果を達成し、重要な要素と重要なパラメーターを分析して、実用的なガイダンスを提供します。
Unsupervised learning technology has caught up with or even surpassed supervised learning technology in general object classification (GOC) and person re-identification (re-ID). However, it is found that the unsupervised learning of fine-grained visual classification (FGVC) is more challenging than GOC and person re-ID. In order to bridge the gap between unsupervised and supervised learning for FGVC, we investigate the essential factors (including feature extraction, clustering, and contrastive learning) for the performance gap between supervised and unsupervised FGVC. Furthermore, we propose a simple, effective, and practical method, termed as UFCL, to alleviate the gap. Three key issues are concerned and improved: First, we introduce a robust and powerful backbone, ResNet50-IBN, which has an ability of domain adaptation when we transfer ImageNet pre-trained models to FGVC tasks. Next, we propose to introduce HDBSCAN instead of DBSCAN to do clustering, which can generate better clusters for adjacent categories with fewer hyper-parameters. Finally, we propose a weighted feature agent and its updating mechanism to do contrastive learning by using the pseudo labels with inevitable noise, which can improve the optimization process of learning the parameters of the network. The effectiveness of our UFCL is verified on CUB-200-2011, Oxford-Flowers, Oxford-Pets, Stanford-Dogs, Stanford-Cars and FGVC-Aircraft datasets. Under the unsupervised FGVC setting, we achieve state-of-the-art results, and analyze the key factors and the important parameters to provide a practical guidance.