このペーパーでは、クラスの増分学習でVision Transformers(ViT)を使用して学習します。驚くべきことに、畳み込みニューラルネットワーク(CNN)を置き換えるためのViTのナイーブなアプリケーションは、パフォーマンスの低下をもたらします。私たちの分析は、ViTを素朴に使用することの3つの問題を明らかにしています:(a)クラス番号が小さいときにViTの収束が非常に遅い、(b)CNNベースのモデルよりもViTで新しいクラスへのバイアスが観察される、(c)適切な学習率ViTの値が低すぎて、適切な分類器を学習できません。この分析に基づいて、これらの問題は、畳み込みステムの使用、バイアスを修正するためのバランスのとれた微調整、分類器のより高い学習率など、既存の手法を使用して簡単に対処できることを示します。 ViTIL(ViT for Incremental Learning)という名前のシンプルなソリューションは、3つのクラスのインクリメンタル学習セットアップすべての新しい最先端を明確なマージンで実現し、研究コミュニティに強力なベースラインを提供します。たとえば、ImageNet-1000では、ViTILは5つの増分ステップ(それぞれ100の新しいクラス)で500の初期クラスのプロトコルに対して69.20%のトップ1精度を達成し、LUCIR + DDEを1.69%上回っています。 10インクリメンタルステップ(100の新しいクラス)のより挑戦的なプロトコルの場合、私たちのメソッドはPODNetを7.27%(65.13%対57.86%)上回っています。
This paper studies using Vision Transformers (ViT) in class incremental learning. Surprisingly, naive application of ViT to replace convolutional neural networks (CNNs) results in performance degradation. Our analysis reveals three issues of naively using ViT: (a) ViT has very slow convergence when class number is small, (b) more bias towards new classes is observed in ViT than CNN-based models, and (c) the proper learning rate of ViT is too low to learn a good classifier. Base on this analysis, we show these issues can be simply addressed by using existing techniques: using convolutional stem, balanced finetuning to correct bias, and higher learning rate for the classifier. Our simple solution, named ViTIL (ViT for Incremental Learning), achieves the new state-of-the-art for all three class incremental learning setups by a clear margin, providing a strong baseline for the research community. For instance, on ImageNet-1000, our ViTIL achieves 69.20% top-1 accuracy for the protocol of 500 initial classes with 5 incremental steps (100 new classes for each), outperforming LUCIR+DDE by 1.69%. For more challenging protocol of 10 incremental steps (100 new classes), our method outperforms PODNet by 7.27% (65.13% vs. 57.86%).