パラメータ効率調整 (PET) メソッドは、自然言語処理 (NLP) タスクのトランスフォーマー アーキテクチャで大きな可能性を示していますが、コンピューター ビジョン (CV) タスクの大規模な ConvNets では、その有効性はまだ十分に研究されていません。この論文では、ConvNets 用に設計された PET モジュールである Conv-Adapter を提案します。 Conv-Adapter は軽量で、ドメイン転送可能で、アーキテクチャにとらわれず、さまざまなタスクで一般化されたパフォーマンスを発揮します。ダウンストリーム タスクに転送する場合、Conv-Adapter は、事前トレーニング済みのパラメーターを固定したまま、バックボーンの中間表現に対するタスク固有の機能変調を学習します。 Conv-Adapter は、ResNet50 のわずか 3.5% の完全な微調整パラメーターなど、ごくわずかな量の学習可能なパラメーターのみを導入することで、以前の PET ベースライン手法よりも優れた性能を発揮し、さまざまなドメインの 23 の分類タスクで完全な微調整のパフォーマンスに匹敵するか、それを上回ります。 .また、少数ショットの分類でも優れたパフォーマンスを発揮し、平均マージンは 3.39% です。分類を超えて、Conv-Adapter は、パラメーターを 50% 以上削減しながら、従来の完全な微調整に匹敵するパフォーマンスで、検出およびセグメンテーション タスクに一般化できます。
While parameter efficient tuning (PET) methods have shown great potential with transformer architecture on Natural Language Processing (NLP) tasks, their effectiveness is still under-studied with large-scale ConvNets on Computer Vision (CV) tasks. This paper proposes Conv-Adapter, a PET module designed for ConvNets. Conv-Adapter is light-weight, domain-transferable, and architecture-agnostic with generalized performance on different tasks. When transferring on downstream tasks, Conv-Adapter learns tasks-specific feature modulation to the intermediate representations of backbone while keeping the pre-trained parameters frozen. By introducing only a tiny amount of learnable parameters, e.g., only 3.5% full fine-tuning parameters of ResNet50, Conv-Adapter outperforms previous PET baseline methods and achieves comparable or surpasses the performance of full fine-tuning on 23 classification tasks of various domains. It also presents superior performance on few-shot classifications, with an average margin of 3.39%. Beyond classification, Conv-Adapter can generalize to detection and segmentation tasks with more than 50% reduction of parameters but comparable performance to the traditional full fine-tuning.