arXiv reaDer
Pro-tuning: ビジョン タスクの統合プロンプト チューニング
Pro-tuning: Unified Prompt Tuning for Vision Tasks
コンピューター ビジョンでは、微調整は、事前にトレーニングされたビジョン モデルを活用してダウンストリーム タスクを実行するための事実上のアプローチです。ただし、パラメーターの非効率的なグローバル更新を採用し、高品質のダウンストリーム データに大きく依存しているため、実際に展開することは非常に困難です。最近、タスク関連のプロンプトを追加してダウンストリーム タスクを事前トレーニング済みモデルに適応させるプロンプト ベースの学習により、多くの自然言語ダウンストリーム タスクのパフォーマンスが大幅に向上しました。この作業では、微調整の代わりに、プロンプトからビジョン モデルへの恩恵を受けるこの注目すべき伝達能力を拡張します。この目的のために、凍結されたビジョンモデルをさまざまな下流のビジョンタスクに適応させるために、パラメーター効率の高いプロンプトチューニング (Pro-tuning) を提案します。プロチューニングの鍵は、プロンプトベースのチューニングです。つまり、事前にトレーニングされたモデルが凍結された状態で、ダウンストリームの入力画像に対するタスク固有のビジョン プロンプトを学習します。いくつかの追加パラメータをトレーニングするだけで、さまざまな CNN ベースおよび Transformer ベースのアーキテクチャで機能します。画像分類 (一般的なオブジェクト、クラスの不均衡、画像の破損、敵対的ロバスト性、および分布外の一般化) や密な予測タスクを含む、幅広いビジョン タスクおよびシナリオで、Pro-tuning が微調整よりも優れていることを広範な実験が証明しています。オブジェクト検出やセマンティック セグメンテーションなど。
In computer vision, fine-tuning is the de-facto approach to leverage pre-trained vision models to perform downstream tasks. However, deploying it in practice is quite challenging, due to adopting parameter inefficient global update and heavily relying on high-quality downstream data. Recently, prompt-based learning, which adds a task-relevant prompt to adapt the downstream tasks to pre-trained models, has drastically boosted the performance of many natural language downstream tasks. In this work, we extend this notable transfer ability benefited from prompt into vision models as an alternative to fine-tuning. To this end, we propose parameter-efficient Prompt tuning (Pro-tuning) to adapt frozen vision models to various downstream vision tasks. The key to Pro-tuning is prompt-based tuning, i.e., learning task-specific vision prompts for downstream input images with the pre-trained model frozen. By only training a few additional parameters, it can work on diverse CNN-based and Transformer-based architectures. Extensive experiments evidence that Pro-tuning outperforms fine-tuning in a broad range of vision tasks and scenarios, including image classification (generic objects, class imbalance, image corruption, adversarial robustness, and out-of-distribution generalization), and dense prediction tasks such as object detection and semantic segmentation.
updated: Tue Aug 23 2022 03:39:05 GMT+0000 (UTC)
published: Thu Jul 28 2022 21:09:31 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト