転移学習は、自然言語処理(NLP)研究の状況を根本的に変えました。既存の多くの最新モデルは、最初に大きなテキストコーパスで事前にトレーニングされ、次にダウンストリームタスクで微調整されます。ただし、ダウンストリームタスクのデータリソースが限られているため、事前トレーニングモデルの容量が非常に大きいため、アグレッシブな微調整により、適応モデルがダウンストリームタスクのデータをオーバーフィットし、事前トレーニングモデルの知識が失われることがよくあります。より原則的な方法で上記の問題に対処するために、事前にトレーニングされた言語モデルのロバストで効率的な微調整のための新しい計算フレームワークを提案します。具体的には、提案されているフレームワークには2つの重要な要素が含まれています。1。モデルの能力を効果的に管理する、滑らかさを誘導する正則化。 2.信頼領域法のクラスであり、知識の忘却を防ぐことができるBregman基点最適化。私たちの実験は、提案された方法が複数のNLPベンチマークで最先端のパフォーマンスを達成することを示しています。
Transfer learning has fundamentally changed the landscape of natural language processing (NLP) research. Many existing state-of-the-art models are first pre-trained on a large text corpus and then fine-tuned on downstream tasks. However, due to limited data resources from downstream tasks and the extremely large capacity of pre-trained models, aggressive fine-tuning often causes the adapted model to overfit the data of downstream tasks and forget the knowledge of the pre-trained model. To address the above issue in a more principled manner, we propose a new computational framework for robust and efficient fine-tuning for pre-trained language models. Specifically, our proposed framework contains two important ingredients: 1. Smoothness-inducing regularization, which effectively manages the capacity of the model; 2. Bregman proximal point optimization, which is a class of trust-region methods and can prevent knowledge forgetting. Our experiments demonstrate that our proposed method achieves the state-of-the-art performance on multiple NLP benchmarks.