自然言語処理では、ラベル付けされていない大きなコーパスで事前トレーニングされた大規模言語モデルを微調整することで、一般化が大幅に改善されることが最近観察されました。最近の成功と幅広い採用にもかかわらず、ダウンストリームタスクで事前トレーニング済みの大きな言語モデルを微調整すると、使用可能なトレーニングインスタンスが少ない場合にパフォーマンスが低下する傾向があります。この論文では、ドロップアウトに動機付けられた「mixout」と呼ばれる新しい正則化手法を紹介します。 Mixoutは、2つのモデルのパラメーターを確率的に混合します。ミックスアウト手法が学習を正規化し、2つのモデルのいずれかからの偏差を最小化すること、および正規化の強度が最適化軌道に沿って適合することを示します。ダウンストリームタスクで事前トレーニング済みの言語モデルを微調整する際に、提案されたミックスアウトとそのバリエーションを経験的に評価します。具体的には、提案されたアプローチを使用してGLUEのダウンストリームタスクでBERTの微調整を正規化すると、微調整の安定性と平均精度が大幅に向上することを示しています。
In natural language processing, it has been observed recently that generalization could be greatly improved by finetuning a large-scale language model pretrained on a large unlabeled corpus. Despite its recent success and wide adoption, finetuning a large pretrained language model on a downstream task is prone to degenerate performance when there are only a small number of training instances available. In this paper, we introduce a new regularization technique, to which we refer as "mixout", motivated by dropout. Mixout stochastically mixes the parameters of two models. We show that our mixout technique regularizes learning to minimize the deviation from one of the two models and that the strength of regularization adapts along the optimization trajectory. We empirically evaluate the proposed mixout and its variants on finetuning a pretrained language model on downstream tasks. More specifically, we demonstrate that the stability of finetuning and the average accuracy greatly increase when we use the proposed approach to regularize finetuning of BERT on downstream tasks in GLUE.