自然言語表現の最近の開発には、自己管理型の事前トレーニングを通じて膨大な量の一般ドメインテキストを活用する大規模で高価なモデルが伴います。そのようなモデルを下流のタスクに適用するコストのために、事前に訓練された言語表現に対するいくつかのモデル圧縮技術が提案されています(Sun et al。、2019; Sanh、2019)。ただし、驚くべきことに、事前トレーニングと微調整を行ったコンパクトモデルの単純なベースラインが見落とされています。このホワイトペーパーでは、小規模なアーキテクチャのコンテキストでは事前トレーニングが重要であり、事前トレーニング済みのコンパクトモデルの微調整は、並行作業で提案されるより複雑な方法と競合できることを最初に示します。事前に訓練されたコンパクトなモデルから始めて、次に、標準的な知識の蒸留を通じて、大規模な微調整モデルからタスクの知識を転送することを検討します。結果として得られるシンプルでありながら効果的で一般的なアルゴリズムであるPre-trained Distillationは、さらなる改善をもたらします。広範な実験を通して、より一般的には、未学習の2つの変数、モデルサイズとラベルのないタスクデータのプロパティの下で、事前トレーニングと蒸留の相互作用を調べます。驚くべき観察結果の1つは、同じデータに順番に適用しても複合効果があることです。将来の研究を加速するために、事前トレーニング済みの24のミニチュアBERTモデルを一般公開します。
Recent developments in natural language representations have been accompanied by large and expensive models that leverage vast amounts of general-domain text through self-supervised pre-training. Due to the cost of applying such models to down-stream tasks, several model compression techniques on pre-trained language representations have been proposed (Sun et al., 2019; Sanh, 2019). However, surprisingly, the simple baseline of just pre-training and fine-tuning compact models has been overlooked. In this paper, we first show that pre-training remains important in the context of smaller architectures, and fine-tuning pre-trained compact models can be competitive to more elaborate methods proposed in concurrent work. Starting with pre-trained compact models, we then explore transferring task knowledge from large fine-tuned models through standard knowledge distillation. The resulting simple, yet effective and general algorithm, Pre-trained Distillation, brings further improvements. Through extensive experiments, we more generally explore the interaction between pre-training and distillation under two variables that have been under-studied: model size and properties of unlabeled task data. One surprising observation is that they have a compound effect even when sequentially applied on the same data. To accelerate future research, we will make our 24 pre-trained miniature BERT models publicly available.