arXiv reaDer
RoBERTa: A Robustly Optimized BERT Pretraining Approach
言語モデルの事前トレーニングにより、パフォーマンスが大幅に向上しましたが、異なるアプローチを慎重に比較することは困難です。トレーニングは計算コストが高く、多くの場合、さまざまなサイズのプライベートデータセットで行われます。また、後で示すように、ハイパーパラメーターの選択は最終結果に大きな影響を与えます。多くの主要なハイパーパラメーターとトレーニングデータサイズの影響を慎重に測定するBERT事前トレーニングのレプリケーション研究(Devlin et al。、2019)を紹介します。 BERTのトレーニングが大幅に不足しており、それ以降に公開されたすべてのモデルのパフォーマンスに匹敵するか、それを超えることがあります。私たちの最高のモデルは、GLUE、RACE、SQuADで最先端の結果を達成します。これらの結果は、これまで見過ごされていた設計選択の重要性を強調し、最近報告された改善の原因について疑問を提起します。モデルとコードをリリースします。
Language model pretraining has led to significant performance gains but careful comparison between different approaches is challenging. Training is computationally expensive, often done on private datasets of different sizes, and, as we will show, hyperparameter choices have significant impact on the final results. We present a replication study of BERT pretraining (Devlin et al., 2019) that carefully measures the impact of many key hyperparameters and training data size. We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it. Our best model achieves state-of-the-art results on GLUE, RACE and SQuAD. These results highlight the importance of previously overlooked design choices, and raise questions about the source of recently reported improvements. We release our models and code.
updated: Fri Jul 26 2019 17:48:29 GMT+0000 (UTC)
published: Fri Jul 26 2019 17:48:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト