双方向コンテキストのモデリング機能により、BERTのような自動エンコードベースの事前トレーニングをノイズ除去すると、自己回帰言語モデリングに基づく事前トレーニングアプローチよりも優れたパフォーマンスが得られます。ただし、マスクを使用して入力を破損することに依存しているため、BERTはマスクされた位置間の依存関係を無視し、事前調整と微調整の不一致に悩まされます。これらの長所と短所に照らして、(1)分解順序のすべての順列に対する予想尤度を最大化することで双方向コンテキストの学習を可能にし、(2)自己回帰のおかげでBERTの制限を克服する、一般化された自己回帰事前トレーニング方法であるXLNetを提案します処方。さらに、XLNetは、最新の自己回帰モデルであるTransformer-XLのアイデアを事前トレーニングに統合します。経験的に、比較可能な実験設定では、XLNetは20のタスクでBERTよりも優れており、多くの場合、質問への回答、自然言語の推論、センチメント分析、ドキュメントのランキングなど、かなりのマージンがあります。
With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with masks, BERT neglects dependency between the masked positions and suffers from a pretrain-finetune discrepancy. In light of these pros and cons, we propose XLNet, a generalized autoregressive pretraining method that (1) enables learning bidirectional contexts by maximizing the expected likelihood over all permutations of the factorization order and (2) overcomes the limitations of BERT thanks to its autoregressive formulation. Furthermore, XLNet integrates ideas from Transformer-XL, the state-of-the-art autoregressive model, into pretraining. Empirically, under comparable experiment settings, XLNet outperforms BERT on 20 tasks, often by a large margin, including question answering, natural language inference, sentiment analysis, and document ranking.