主なシーケンス伝達モデルは、エンコーダ-デコーダ構成の複雑な再帰ニューラルネットワークまたは畳み込みニューラルネットワークに基づいている。最良の性能を持つモデルは、アテンション機構を介してエンコーダとデコーダを接続している。我々は、アテンション機構のみに基づいた新しいシンプルなネットワークアーキテクチャであるトランスフォーマーを提案し、再帰と畳み込みを完全に排除する。2つの機械翻訳タスクでの実験では、これらのモデルが優れた品質を持ちながら、より並列化が可能で、訓練に要する時間が大幅に短縮されていることを示している。我々のモデルは、WMT 2014 English-to-German翻訳タスクで28.4BLEUを達成し、アンサンブルを含む既存の最良の結果を2BLEU以上改善した。WMT 2014英語-フランス語翻訳タスクにおいて、我々のモデルは、8つのGPUで3.5日間のトレーニングを行った後、41.8という単一モデルの最新のBLEUスコアを新たに確立し、これは文献からの最良モデルのトレーニングコストに比べればごくわずかである。大規模で限られたトレーニングデータを用いて英語の選挙区の構文解析に適用することで、トランスフォーマーが他のタスクにも十分に一般化することを示す。
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.