大規模コーパスで事前トレーニングされたBERTなどの神経言語表現モデルは、プレーンテキストから豊富なセマンティックパターンを適切にキャプチャし、さまざまなNLPタスクのパフォーマンスを一貫して改善するように微調整できます。ただし、既存の事前学習済み言語モデルでは、知識グラフ(KG)を組み込むことをほとんど考慮していません。知識グラフ(KG)は、言語をよりよく理解するための豊富な構造化知識ファクトを提供できます。 KGの有益なエンティティは、外部の知識で言語表現を強化できると主張しています。このホワイトペーパーでは、大規模なテキストコーパスとKGの両方を使用して、語彙、構文、および知識の情報を同時に最大限に活用できる拡張言語表現モデル(ERNIE)をトレーニングします。実験結果は、ERNIEがさまざまな知識駆動型タスクで大幅な改善を達成し、その間、他の一般的なNLPタスクでの最新モデルのBERTと同等であることを実証しています。このペーパーのソースコードは、https://github.com/thunlp/ERNIEから入手できます。
Neural language representation models such as BERT pre-trained on large-scale corpora can well capture rich semantic patterns from plain text, and be fine-tuned to consistently improve the performance of various NLP tasks. However, the existing pre-trained language models rarely consider incorporating knowledge graphs (KGs), which can provide rich structured knowledge facts for better language understanding. We argue that informative entities in KGs can enhance language representation with external knowledge. In this paper, we utilize both large-scale textual corpora and KGs to train an enhanced language representation model (ERNIE), which can take full advantage of lexical, syntactic, and knowledge information simultaneously. The experimental results have demonstrated that ERNIE achieves significant improvements on various knowledge-driven tasks, and meanwhile is comparable with the state-of-the-art model BERT on other common NLP tasks. The source code of this paper can be obtained from https://github.com/thunlp/ERNIE.