CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning
最近、大規模な事前トレーニング済みの言語モデルが、いくつかの常識的な推論のベンチマークデータセットで印象的なパフォーマンスを示しました。ただし、現実的にもっともらしい文章を作成するための常識を備えたマシンを構築することは、依然として困難です。このホワイトペーパーでは、ベンチマークデータセットに関連付けられた制約付きテキスト生成タスクCommonGenを提示して、生成的な常識推論の能力についてマシンを明示的にテストします。一連の一般的な概念(たとえば、犬、フリスビー、キャッチ、スロー)が与えられます。タスクは、これらの概念を使用して日常のシナリオを説明する一貫した文を生成することです(たとえば、「男性がフリスビーを投げ、犬がそれを捕まえる」)。 CommonGenタスクは、1)背景の常識知識を使用したリレーショナル推論、および2)目に見えない概念の組み合わせに取り組むための構成的一般化能力を本質的に必要とするため、困難です。クラウドソーシングされたキャプションコーパスと既存のキャプションコーパスを組み合わせて構築されたデータセットは、35kのユニークなコンセプトセットを超える79kの常識的な説明で構成されています。実験によると、最先端のテキスト生成モデル(T5など)と人間のパフォーマンスの間には大きなギャップがあります。さらに、学習した生成常識推論機能を転送して、追加のコンテキストを生成することにより、CommonsenseQAなどのダウンストリームタスクを改善できることを示します。
Recently, large-scale pre-trained language models have demonstrated impressive performance on several commonsense-reasoning benchmark datasets. However, building machines with commonsense to compose realistically plausible sentences remains challenging. In this paper, we present a constrained text generation task, CommonGen associated with a benchmark dataset, to explicitly test machines for the ability of generative commonsense reasoning. Given a set of common concepts (e.g., dog, frisbee, catch, throw); the task is to generate a coherent sentence describing an everyday scenario using these concepts (e.g., "a man throws a frisbee and his dog catches it"). The CommonGen task is challenging because it inherently requires 1) relational reasoning with background commonsense knowledge, and 2) compositional generalization ability to work on unseen concept combinations. Our dataset, constructed through a combination of crowdsourced and existing caption corpora, consists of 79k commonsense descriptions over 35k unique concept-sets. Experiments show that there is a large gap between state-of-the-art text generation models (e.g., T5) and human performance. Furthermore, we demonstrate that the learned generative commonsense reasoning capability can be transferred to improve downstream tasks such as CommonsenseQA by generating additional context.
updated: Mon Nov 30 2020 07:53:50 GMT+0000 (UTC)
published: Sat Nov 09 2019 14:53:59 GMT+0000 (UTC)
