arXiv reaDer
自然言語の指示:自然言語の指示から新しいタスクへの一般化のベンチマーク
Natural Instructions: Benchmarking Generalization to New Tasks from Natural Language Instructions
NLPモデルが指示プロンプトに適切に応答し、その結果、新しいタスクに一般化できるようにすることはできますか?この質問を研究するために、既存のNLPデータセットとそれらをクラウドソーシングするために使用された命令を活用して、命令とタスク固有の入出力データのデータセットであるNATURALINSTRUCTIONSを作成します。このデータセットは、61の異なる言語命令と約600kのタスクインスタンスで構成され、GPT3の数回のプロンプトとBARTの微調整によって、新しいタスクに対処する際の既存の最先端の言語モデル(LM)を評価するために使用されます。私たちの分析は次のことを示しています。(a)既存のモデルは実際に指示の恩恵を受けており、したがって、新しいタスクへの一般化が改善されていることを示しています。 (b)GPT-3のようなモデルは一般に命令の恩恵を受けますが、それらの利益の程度は命令のさまざまな分野によって異なり、解決されるタスクによっても異なります。 (c)NATURAL INSTRUCTIONSの目に見えないタスクへの一般化は、最先端の技術にとって完璧にはほど遠いままであり、この方向へのさらなる進歩の大きな余地があることを示しています。
Can we enable NLP models to appropriately respond to instructional prompts and consequently generalize to new tasks? To study this question, we leverage the existing NLP datasets and the instructions that were used to crowdsource them to create NATURAL INSTRUCTIONS, a dataset of instructions and task-specific input/output data. This dataset consists of 61 distinct language instructions and about 600k task instances, and is used to evaluate existing state-of-the-art language-models (LMs) in addressing new tasks by few-shot prompting of GPT3 and fine-tuning BART. Our analysis indicates that: (a) the existing models indeed benefit from instructions and hence, show improved generalization to new tasks; (b) while models like GPT-3 generally benefit from instructions, the extent of their gains varies across different fields of instructions and also depends on the task being solved; (c) generalization to unseen tasks in NATURAL INSTRUCTIONS remains far from perfect for the state-of-the-art, indicating significant room for more progress in this direction.
updated: Sun Apr 18 2021 08:44:56 GMT+0000 (UTC)
published: Sun Apr 18 2021 08:44:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト