arXiv reaDer
NLP におけるベンチマークの品質に関連するパラメーターの調査
A Survey of Parameters Associated with the Quality of Benchmarks in NLP
NLP の進歩を追跡するために、リソースに多額の投資を行っていくつかのベンチマークが構築されています。これらのベンチマークに対応して発行された何千もの論文がトップ リーダーボードを競い合い、モデルはしばしば人間のパフォーマンスを上回りました。しかし、最近の研究によると、モデルは、目的のタスクを真に学習することなく、誤ったバイアスに過剰適合するだけで、いくつかの一般的なベンチマークよりも優れていることが示されています。この発見にもかかわらず、バイアスに対処しようとする一方で、ベンチマークは依然として回避策に依存しています。これは、低品質のデータを破棄し、限られた一連のバイアスをカバーするため、ベンチマークの作成に投資されたリソースを十分に活用していません.これらの問題に対する潜在的な解決策 (品質を定量化する指標) は、未開拓のままです。電力、食品、水などのいくつかの分野で成功を収めている品質指標に着想を得て、ベンチマークのバイアスにつながる可能性のあるさまざまな相互作用を表すことができる特定の言語特性を特定することにより、指標に向けた第一歩を踏み出しました。指標への道を開くのに役立つ可能性のあるバイアス関連のパラメーターを探します。既存の作品を調査し、バイアスのさまざまな特性、その起源、タイプ、およびパフォーマンスへの影響、一般化、および堅牢性をキャプチャするパラメーターを特定します。私たちの分析は、データセットと、NLI から要約に至るまでのタスクの階層にまたがり、パラメーターが一般的であり、特定のタスクやデータセットに過度に適合していないことを確認します。また、このプロセスで特定のパラメーターを開発します。
Several benchmarks have been built with heavy investment in resources to track our progress in NLP. Thousands of papers published in response to those benchmarks have competed to top leaderboards, with models often surpassing human performance. However, recent studies have shown that models triumph over several popular benchmarks just by overfitting on spurious biases, without truly learning the desired task. Despite this finding, benchmarking, while trying to tackle bias, still relies on workarounds, which do not fully utilize the resources invested in benchmark creation, due to the discarding of low quality data, and cover limited sets of bias. A potential solution to these issues -- a metric quantifying quality -- remains underexplored. Inspired by successful quality indices in several domains such as power, food, and water, we take the first step towards a metric by identifying certain language properties that can represent various possible interactions leading to biases in a benchmark. We look for bias related parameters which can potentially help pave our way towards the metric. We survey existing works and identify parameters capturing various properties of bias, their origins, types and impact on performance, generalization, and robustness. Our analysis spans over datasets and a hierarchy of tasks ranging from NLI to Summarization, ensuring that our parameters are generic and are not overfitted towards a specific task or dataset. We also develop certain parameters in this process.
updated: Fri Oct 14 2022 06:44:14 GMT+0000 (UTC)
published: Fri Oct 14 2022 06:44:14 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト