arXiv reaDer
信頼できる評価システムのためには、サンプルの硬度を定量化する必要があります: 新しいタスクで潜在的な機会を探る
Hardness of Samples Need to be Quantified for a Reliable Evaluation System: Exploring Potential Opportunities with a New Task
ベンチマークでのモデルの評価は、サンプルの硬度を知らなければ信頼できません。これにより、AI システムの能力が過大評価され、現実世界のアプリケーションでの採用が制限されます。ベンチマークの注釈なしの各サンプルに 0 から 1 のスコアを割り当てる必要があるデータ スコアリング タスクを提案します。ここで、0 は簡単を意味し、1 は難しいことを意味します。私たちのタスク設計における注釈なしのサンプルの使用は、正解を知らなくても質問の難易度を判断できる人間から着想を得ています。これにより、モデルベースの監視を含む方法の使用も除外され (訓練を受けるためにサンプルの注釈が必要になるため)、サンプルの難易度を決定する際にモデルに関連する潜在的なバイアスが排除されます。このタスクのために、セマンティック テキストの類似性 (STS) に基づく方法を提案します。既存のモデルは、難しいサンプルチャンクよりも簡単なサンプルチャンクに関してより正確であることを示すことにより、方法を検証します。最後に、5 つの新しいアプリケーションを示します。
Evaluation of models on benchmarks is unreliable without knowing the degree of sample hardness; this subsequently overestimates the capability of AI systems and limits their adoption in real world applications. We propose a Data Scoring task that requires assignment of each unannotated sample in a benchmark a score between 0 to 1, where 0 signifies easy and 1 signifies hard. Use of unannotated samples in our task design is inspired from humans who can determine a question difficulty without knowing its correct answer. This also rules out the use of methods involving model based supervision (since they require sample annotations to get trained), eliminating potential biases associated with models in deciding sample difficulty. We propose a method based on Semantic Textual Similarity (STS) for this task; we validate our method by showing that existing models are more accurate with respect to the easier sample-chunks than with respect to the harder sample-chunks. Finally we demonstrate five novel applications.
updated: Fri Oct 14 2022 08:26:32 GMT+0000 (UTC)
published: Fri Oct 14 2022 08:26:32 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト