言語モデル LM の多用途性の向上により、広範囲の機能を包括的に評価する新しいクラスのベンチマークが誕生しました。このようなベンチマークには、モデルごとに数千 GPU 時間に達する膨大な計算コストが伴います。しかし、これらの評価の取り組みの効率性の側面については、文献ではほとんど議論されていませんでした。この研究では、効率的なベンチマークの問題、つまり信頼性を損なうことなく LM 評価の計算コストをインテリジェントに削減する問題を提示します。 HELM ベンチマークをテスト ケースとして使用して、さまざまなベンチマーク設計の選択が計算と信頼性のトレードオフにどのような影響を与えるかを調査します。私たちは、そのような決定の信頼性を、信頼性に対する決定の影響 (Decision Impact on Reliability DIoR) という新しい尺度を使用して評価することを提案します。たとえば、ベンチマークから低ランクのモデルを削除するだけで HELM の現在のリーダーが変わる可能性があることを発見し、正しいベンチマーク ランキングを取得するには少数の例で十分であることを観察しました。逆に、HELM シナリオの選択がわずかに異なると、ランキングが大きく変わります。私たちの調査結果に基づいて、ベンチマークの信頼性の損失を最小限に抑えながら劇的なコスト削減につながる、より効率的なベンチマーク設計と利用方法に関する一連の具体的な推奨事項を概説します。多くの場合、計算量は 100 倍以上削減されます。
The increasing versatility of language models LMs has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs reaching thousands of GPU hours per model. However the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work we present the problem of Efficient Benchmarking namely intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case we investigate how different benchmark design choices affect the computation-reliability tradeoff. We propose to evaluate the reliability of such decisions by using a new measure Decision Impact on Reliability DIoR for short. We find for example that the current leader on HELM may change by merely removing a low-ranked model from the benchmark and observe that a handful of examples suffice to obtain the correct benchmark ranking. Conversely a slightly different choice of HELM scenarios varies ranking widely. Based on our findings we outline a set of concrete recommendations for more efficient benchmark design and utilization practices leading to dramatic cost savings with minimal loss of benchmark reliability often reducing computation by x100 or more.