The Benchmark Lottery
経験的機械学習(ML)の世界は、さまざまなアルゴリズムと方法の相対的な有効性を判断するために、ベンチマークに強く依存しています。このホワイトペーパーでは、MLベンチマークプロセスの全体的な脆弱性を説明する「ベンチマーク宝くじ」の概念を提案します。ベンチマーク宝くじは、基本的なアルゴリズムの優位性以外の多くの要因が、メソッドが優れていると認識されることにつながる可能性があると仮定しています。 MLコミュニティで普及している複数のベンチマーク設定で、アルゴリズムの相対的なパフォーマンスは、さまざまなベンチマークタスクを選択するだけで大幅に変更される可能性があることを示し、現在のパラダイムの脆弱性と、MLメソッドのベンチマークから導き出される潜在的な誤った解釈を強調します。すべてのベンチマークが重要であると認識していることについて述べていることを考えると、これがコミュニティの偏った進歩につながる可能性があると私たちは主張します。観察された現象の影響について説明し、自然言語処理、コンピュータービジョン、情報検索、レコメンダーシステム、強化学習など、複数の機械学習ドメインとコミュニティを使用例として使用して、それらを軽減するための推奨事項を提供します。
The world of empirical machine learning (ML) strongly relies on benchmarks in order to determine the relative effectiveness of different algorithms and methods. This paper proposes the notion of "a benchmark lottery" that describes the overall fragility of the ML benchmarking process. The benchmark lottery postulates that many factors, other than fundamental algorithmic superiority, may lead to a method being perceived as superior. On multiple benchmark setups that are prevalent in the ML community, we show that the relative performance of algorithms may be altered significantly simply by choosing different benchmark tasks, highlighting the fragility of the current paradigms and potential fallacious interpretation derived from benchmarking ML methods. Given that every benchmark makes a statement about what it perceives to be important, we argue that this might lead to biased progress in the community. We discuss the implications of the observed phenomena and provide recommendations on mitigating them using multiple machine learning domains and communities as use cases, including natural language processing, computer vision, information retrieval, recommender systems, and reinforcement learning.
