arXiv reaDer
削減、再利用、リサイクル:機械学習研究におけるデータセットの寿命
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
ベンチマークデータセットは、機械学習研究の組織において中心的な役割を果たします。彼らは、共有された研究問題について研究者を調整し、共有された目標に向けた進歩の尺度として機能します。この分野でのベンチマーク手法の基本的な役割にもかかわらず、機械学習サブコミュニティ内またはサブコミュニティ間でのベンチマークデータセットの使用と再利用のダイナミクスには比較的注意が払われていません。このホワイトペーパーでは、これらのダイナミクスについて詳しく説明します。データセットの使用パターンが、機械学習サブコミュニティ間および2015年から2020年までの時間にわたってどのように異なるかを調査します。タスクコミュニティ内のデータセットへの集中がますます少なくなり、他のタスクからのデータセットの大幅な採用、および少数のエリート機関内にいる研究者によって導入されたデータセットへのフィールド全体への集中が見られます。私たちの結果は、科学的評価、AI倫理、およびフィールド内の公平性/アクセスに影響を及ぼします。
Benchmark datasets play a central role in the organization of machine learning research. They coordinate researchers around shared research problems and serve as a measure of progress towards shared goals. Despite the foundational role of benchmarking practices in this field, relatively little attention has been paid to the dynamics of benchmark dataset use and reuse, within or across machine learning subcommunities. In this paper, we dig into these dynamics. We study how dataset usage patterns differ across machine learning subcommunities and across time from 2015-2020. We find increasing concentration on fewer and fewer datasets within task communities, significant adoption of datasets from other tasks, and concentration across the field on datasets that have been introduced by researchers situated within a small number of elite institutions. Our results have implications for scientific evaluation, AI ethics, and equity/access within the field.
updated: Fri Dec 03 2021 05:01:47 GMT+0000 (UTC)
published: Fri Dec 03 2021 05:01:47 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト