CIFAR-10およびCIFAR-100データセットは、コンピュータビジョンで最も厳しくベンチマークされたデータセットの2つであり、ディープラーニングの分野で新しい方法とモデルアーキテクチャを評価するためによく使用されます。ただし、これらのデータセットのテストセットからの画像の3.3%と10%は、トレーニングセットに重複があることがわかります。これらの重複は暗記によって容易に認識可能であり、したがって、それらの一般化機能に関して画像認識技術の比較にバイアスをかける可能性があります。このバイアスを排除するために、「公正なCIFAR」(ciFAIR)データセットを提供します。ここでは、テストセットのすべての重複を、同じドメインからサンプリングされた新しい画像に置き換えました。次に、これらの新しいテストセットで人気のある最先端のさまざまなCNNアーキテクチャの分類パフォーマンスを再評価して、抽象的な概念を学習するのではなく、最近の研究がデータの記憶に過剰に適合しているかどうかを調査します。重複のないテストセットの元のパフォーマンスと比較して、分類精度が9%から14%大幅に低下していることがわかります。 ciFAIRデータセットと事前トレーニング済みモデルは、https://cvjena.github.io/cifair/で入手できます。リーダーボードも維持されています。
The CIFAR-10 and CIFAR-100 datasets are two of the most heavily benchmarked datasets in computer vision and are often used to evaluate novel methods and model architectures in the field of deep learning. However, we find that 3.3% and 10% of the images from the test sets of these datasets have duplicates in the training set. These duplicates are easily recognizable by memorization and may, hence, bias the comparison of image recognition techniques regarding their generalization capability. To eliminate this bias, we provide the "fair CIFAR" (ciFAIR) dataset, where we replaced all duplicates in the test sets with new images sampled from the same domain. We then re-evaluate the classification performance of various popular state-of-the-art CNN architectures on these new test sets to investigate whether recent research has overfitted to memorizing data instead of learning abstract concepts. We find a significant drop in classification accuracy of between 9% and 14% relative to the original performance on the duplicate-free test set. The ciFAIR dataset and pre-trained models are available at https://cvjena.github.io/cifair/, where we also maintain a leaderboard.