大規模な実世界のデータセットの急速な増加に伴い、長いデータ分布の問題に対処することが重要になります(つまり、少数のクラスがほとんどのデータを占めている一方で、ほとんどのクラスは過小評価されています)。既存のソリューションでは、通常、各クラスの観測数に基づいて再サンプリングや再重み付けなどのクラスの再バランス戦略を採用しています。この作業では、サンプルの数が増えると、新しく追加されたデータポイントの追加の利点が減少すると主張します。各サンプルに単一ポイントではなく小さな隣接領域を関連付けることにより、データの重複を測定するための新しい理論的枠組みを紹介します。有効なサンプル数はサンプルの量として定義され、単純な式(1-β^ n)/(1-β)で計算できます。ここで、nはサンプル数、βε[0,1)はハイパーパラメーター。各クラスの有効なサンプル数を使用して損失のバランスを再調整し、それによってクラスのバランスのとれた損失を生成する再重み付けスキームを設計します。人為的に誘発されたロングテールCIFARデータセットと、ImageNetやiNaturalistを含む大規模データセットで包括的な実験が行われます。私たちの結果は、提案されたクラスバランスのとれた損失で訓練されたとき、ネットワークがロングテールのデータセットで顕著なパフォーマンスの向上を達成できることを示しています。
With the rapid increase of large-scale, real-world datasets, it becomes critical to address the problem of long-tailed data distribution (i.e., a few classes account for most of the data, while most classes are under-represented). Existing solutions typically adopt class re-balancing strategies such as re-sampling and re-weighting based on the number of observations for each class. In this work, we argue that as the number of samples increases, the additional benefit of a newly added data point will diminish. We introduce a novel theoretical framework to measure data overlap by associating with each sample a small neighboring region rather than a single point. The effective number of samples is defined as the volume of samples and can be calculated by a simple formula (1-β^n)/(1-β), where n is the number of samples and β∈[0,1) is a hyperparameter. We design a re-weighting scheme that uses the effective number of samples for each class to re-balance the loss, thereby yielding a class-balanced loss. Comprehensive experiments are conducted on artificially induced long-tailed CIFAR datasets and large-scale datasets including ImageNet and iNaturalist. Our results show that when trained with the proposed class-balanced loss, the network is able to achieve significant performance gains on long-tailed datasets.