視覚世界のロングテール分布は、クラスの不均衡問題を処理する方法に関するディープラーニングベースの分類モデルにとって大きな課題となります。既存のソリューションには、通常、損失の再重み付け、データの再サンプリング、またはヘッドクラスからテールクラスへの学習の転送によるクラスバランシング戦略が含まれますが、それらのほとんどは、表現と分類子を共同で学習するスキームに準拠しています。この作業では、学習手順を表現学習と分類に分離し、さまざまなバランシング戦略がロングテール認識のためにそれらにどのように影響するかを体系的に調査します。調査結果は驚くべきものです。(1)データの不均衡は、高品質の表現を学習する際の問題ではないかもしれません。 (2)最も単純なインスタンスバランス(自然)サンプリングで学習した表現では、分類器のみを調整することにより、強力なロングテール認識能力を実現することもできます。 ImageNet-LT、Places-LT、iNaturalistなどの一般的なロングテールベンチマークで広範な実験を実施し、最新のパフォーマンスを設定します。慎重に設計された損失、サンプリング戦略、さらには複雑なモジュールよりも優れた性能を発揮できることを示しています。メモリ。表現と分類を分離する簡単なアプローチを使用します。コードはhttps://github.com/facebookresearch/classifier-balancingで入手できます。
The long-tail distribution of the visual world poses great challenges for deep learning based classification models on how to handle the class imbalance problem. Existing solutions usually involve class-balancing strategies, e.g., by loss re-weighting, data re-sampling, or transfer learning from head- to tail-classes, but most of them adhere to the scheme of jointly learning representations and classifiers. In this work, we decouple the learning procedure into representation learning and classification, and systematically explore how different balancing strategies affect them for long-tailed recognition. The findings are surprising: (1) data imbalance might not be an issue in learning high-quality representations; (2) with representations learned with the simplest instance-balanced (natural) sampling, it is also possible to achieve strong long-tailed recognition ability by adjusting only the classifier. We conduct extensive experiments and set new state-of-the-art performance on common long-tailed benchmarks like ImageNet-LT, Places-LT and iNaturalist, showing that it is possible to outperform carefully designed losses, sampling strategies, even complex modules with memory, by using a straightforward approach that decouples representation and classification. Our code is available at https://github.com/facebookresearch/classifier-balancing.