arXiv reaDer
ロングテール視覚認識のためのラベル分布のもつれを解く
Disentangling Label Distribution for Long-tailed Visual Recognition
ロングテール視覚認識の現在の評価プロトコルは、ロングテールソースラベル分布で分類モデルをトレーニングし、均一なターゲットラベル分布でのパフォーマンスを評価します。このようなプロトコルは、ターゲットもロングテールである可能性があるため、実用性に疑問があります。したがって、ターゲットとソースのラベル分布が異なるラベルシフト問題として、ロングテールの視覚認識を定式化します。ラベルシフトの問題に対処する際の重要なハードルの1つは、ソースラベルの分布とモデル予測の間の絡み合いです。この論文では、モデル予測からソースラベルの分布を解きほぐすことに焦点を当てます。最初に、クロスエントロピー損失とSoftmax関数によってトレーニングされたモデル予測を後処理することにより、ターゲットラベル分布に一致する単純だが見過ごされているベースライン方法を紹介します。この方法は、ベンチマークデータセットの最先端の方法を上回っていますが、トレーニングフェーズでモデル予測からソースラベルの分布を直接解くことにより、さらに改善することができます。したがって、我々は、ドンスカー-バラダン表現の最適な限界に基づいて、新しい方法であるLABel分布DisEntangling(LADE)損失を提案します。 LADEは、CIFAR-100-LT、Places-LT、ImageNet-LT、iNaturalist 2018などのベンチマークデータセットで最先端のパフォーマンスを実現します。さらに、LADEは、さまざまなシフトされたターゲットラベル分布で既存の方法よりも優れており、一般的な適応性を示しています。私たちの提案した方法の。
The current evaluation protocol of long-tailed visual recognition trains the classification model on the long-tailed source label distribution and evaluates its performance on the uniform target label distribution. Such protocol has questionable practicality since the target may also be long-tailed. Therefore, we formulate long-tailed visual recognition as a label shift problem where the target and source label distributions are different. One of the significant hurdles in dealing with the label shift problem is the entanglement between the source label distribution and the model prediction. In this paper, we focus on disentangling the source label distribution from the model prediction. We first introduce a simple but overlooked baseline method that matches the target label distribution by post-processing the model prediction trained by the cross-entropy loss and the Softmax function. Although this method surpasses state-of-the-art methods on benchmark datasets, it can be further improved by directly disentangling the source label distribution from the model prediction in the training phase. Thus, we propose a novel method, LAbel distribution DisEntangling (LADE) loss based on the optimal bound of Donsker-Varadhan representation. LADE achieves state-of-the-art performance on benchmark datasets such as CIFAR-100-LT, Places-LT, ImageNet-LT, and iNaturalist 2018. Moreover, LADE outperforms existing methods on various shifted target label distributions, showing the general adaptability of our proposed method.
updated: Sat Mar 20 2021 15:22:19 GMT+0000 (UTC)
published: Tue Dec 01 2020 07:56:53 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト