PropMix: Hard Sample Filtering and Proportional MixUp for Learning with Noisy Labels
最も競争力のあるノイズの多いラベル学習方法は、クリーンなサンプルとノイズのあるサンプルの教師なし分類に依存しています。ノイズのあるサンプルは、ラベルが付け直され、クリーンなサンプルと「MixMatched」されます。これらの方法には、大きなノイズ率の問題で2つの問題があります。1)ノイズの多いセットには、誤って再ラベル付けされたハードサンプルが含まれる可能性が高くなります。2)MixMatchによって生成されるサンプルの数は、制約があるために減少する傾向があります。小さいクリーンセットサイズで。この論文では、上記の問題を処理するための学習アルゴリズムPropMixを紹介します。 PropMixは、ノイズの多いサンプルをフィルターで除外し、ノイズの多いサンプルを正しく再ラベル付けする可能性を高めます。また、PropMixは、MixUpで拡張されたトレーニングセットにクリーンで再ラベル付けされたイージーノイズサンプルを配置し、クリーンセットサイズの制約を取り除き、正しく再ラベル付けされたイージーノイズサンプルの大部分を含めます。また、ノイズの多いラベルシナリオに対する堅牢性を向上させるために、自己監視型の事前トレーニングも含まれています。私たちの実験は、PropMixがCIFAR-10 / -100(対称、非対称、セマンティックラベルノイズを含む)、Red Mini-ImageNet(Controlled Noisy Web Labelsから)、Clothing1M、およびWebVision。厳しいラベルノイズのベンチマークでは、私たちの結果は他の方法よりも大幅に優れています。コードはで入手できます。
The most competitive noisy label learning methods rely on an unsupervised classification of clean and noisy samples, where samples classified as noisy are re-labelled and "MixMatched" with the clean samples. These methods have two issues in large noise rate problems: 1) the noisy set is more likely to contain hard samples that are in-correctly re-labelled, and 2) the number of samples produced by MixMatch tends to be reduced because it is constrained by the small clean set size. In this paper, we introduce the learning algorithm PropMix to handle the issues above. PropMix filters out hard noisy samples, with the goal of increasing the likelihood of correctly re-labelling the easy noisy samples. Also, PropMix places clean and re-labelled easy noisy samples in a training set that is augmented with MixUp, removing the clean set size constraint and including a large proportion of correctly re-labelled easy noisy samples. We also include self-supervised pre-training to improve robustness to high noisy label scenarios. Our experiments show that PropMix has state-of-the-art (SOTA) results on CIFAR-10/-100(with symmetric, asymmetric and semantic label noise), Red Mini-ImageNet (from the Controlled Noisy Web Labels), Clothing1M and WebVision. In severe label noise bench-marks, our results are substantially better than other methods. The code is available at
