ニューラルネットワークの監視付きトレーニングのためにクリーンなラベルで大規模なデータを収集することは、実際には困難です。ノイズの多いラベルは通常、安価に入手できますが、既存の方法はラベルノイズの影響を大きく受けます。このペーパーは、ハイラベルノイズ領域での堅牢なトレーニングの課題を対象としています。この目標を達成するための重要な洞察は、小さな信頼できるセットを賢く活用して、ノイズのあるデータの見本の重みと疑似ラベルを推定し、教師ありトレーニングに再利用することです。ノイズのラベル付けに非常に無防備な方法でディープニューラルネットワークをトレーニングするための全体的なフレームワークを提示します。私たちの方法は、さまざまなタイプのラベルノイズに新しい最先端技術を設定し、実際のラベルノイズを含む大規模なデータセットで優れたパフォーマンスを実現します。たとえば、CIFAR100で40%の均一ノイズ比とクラスごとに信頼できるラベル付きデータが10個しかない場合、このメソッドは80.2±0.3%の分類精度を達成します。ここで、エラー率はラベルノイズなしでトレーニングされたニューラルネットワークよりも1.4%だけ高くなります。さらに、ノイズ比を80%に増やしても、以前の最高の精度48.2%と比較して、このメソッドは75.5±0.2%の高い精度を維持しています。利用可能なソースコード:https://github.com/google-research/google-research/tree/master/ieg
Collecting large-scale data with clean labels for supervised training of neural networks is practically challenging. Although noisy labels are usually cheap to acquire, existing methods suffer a lot from label noise. This paper targets at the challenge of robust training at high label noise regimes. The key insight to achieve this goal is to wisely leverage a small trusted set to estimate exemplar weights and pseudo labels for noisy data in order to reuse them for supervised training. We present a holistic framework to train deep neural networks in a way that is highly invulnerable to label noise. Our method sets the new state of the art on various types of label noise and achieves excellent performance on large-scale datasets with real-world label noise. For instance, on CIFAR100 with a 40% uniform noise ratio and only 10 trusted labeled data per class, our method achieves 80.2±0.3% classification accuracy, where the error rate is only 1.4% higher than a neural network trained without label noise. Moreover, increasing the noise ratio to 80%, our method still maintains a high accuracy of 75.5±0.2%, compared to the previous best accuracy 48.2%. Source code available: https://github.com/google-research/google-research/tree/master/ieg