ディープラーニングは、大量のビッグデータの助けを借りて、多くのドメインで目覚ましい成功を収めています。ただし、実際の多くのシナリオでは高品質のラベルがないため、データラベルの品質が問題になります。ノイズの多いラベルはディープニューラルネットワークの一般化パフォーマンスを大幅に低下させるため、ノイズの多いラベルからの学習(ロバストトレーニング)は、現代のディープラーニングアプリケーションで重要なタスクになりつつあります。この調査では、まず、教師あり学習の観点から、ラベルノイズを使用した学習の問題について説明します。次に、62の最先端の堅牢なトレーニング方法の包括的なレビューを提供します。これらはすべて、方法論の違いに応じて5つのグループに分類され、その後、優位性を評価するために使用される6つのプロパティを体系的に比較します。続いて、ノイズレート推定の詳細な分析を実行し、一般に使用される評価方法を要約します。これには、パブリックノイズデータセットや評価メトリックが含まれます。最後に、将来の研究のガイドラインとして役立ついくつかの有望な研究の方向性を提示します。すべてのコンテンツはhttps://github.com/songhwanjun/Awesome-Noisy-Labelsで入手できます。
Deep learning has achieved remarkable success in numerous domains with help from large amounts of big data. However, the quality of data labels is a concern because of the lack of high-quality labels in many real-world scenarios. As noisy labels severely degrade the generalization performance of deep neural networks, learning from noisy labels (robust training) is becoming an important task in modern deep learning applications. In this survey, we first describe the problem of learning with label noise from a supervised learning perspective. Next, we provide a comprehensive review of 62 state-of-the-art robust training methods, all of which are categorized into five groups according to their methodological difference, followed by a systematic comparison of six properties used to evaluate their superiority. Subsequently, we perform an in-depth analysis of noise rate estimation and summarize the typically used evaluation methodology, including public noisy datasets and evaluation metrics. Finally, we present several promising research directions that can serve as a guideline for future studies. All the contents will be available at https://github.com/songhwanjun/Awesome-Noisy-Labels.