arXiv reaDer
粗いサンプルから細かいサンプルへの信頼性モデリングによるノイズの多いラベルからの学習
Learning from Noisy Labels with Coarse-to-Fine Sample Credibility Modeling
不正確なラベルは DNN の一般化能力を著しく低下させるため、ノイズの多いラベルを使用したディープ ニューラル ネットワーク (DNN) のトレーニングは実際には困難です。以前の取り組みでは、ノイズの多いラベルからの干渉を軽減するために粗い小さな損失基準でノイズの多いデータを特定することにより、統一されたノイズ除去フローで部分的または完全なデータを処理する傾向があり、ノイズの多いサンプルの困難が異なるという事実を無視して、厳格で統一されたデータ選択パイプラインは、この問題にうまく対処できません。この論文では、ノイズの多いデータを分割統治方式で処理するために、CREMA と呼ばれる粗密ロバスト学習法を最初に提案します。粗いレベルでは、統計的な意味での信頼性の観点から、最初にクリーン セットとノイズ セットが分離されます。ノイズの多いすべてのサンプルを正しく分類することは事実上不可能であるため、各サンプルの信頼性をモデル化することにより、きめ細かい方法でそれらをさらに処理します。具体的には、クリーン セットの場合、メモリベースの変調スキームを意図的に設計して、トレーニング中に各サンプルの貢献度を履歴信頼性シーケンスの観点から動的に調整し、クリーン セットに誤ってグループ化されたノイズの多いサンプルの影響を軽減します。一方、ノイズの多いセットに分類されたサンプルの場合、修正エラーの問題を軽減しながらノイズの多いラベルを修正するために、選択的なラベル更新戦略が提案されています。画像分類 (CIFAR、Clothing1M など) やテキスト認識 (IMDB) などのさまざまなモダリティのベンチマークで広範な実験が行われ、合成または自然なセマンティック ノイズが使用され、CREMA の優位性と一般性が実証されています。
Training deep neural network (DNN) with noisy labels is practically challenging since inaccurate labels severely degrade the generalization ability of DNN. Previous efforts tend to handle part or full data in a unified denoising flow via identifying noisy data with a coarse small-loss criterion to mitigate the interference from noisy labels, ignoring the fact that the difficulties of noisy samples are different, thus a rigid and unified data selection pipeline cannot tackle this problem well. In this paper, we first propose a coarse-to-fine robust learning method called CREMA, to handle noisy data in a divide-and-conquer manner. In coarse-level, clean and noisy sets are firstly separated in terms of credibility in a statistical sense. Since it is practically impossible to categorize all noisy samples correctly, we further process them in a fine-grained manner via modeling the credibility of each sample. Specifically, for the clean set, we deliberately design a memory-based modulation scheme to dynamically adjust the contribution of each sample in terms of its historical credibility sequence during training, thus alleviating the effect from noisy samples incorrectly grouped into the clean set. Meanwhile, for samples categorized into the noisy set, a selective label update strategy is proposed to correct noisy labels while mitigating the problem of correction error. Extensive experiments are conducted on benchmarks of different modalities, including image classification (CIFAR, Clothing1M etc) and text recognition (IMDB), with either synthetic or natural semantic noises, demonstrating the superiority and generality of CREMA.
updated: Tue Aug 23 2022 02:06:38 GMT+0000 (UTC)
published: Tue Aug 23 2022 02:06:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト