arXiv reaDer
アクティブラーニングによって半教師あり画像分類における確証バイアスを克服する方法
How To Overcome Confirmation Bias in Semi-Supervised Image Classification By Active Learning
アクティブラーニングは必要でしょうか?強力な深層半教師あり手法の台頭により、限定されたラベル付きデータ設定におけるアクティブ ラーニングの有用性について疑問が生じています。これは、半教師あり学習 (SSL) 手法とラベル付けのランダム選択を組み合わせることで、既存の能動学習 (AL) 手法よりも優れたパフォーマンスを発揮できることを示す結果によって引き起こされます。ただし、これらの結果は、外部の妥当性を過大評価する可能性がある十分に確立されたベンチマーク データセットでの実験から得られたものです。しかし、文献には、現実的なデータシナリオにおける能動的半教師あり学習法のパフォーマンスに関する十分な研究が不足しており、私たちの理解には顕著なギャップが残されています。したがって、現実世界のアプリケーションに共通する 3 つのデータ課題、つまりクラス間不均衡、クラス内不均衡、クラス間の類似性を提示します。これらの課題は、確証バイアスにより SSL のパフォーマンスに悪影響を与える可能性があります。私たちは、シミュレートされたデータの課題に対して SSL と AL を使用して実験を行ったところ、ランダム サンプリングでは確証バイアスが緩和されず、場合によっては教師あり学習よりもパフォーマンスの低下につながることがわかりました。対照的に、これらの現実的な設定では、AL が SSL の確証バイアスを克服できることを示します。私たちの結果は、現実世界の共通の課題が存在する場合に能動学習と半教師あり学習を組み合わせる可能性についての洞察を提供します。これは、現実世界のアプリケーションで限られたラベル付きデータを使用して学習する場合の堅牢な方法の有望な方向性です。
Do we need active learning? The rise of strong deep semi-supervised methods raises doubt about the usability of active learning in limited labeled data settings. This is caused by results showing that combining semi-supervised learning (SSL) methods with a random selection for labeling can outperform existing active learning (AL) techniques. However, these results are obtained from experiments on well-established benchmark datasets that can overestimate the external validity. However, the literature lacks sufficient research on the performance of active semi-supervised learning methods in realistic data scenarios, leaving a notable gap in our understanding. Therefore we present three data challenges common in real-world applications: between-class imbalance, within-class imbalance, and between-class similarity. These challenges can hurt SSL performance due to confirmation bias. We conduct experiments with SSL and AL on simulated data challenges and find that random sampling does not mitigate confirmation bias and, in some cases, leads to worse performance than supervised learning. In contrast, we demonstrate that AL can overcome confirmation bias in SSL in these realistic settings. Our results provide insights into the potential of combining active and semi-supervised learning in the presence of common real-world challenges, which is a promising direction for robust methods when learning with limited labeled data in real-world applications.
updated: Wed Aug 16 2023 08:52:49 GMT+0000 (UTC)
published: Wed Aug 16 2023 08:52:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト