相補ラベル学習 (CLL) は、インスタンスが属していないクラスを示す相補ラベルのみを使用してマルチクラス分類器をトレーニングすることを目的とした弱教師あり学習パラダイムです。 CLL に対する多数のアルゴリズム提案にもかかわらず、その実際のパフォーマンスは 2 つの理由により不明のままです。まず、これらのアルゴリズムは、相補的なラベルの生成に関する仮定に依存することがよくあります。第二に、評価は合成データセットに限定されています。 CLL アルゴリズムの実際のパフォーマンスについての洞察を得るために、人間のアノテーターによって注釈が付けられた補完ラベルを収集するプロトコルを開発しました。この取り組みの結果、CIFAR10 と CIFAR100 からそれぞれ派生した 2 つのデータセット CLCIFAR10 と CLCIFAR20 が作成されました。これらのデータセットは https://github.com/ntuclab/complementary_cifar で公開されており、まさに最初の現実世界の CLL データセットを表しています。広範なベンチマーク実験を通じて、合成データセットから現実世界のデータセットに移行すると、パフォーマンスが著しく低下することがわかりました。私たちは、この減少に寄与する主な要因を調査するために、データセットレベルのアブレーション研究を実施しました。私たちの分析では、現実世界のデータセットに存在する最も影響力のある要因としてアノテーション ノイズが浮き彫りになりました。さらに、人間が注釈を付けた相補的ラベルの偏った性質により、特定の CLL アルゴリズムが過学習の影響を受けやすくなることが判明しました。これらの発見は、コミュニティが、ノイズが多く偏った相補ラベル分布に対して堅牢な CLL アルゴリズムの開発に、より多くの研究努力を費やす必要があることを示唆しています。
Complementary-label learning (CLL) is a weakly-supervised learning paradigm that aims to train a multi-class classifier using only complementary labels, which indicate classes to which an instance does not belong. Despite numerous algorithmic proposals for CLL, their practical performance remains unclear for two reasons. Firstly, these algorithms often rely on assumptions about the generation of complementary labels. Secondly, their evaluation has been limited to synthetic datasets. To gain insights into the real-world performance of CLL algorithms, we developed a protocol to collect complementary labels annotated by human annotators. This effort resulted in the creation of two datasets, CLCIFAR10 and CLCIFAR20, derived from CIFAR10 and CIFAR100, respectively. These datasets, publicly released at https://github.com/ntucllab/complementary_cifar, represent the very first real-world CLL datasets. Through extensive benchmark experiments, we discovered a notable decline in performance when transitioning from synthetic datasets to real-world datasets. We conducted a dataset-level ablation study to investigate the key factors contributing to this decline. Our analyses highlighted annotation noise as the most influential factor present in the real-world datasets. Additionally, the biased nature of human-annotated complementary labels was found to make certain CLL algorithms more susceptible to overfitting. These findings suggest the community to spend more research effort on developing CLL algorithms that are robust to noisy and biased complementary-label distributions.