特定の画像に適用可能なすべてのラベルを予測することは、マルチラベル分類と呼ばれます。標準のマルチクラスの場合(各画像にラベルが1つしかない場合)と比較して、マルチラベル分類のためにトレーニングデータに注釈を付けることはかなり困難です。潜在的なラベルの数が多い場合、人間のアノテーターは、各トレーニング画像に適用可能なすべてのラベルに言及するのが難しいと感じます。さらに、一部の設定では、高解像度画像で小さなオブジェクトインスタンスを見つけるなど、検出が本質的に困難です。その結果、マルチラベルトレーニングデータはしばしば偽陰性に悩まされます。アノテーターが各画像に関連するラベルを1つだけ提供する、この問題の最も難しいバージョンを検討します。その結果、トレーニングセットには、画像ごとに1つのポジティブラベルのみが含まれ、ネガティブは確認されません。線形分類器とエンドツーエンドの微調整されたディープネットワークの両方について、4つの異なるマルチラベル画像分類データセット全体で欠落しているラベルから学習するこの特殊なケースを調査します。既存のマルチラベル損失をこの設定に拡張し、トレーニング中に予想されるポジティブラベルの数を制限する新しいバリアントを提案します。驚くべきことに、確認されたラベルが大幅に少ないトレーニングにもかかわらず、完全にラベル付けされた分類器のパフォーマンスに近づくことが可能な場合があることを示しています。
Predicting all applicable labels for a given image is known as multi-label classification. Compared to the standard multi-class case (where each image has only one label), it is considerably more challenging to annotate training data for multi-label classification. When the number of potential labels is large, human annotators find it difficult to mention all applicable labels for each training image. Furthermore, in some settings detection is intrinsically difficult e.g. finding small object instances in high resolution images. As a result, multi-label training data is often plagued by false negatives. We consider the hardest version of this problem, where annotators provide only one relevant label for each image. As a result, training sets will have only one positive label per image and no confirmed negatives. We explore this special case of learning from missing labels across four different multi-label image classification datasets for both linear classifiers and end-to-end fine-tuned deep networks. We extend existing multi-label losses to this setting and propose novel variants that constrain the number of expected positive labels during training. Surprisingly, we show that in some cases it is possible to approach the performance of fully labeled classifiers despite training with significantly fewer confirmed labels.