ほとんどの半教師あり学習方法は、トレーニングミニバッチを作成するときに、ラベル付けされたデータをオーバーサンプリングします。この論文は、この一般的な実践が学習を改善するかどうか、そしてどのように改善するかを研究します。これを、ラベル付けされているかどうかに関係なく、各ミニバッチがすべてのトレーニングデータから均一にサンプリングされる代替設定と比較します。これにより、一般的な低ラベルレジームでの真のラベルからの直接監視が大幅に削減されます。ただし、この単純な設定は、ラベル付けされたデータのオーバーサンプリングが困難になるマルチタスクの問題では、より一般的であり、必要でさえあると見なすこともできます。 FixMatchを使用した半教師ありCIFAR-10画像分類に関する実験では、均一サンプリングアプローチを使用するとパフォーマンスが低下し、ラベル付けされたデータの量またはトレーニング時間が増加するとパフォーマンスが低下することが示されています。さらに、トレーニングダイナミクスを分析して、ラベル付けされたデータのオーバーサンプリングが均一なサンプリングとどのように比較されるかを理解します。私たちの主な発見は、オーバーサンプリングはトレーニングの初期には特に有益ですが、より多くの疑似ラベルが正しくなる後の段階では重要性が低くなるということです。それにもかかわらず、誤った疑似ラベルによる確認エラーの蓄積を回避するために、いくつかの真のラベルを保持することが依然として重要であることがわかります。
Most semi-supervised learning methods over-sample labeled data when constructing training mini-batches. This paper studies whether this common practice improves learning and how. We compare it to an alternative setting where each mini-batch is uniformly sampled from all the training data, labeled or not, which greatly reduces direct supervision from true labels in typical low-label regimes. However, this simpler setting can also be seen as more general and even necessary in multi-task problems where over-sampling labeled data would become intractable. Our experiments on semi-supervised CIFAR-10 image classification using FixMatch show a performance drop when using the uniform sampling approach which diminishes when the amount of labeled data or the training time increases. Further, we analyse the training dynamics to understand how over-sampling of labeled data compares to uniform sampling. Our main finding is that over-sampling is especially beneficial early in training but gets less important in the later stages when more pseudo-labels become correct. Nevertheless, we also find that keeping some true labels remains important to avoid the accumulation of confirmation errors from incorrect pseudo-labels.