半教師あり学習は、大きなラベル付きデータセットへの依存を緩和するために、ラベルなしデータを活用するための強力なパラダイムであることが証明されています。この作業では、半教師あり学習の現在の主要なアプローチを統合して、MixUpを使用してデータ拡張されたラベルなしの例の低エントロピーラベルを推測し、ラベル付きデータとラベルなしデータを混合することで機能する新しいアルゴリズムMixMatchを生成します。 MixMatchは、多くのデータセットとラベル付きデータ量にわたって大きなマージンで最先端の結果を取得することを示します。たとえば、250個のラベルを持つCIFAR-10では、エラー率を4倍(38%から11%)、STL-10では2倍にします。また、MixMatchを使用して、プライバシーと差分の精度とプライバシーのトレードオフを劇的に改善する方法を示します。最後に、MixMatchのどのコンポーネントがその成功のために最も重要であるかを区別するために、アブレーション研究を行います。
Semi-supervised learning has proven to be a powerful paradigm for leveraging unlabeled data to mitigate the reliance on large labeled datasets. In this work, we unify the current dominant approaches for semi-supervised learning to produce a new algorithm, MixMatch, that works by guessing low-entropy labels for data-augmented unlabeled examples and mixing labeled and unlabeled data using MixUp. We show that MixMatch obtains state-of-the-art results by a large margin across many datasets and labeled data amounts. For example, on CIFAR-10 with 250 labels, we reduce error rate by a factor of 4 (from 38% to 11%) and by a factor of 2 on STL-10. We also demonstrate how MixMatch can help achieve a dramatically better accuracy-privacy trade-off for differential privacy. Finally, we perform an ablation study to tease apart which components of MixMatch are most important for its success.