arXiv reaDer
整合性トレーニングのための教師なしデータ拡張
Unsupervised Data Augmentation for Consistency Training
最近、半教師あり学習は、ラベル付きデータが不足している場合に、深層学習モデルの改善に大きな期待を示しています。最近のアプローチに共通するのは、大量のラベル付けされていないデータに対して一貫性トレーニングを使用して、モデル予測を入力ノイズに対して不変になるように制約することです。この作業では、ラベルなしの例に効果的にノイズを加える方法に関する新しい視点を提示し、特に高度なデータ拡張方法によって生成されるノイズの品質が半教師あり学習で重要な役割を果たすと主張します。単純なノイズ処理をRandAugmentや逆翻訳などの高度なデータ拡張方法に置き換えることにより、同じ一貫性トレーニングフレームワークの下で、6つの言語と3つのビジョンタスクに大幅な改善をもたらします。 IMDbテキスト分類データセットでは、ラベルが付けられた例が20のみの場合、このメソッドはエラー率4.20を達成し、25,000のラベルが付けられた例でトレーニングされた最先端のモデルよりも優れています。標準の半教師あり学習ベンチマークであるCIFAR-10では、このメソッドは以前のすべてのアプローチよりも優れており、250の例でエラー率5.43を達成しています。私たちの方法は、BERTから微調整するときなど、転移学習とうまく組み合わせて、ラベル付きデータが10%しかない場合でも、ラベルなしの完全なラベル付きセットが1.3M余分なラベルなしの例である場合でも、ImageNetなどの高データ体制を改善します使用されている。コードはhttps://github.com/google-research/udaで入手できます。
Semi-supervised learning lately has shown much promise in improving deep learning models when labeled data is scarce. Common among recent approaches is the use of consistency training on a large amount of unlabeled data to constrain model predictions to be invariant to input noise. In this work, we present a new perspective on how to effectively noise unlabeled examples and argue that the quality of noising, specifically those produced by advanced data augmentation methods, plays a crucial role in semi-supervised learning. By substituting simple noising operations with advanced data augmentation methods such as RandAugment and back-translation, our method brings substantial improvements across six language and three vision tasks under the same consistency training framework. On the IMDb text classification dataset, with only 20 labeled examples, our method achieves an error rate of 4.20, outperforming the state-of-the-art model trained on 25,000 labeled examples. On a standard semi-supervised learning benchmark, CIFAR-10, our method outperforms all previous approaches and achieves an error rate of 5.43 with only 250 examples. Our method also combines well with transfer learning, e.g., when finetuning from BERT, and yields improvements in high-data regime, such as ImageNet, whether when there is only 10% labeled data or when a full labeled set with 1.3M extra unlabeled examples is used. Code is available at https://github.com/google-research/uda.
updated: Thu Nov 05 2020 15:11:02 GMT+0000 (UTC)
published: Mon Apr 29 2019 17:56:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト