深層ニューラルネットワークの教師あり学習と自己教師あり学習の両方を進めるために、自己適応型トレーニング(余分な計算コストをかけずにモデル予測によってトレーニングプロセスを動的に較正および強化する統合トレーニングアルゴリズム)を提案します。ランダムノイズや敵対的な例などによって破損したトレーニングデータについて、ディープネットワークのトレーニングダイナミクスを分析します。私たちの分析は、モデル予測がデータ内の有用な基礎情報を拡大できることを示しており、この現象はラベル情報がない場合でも広く発生し、モデル予測がトレーニングプロセスに実質的に役立つ可能性があることを強調しています:自己適応トレーニングは深いネットワークの一般化を改善しますノイズの下で、自己監視表現学習を強化します。分析はまた、深層学習の理解にも光を当てます。たとえば、経験的リスクの最小化で最近発見された二重降下現象の潜在的な説明や、最先端の自己教師あり学習アルゴリズムの崩壊の問題などです。 CIFAR、STL、およびImageNetデータセットでの実験により、ラベルノイズによる分類、選択的分類、線形評価の3つのアプリケーションでのアプローチの有効性が検証されます。将来の調査を容易にするために、コードはhttps://github.com/LayneH/self-adaptive-trainingで公開されています。
We propose self-adaptive training -- a unified training algorithm that dynamically calibrates and enhances training processes by model predictions without incurring an extra computational cost -- to advance both supervised and self-supervised learning of deep neural networks. We analyze the training dynamics of deep networks on training data that are corrupted by, e.g., random noise and adversarial examples. Our analysis shows that model predictions are able to magnify useful underlying information in data and this phenomenon occurs broadly even in the absence of any label information, highlighting that model predictions could substantially benefit the training processes: self-adaptive training improves the generalization of deep networks under noise and enhances the self-supervised representation learning. The analysis also sheds light on understanding deep learning, e.g., a potential explanation of the recently-discovered double-descent phenomenon in empirical risk minimization and the collapsing issue of the state-of-the-art self-supervised learning algorithms. Experiments on the CIFAR, STL, and ImageNet datasets verify the effectiveness of our approach in three applications: classification with label noise, selective classification, and linear evaluation. To facilitate future research, the code has been made publicly available at https://github.com/LayneH/self-adaptive-training.