半教師あり学習(SSL)は、大規模なラベルなしデータを活用してラベル付きデータへの依存を軽減し、視覚認識および分類タスクのより良いモデルを学習するのに効果的であることが証明されています。ただし、最近のSSL方式は、数十億の規模のラベルのない画像データに依存して機能します。これは、ランタイム、メモリ、およびデータ取得の観点から、ラベルのないデータが比較的少ないタスクでは実行不可能になります。この問題に対処するために、ノイズの多い半教師あり転送学習を提案します。これは、転送学習とノイズの多い学生とのセルフトレーニングを単一のフレームワークに統合する効率的なSSLアプローチであり、ラベルのない画像データを数千のスケールで活用できるタスクに合わせて調整されます。 。バイナリ分類タスクとマルチクラス分類タスクの両方でメソッドを評価します。目的は、画像にスポーツを練習している人が表示されているか、スポーツの種類が表示されているかを識別し、人気のあるヨガのポーズのプールからポーズを識別することです。広範な実験とアブレーション研究は、ラベルのないデータを活用することにより、提案されたフレームワークが、特に最先端の方法と比較して、マルチクラス分類設定で視覚的分類を大幅に改善することを示しています。さらに、転移学習を組み込むと、分類のパフォーマンスが向上するだけでなく、必要な計算時間とメモリが5分の1になります。また、敵対的なロバスト性を特に最適化しなくても、私たちの方法が視覚分類モデルのロバスト性を高めることを示します。
Semi-supervised learning (SSL) has proven to be effective at leveraging large-scale unlabeled data to mitigate the dependency on labeled data in order to learn better models for visual recognition and classification tasks. However, recent SSL methods rely on unlabeled image data at a scale of billions to work well. This becomes infeasible for tasks with relatively fewer unlabeled data in terms of runtime, memory and data acquisition. To address this issue, we propose noisy semi-supervised transfer learning, an efficient SSL approach that integrates transfer learning and self-training with noisy student into a single framework, which is tailored for tasks that can leverage unlabeled image data on a scale of thousands. We evaluate our method on both binary and multi-class classification tasks, where the objective is to identify whether an image displays people practicing sports or the type of sport, as well as to identify the pose from a pool of popular yoga poses. Extensive experiments and ablation studies demonstrate that by leveraging unlabeled data, our proposed framework significantly improves visual classification, especially in multi-class classification settings compared to state-of-the-art methods. Moreover, incorporating transfer learning not only improves classification performance, but also requires 6x less compute time and 5x less memory. We also show that our method boosts robustness of visual classification models, even without specifically optimizing for adversarial robustness.