自己教師あり学習(SSL)は、分類やその他のタスクの事前トレーニング方法として頻繁に使用されるディープラーニング研究の非常に活発な分野になっています。ただし、この分野での急速な進歩には代償が伴います。トレーニングパイプラインは論文によって大きく異なり、潜在的に重要な交絡因子となります。ここでは、実際、ハイパーパラメータとデータ拡張戦略の選択がパフォーマンスに劇的な影響を与える可能性があることを示します。これらの無視された要因に光を当て、SSLの能力を最大化するために、これらのコンポーネントをハイパーパラメーター化し、ベイズ最適化で最適化し、SimSiamSSLアプローチの複数のデータセットにわたる改善を示します。 SSLのデータ拡張の重要性を認識し、新しい自動データ拡張アルゴリズムであるGroupAugmentも導入しました。これは、拡張のグループを考慮し、グループ間のサンプリングを最適化します。教師あり学習用に設計されたアルゴリズムとは対照的に、GroupAugmentは、検討したすべてのデータセットにわたって一貫して高い線形評価精度を達成しました。全体として、私たちの結果は、SSLのデータ拡張の重要性とおそらく過小評価されている役割を示しています。
Self-Supervised Learning (SSL) has become a very active area of Deep Learning research where it is heavily used as a pre-training method for classification and other tasks. However, the rapid pace of advancements in this area comes at a price: training pipelines vary significantly across papers, which presents a potentially crucial confounding factor. Here, we show that, indeed, the choice of hyperparameters and data augmentation strategies can have a dramatic impact on performance. To shed light on these neglected factors and help maximize the power of SSL, we hyperparameterize these components and optimize them with Bayesian optimization, showing improvements across multiple datasets for the SimSiam SSL approach. Realizing the importance of data augmentations for SSL, we also introduce a new automated data augmentation algorithm, GroupAugment, which considers groups of augmentations and optimizes the sampling across groups. In contrast to algorithms designed for supervised learning, GroupAugment achieved consistently high linear evaluation accuracy across all datasets we considered. Overall, our results indicate the importance and likely underestimated role of data augmentation for SSL.