対照的な方法により、自己教師あり表現学習 (SSL) のパフォーマンスが最近急上昇しています。 BYOL や SimSiam などの最近の方法は、これらの対照的な方法を本質まで抽出し、ダウンストリームのパフォーマンスに寄与しない否定的な例を含め、余計なものを取り除いていると言われています。これらの「非対照的な」方法は、グローバルな最小値が些細な崩壊にあるにもかかわらず、ネガを使用しなくても驚くほどうまく機能します。これらの非対照的な方法を経験的に分析し、SimSiam がデータセットとモデルのサイズに非常に敏感であることを発見しました。特に、データセットのサイズに対してモデルが小さすぎる場合、SimSiam 表現は部分的に次元が崩壊します。この崩壊の程度を測定するメトリックを提案し、微調整やラベルなしでダウンストリーム タスクのパフォーマンスを予測するために使用できることを示します。さらに、アーキテクチャ設計の選択と、それらが下流のパフォーマンスに与える影響を分析します。最後に、継続的な学習設定への移行が正則化として機能し、崩壊を防ぐこと、および継続的なトレーニングとマルチエポック トレーニングのハイブリッドにより、ImageNet で ResNet-18 を使用して線形プローブの精度を最大 18 パーセント改善できることを示します。私たちのプロジェクト ページは https://alexanderli.com/noncontrastive-ssl/ です。
Contrastive methods have led a recent surge in the performance of self-supervised representation learning (SSL). Recent methods like BYOL or SimSiam purportedly distill these contrastive methods down to their essence, removing bells and whistles, including the negative examples, that do not contribute to downstream performance. These "non-contrastive" methods work surprisingly well without using negatives even though the global minimum lies at trivial collapse. We empirically analyze these non-contrastive methods and find that SimSiam is extraordinarily sensitive to dataset and model size. In particular, SimSiam representations undergo partial dimensional collapse if the model is too small relative to the dataset size. We propose a metric to measure the degree of this collapse and show that it can be used to forecast the downstream task performance without any fine-tuning or labels. We further analyze architectural design choices and their effect on the downstream performance. Finally, we demonstrate that shifting to a continual learning setting acts as a regularizer and prevents collapse, and a hybrid between continual and multi-epoch training can improve linear probe accuracy by as many as 18 percentage points using ResNet-18 on ImageNet. Our project page is at https://alexanderli.com/noncontrastive-ssl/.