ジョイント埋め込みベースの学習 (SimCLR、MoCo、DINO など) と再構成ベースの学習 (BEiT、SimMIM、MAE など) は、ビジョン トランスフォーマーの自己教師あり学習の 2 つの主要なパラダイムですが、伝達性能が大きく異なります。 .ここでは、学習した表現の構造と伝達可能性に対するこれらの目的の影響を分析することにより、これらの違いを説明することを目指しています。私たちの分析では、再構成ベースの学習機能はジョイント埋め込みベースの学習機能とは大きく異なり、同様の目的でトレーニングされたモデルはアーキテクチャ間でも同様の機能を学習することが明らかになりました。これらの違いはネットワークの早い段階で発生し、主に注意層と正規化層によって引き起こされます。目的が異なると、学習された表現の情報と不変性の分布が異なるため、ジョイント埋め込み機能により、分類のための線形プローブ転送が向上することがわかります。これらの違いは、機能の空間的特異性を必要とするダウンストリーム タスクの転送パフォーマンスの反対の傾向を説明しています。最後に、微調整によって再構成表現がどのように変更され、より良い転送が可能になるかについて説明し、微調整によって情報が再編成され、事前にトレーニングされた結合埋め込みモデルにより類似することを示します。
Joint-embedding based learning (e.g., SimCLR, MoCo, DINO) and reconstruction-based learning (e.g., BEiT, SimMIM, MAE) are the two leading paradigms for self-supervised learning of vision transformers, but they differ substantially in their transfer performance. Here, we aim to explain these differences by analyzing the impact of these objectives on the structure and transferability of the learned representations. Our analysis reveals that reconstruction-based learning features are significantly dissimilar to joint-embedding based learning features and that models trained with similar objectives learn similar features even across architectures. These differences arise early in the network and are primarily driven by attention and normalization layers. We find that joint-embedding features yield better linear probe transfer for classification because the different objectives drive different distributions of information and invariances in the learned representation. These differences explain opposite trends in transfer performance for downstream tasks that require spatial specificity in features. Finally, we address how fine-tuning changes reconstructive representations to enable better transfer, showing that fine-tuning re-organizes the information to be more similar to pre-trained joint embedding models.