再構成タスクに基づくマスク オートエンコーダー (MAE) は、自己教師あり学習 (SSL) の有望なパラダイムになり、さまざまなベンチマーク データセットで最先端のパフォーマンスを達成しています。しかし、その印象的な経験的成功にもかかわらず、理論的な理解はまだ限られています。この論文では、MAEが意味のある特徴を学習するためにマスキングがどのように重要であるかについての理論的理解を提案します。 MAE と対照学習の間に密接な関係を確立します。これは、暗黙の MAE がマスクによって誘発された正のペアを整列させることを示しています。この接続に基づいて、MAE メソッドの最初のダウンストリーム保証を開発し、マスク比の影響を分析します。さらに、暗黙のアライメントの結果として、MAE の次元崩壊の問題も指摘し、この問題に効果的に対処し、現実世界のデータセットに大幅な改善をもたらす均一性強化 MAE (U-MAE) 損失を提案します。 CIFAR-10、ImageNet-100、および ImageNet-1K を含みます。コードは (https://github.com/zhangq327/U-MAE) で入手できます。
Masked Autoencoders (MAE) based on a reconstruction task have risen to be a promising paradigm for self-supervised learning (SSL) and achieve state-of-the-art performance across different benchmark datasets. However, despite its impressive empirical success, there is still limited theoretical understanding of it. In this paper, we propose a theoretical understanding of how masking matters for MAE to learn meaningful features. We establish a close connection between MAE and contrastive learning, which shows that MAE implicit aligns the mask-induced positive pairs. Built upon this connection, we develop the first downstream guarantees for MAE methods, and analyze the effect of mask ratio. Besides, as a result of the implicit alignment, we also point out the dimensional collapse issue of MAE, and propose a Uniformity-enhanced MAE (U-MAE) loss that can effectively address this issue and bring significant improvements on real-world datasets, including CIFAR-10, ImageNet-100, and ImageNet-1K. Code is available at (https://github.com/zhangq327/U-MAE).