視覚モデルの自己教師あり事前トレーニングのための統合された周波数ドメインベースのアプローチであるマスク周波数モデリング (MFM) を紹介します。マスクトークンを空間ドメインの入力埋め込みにランダムに挿入する代わりに、このペーパーでは、視点を周波数ドメインにシフトします。具体的には、MFM は最初に入力画像の周波数成分の一部をマスクし、次に周波数スペクトルで欠落している周波数を予測します。私たちの重要な洞察は、空間的な冗長性が高いため、空間ドメインでマスクされたパッチを予測するよりも、周波数ドメインでマスクされたコンポーネントを予測する方が、基になる画像パターンを明らかにするのにより理想的であるということです。私たちの調査結果は、マスクと予測戦略の適切な構成により、高周波成分内の構造情報と低周波成分間の低レベル統計の両方が、適切な表現の学習に役立つことを示唆しています。 MFM は、ViT と CNN の両方について、(i) 追加データ、(ii) 追加モデル、(iii) マスク トークンのいずれも使用しなくても、単純な非シャム フレームワークが意味のある表現を学習できることを初めて示しました。画像分類とセマンティック セグメンテーションに関する実験結果、およびいくつかの堅牢性ベンチマークは、最近のマスクされた画像モデリング アプローチと比較して、MFM の優れたパフォーマンスと高度な堅牢性を示しています。さらに、統一された周波数の観点から表現学習のための古典的な画像復元タスクの有効性を包括的に調査し、MFM アプローチとの興味深い関係を明らかにします。
We present Masked Frequency Modeling (MFM), a unified frequency-domain-based approach for self-supervised pre-training of visual models. Instead of randomly inserting mask tokens to the input embeddings in the spatial domain, in this paper, we shift the perspective to the frequency domain. Specifically, MFM first masks out a portion of frequency components of the input image and then predicts the missing frequencies on the frequency spectrum. Our key insight is that predicting masked components in the frequency domain is more ideal to reveal underlying image patterns rather than predicting masked patches in the spatial domain, due to the heavy spatial redundancy. Our findings suggest that with the right configuration of mask-and-predict strategy, both the structural information within high-frequency components and the low-level statistics among low-frequency counterparts are useful in learning good representations. For the first time, MFM demonstrates that, for both ViT and CNN, a simple non-Siamese framework can learn meaningful representations even using none of the following: (i) extra data, (ii) extra model, (iii) mask token. Experimental results on image classification and semantic segmentation, as well as several robustness benchmarks show the competitive performance and advanced robustness of MFM compared with recent masked image modeling approaches. Furthermore, we also comprehensively investigate the effectiveness of classical image restoration tasks for representation learning from a unified frequency perspective and reveal their intriguing relations with our MFM approach.