自己監視学習の最近の進歩は、複数の視覚的タスクで有望な結果を示しています。高性能の自己監視方式の重要な要素は、トレーニングモデルによるデータ拡張を使用して、埋め込みスペースの近くに同じ画像のさまざまな拡張ビューを配置することです。ただし、一般的に使用される拡張パイプラインは、画像の一部(たとえば、被写体と背景)の意味的関連性を無視して、画像を全体的に扱います。これは、疑似相関の学習につながる可能性があります。私たちの仕事は、モデルが画像の背景に焦点を合わせるのを思いとどまらせることによって意味的に関連するコンテンツに焦点を合わせるように促す、シンプルでありながら非常に効果的な「背景拡張」のクラスを調査することによってこの問題に対処します。体系的な調査を通じて、バックグラウンドの増強により、さまざまなタスク(たとえば、〜+ 1)での最先端の自己監視方式(MoCo-v2、BYOL、SwAV)のスペクトル全体でパフォーマンスが大幅に向上することを示します。 -ImageNetで2%の向上が見られ、監視対象のベースラインと同等のパフォーマンスが可能になります。さらに、限定ラベル設定の改善はさらに大きくなっています(最大4.2%)。バックグラウンドの拡張により、自然な敵対者の例、ImageNet-9、敵対者の攻撃、ImageNet-Renditionsなど、多くの分布シフトに対する堅牢性も向上します。また、背景の増強に使用される顕著性マスクを生成するプロセスにおいて、完全に教師なしの顕著性検出も進歩しています。
Recent progress in self-supervised learning has demonstrated promising results in multiple visual tasks. An important ingredient in high-performing self-supervised methods is the use of data augmentation by training models to place different augmented views of the same image nearby in embedding space. However, commonly used augmentation pipelines treat images holistically, ignoring the semantic relevance of parts of an image-e.g. a subject vs. a background-which can lead to the learning of spurious correlations. Our work addresses this problem by investigating a class of simple, yet highly effective "background augmentations", which encourage models to focus on semantically-relevant content by discouraging them from focusing on image backgrounds. Through a systematic investigation, we show that background augmentations lead to substantial improvements in performance across a spectrum of state-of-the-art self-supervised methods (MoCo-v2, BYOL, SwAV) on a variety of tasks, e.g. ∼+1-2% gains on ImageNet, enabling performance on par with the supervised baseline. Further, we find the improvement in limited-labels settings is even larger (up to 4.2%). Background augmentations also improve robustness to a number of distribution shifts, including natural adversarial examples, ImageNet-9, adversarial attacks, ImageNet-Renditions. We also make progress in completely unsupervised saliency detection, in the process of generating saliency masks used for background augmentations.