arXiv reaDer
自己教師あり ResNets の限界を押し広げる: ImageNet でラベルなしの教師あり学習よりも優れたパフォーマンスを発揮できるか?
Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?
残差ネットワークを使用した表現学習における自己教師あり手法による最近の進歩にもかかわらず、ImageNet 分類ベンチマークでの教師あり学習のパフォーマンスは依然として低く、パフォーマンスが重要な設定での適用性が制限されています。 ReLIC [Mitrovic et al., 2021] からの以前の理論的洞察に基づいて、自己教師あり学習に追加の帰納的バイアスを含めます。新しい自己教師あり表現学習法、ReLICv2 を提案します。これは、適切に構築されたデータ ビューのさまざまなセットに対して、明示的な不変性損失と対比目的を組み合わせて、偽の相関関係の学習を回避し、より有益な表現を取得します。 ReLICv2 は、ResNet50 での線形評価の下で ImageNet で 77.1% のトップ 1 精度を達成し、以前の最先端技術を絶対 +1.5% 向上させます。大規模な ResNet モデルでは、ReLICv2 は最大 +2.3% のマージンで、以前の自己監視型アプローチよりも最大 80.6% 優れています。最も注目に値するのは、ReLICv2 が、さまざまな ResNet アーキテクチャでの類似比較において、教師ありベースラインを一貫して上回る最初の教師なし表現学習方法であることです。 ReLICv2 を使用して、画像分類とセマンティック セグメンテーションの両方で、以前の研究よりも分布外をより適切に一般化する、より堅牢で転送可能な表現も学習します。最後に、ResNet エンコーダーを使用しているにもかかわらず、ReLICv2 が最先端の自己監視型ビジョン トランスフォーマーに匹敵することを示します。
Despite recent progress made by self-supervised methods in representation learning with residual networks, they still underperform supervised learning on the ImageNet classification benchmark, limiting their applicability in performance-critical settings. Building on prior theoretical insights from ReLIC [Mitrovic et al., 2021], we include additional inductive biases into self-supervised learning. We propose a new self-supervised representation learning method, ReLICv2, which combines an explicit invariance loss with a contrastive objective over a varied set of appropriately constructed data views to avoid learning spurious correlations and obtain more informative representations. ReLICv2 achieves 77.1% top-1 accuracy on ImageNet under linear evaluation on a ResNet50, thus improving the previous state-of-the-art by absolute +1.5%; on larger ResNet models, ReLICv2 achieves up to 80.6% outperforming previous self-supervised approaches with margins up to +2.3%. Most notably, ReLICv2 is the first unsupervised representation learning method to consistently outperform the supervised baseline in a like-for-like comparison over a range of ResNet architectures. Using ReLICv2, we also learn more robust and transferable representations that generalize better out-of-distribution than previous work, both on image classification and semantic segmentation. Finally, we show that despite using ResNet encoders, ReLICv2 is comparable to state-of-the-art self-supervised vision transformers.
updated: Thu Nov 03 2022 19:38:38 GMT+0000 (UTC)
published: Thu Jan 13 2022 18:23:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト