arXiv reaDer
共同埋め込み予測アーキテクチャによる画像からの自己教師あり学習
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
この論文では、手作りのデータ増強に頼ることなく、高度にセマンティックな画像表現を学習するためのアプローチを示します。画像からの自己教師あり学習のための非生成的アプローチである画像ベースのジョイント埋め込み予測アーキテクチャ (I-JEPA) を紹介します。 I-JEPA の背後にある考え方は単純です。単一のコンテキスト ブロックから、同じ画像内のさまざまなターゲット ブロックの表現を予測します。 I-JEPA をセマンティック表現の生成に導くための中心的な設計上の選択は、マスキング戦略です。具体的には、(a) 十分に大きなスケール (セマンティック) でターゲット ブロックをサンプリングし、(b) 十分に有益な (空間的に分散された) コンテキスト ブロックを使用することが重要です。経験的に、Vision Transformers と組み合わせると、I-JEPA は非常にスケーラブルであることがわかります。たとえば、16 個の A100 GPU を使用して ImageNet で ViT-Huge/14 を 72 時間以内にトレーニングし、線形分類からオブジェクトのカウント、深さの予測まで、幅広いタスクで強力なダウンストリーム パフォーマンスを実現しました。
This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.
updated: Thu Mar 30 2023 18:28:46 GMT+0000 (UTC)
published: Thu Jan 19 2023 18:59:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト