arXiv reaDer
視覚表現のための確率的自己回帰画像モデリングの探索
Exploring Stochastic Autoregressive Image Modeling for Visual Representation
自己回帰言語モデリング (ALM) は、自然言語処理 (NLP) の自己教師あり事前トレーニングでうまく使用されています。ただし、このパラダイムは、コンピューター ビジョンにおける他の自己教師ありアプローチ (例: 対照学習、マスク イメージ モデリング) と同等の結果を達成していません。この論文では、自己回帰モデリングが視覚タスクでうまく機能しない理由を見つけようとします。この問題に取り組むために、視覚的自己回帰法の限界を完全に分析し、2 つの単純な設計による新しい確率的自己回帰画像モデリング (SAIM と命名) を提案しました。まず、確率的順列戦略を採用して、視覚タスクにとって重要な効果的で堅牢な画像コンテキストを生成します。次に、エンコーダーが標準的なビジョン トランスフォーマーと同様の役割を果たし、コンテキスト情報全体の学習に焦点を当て、その間にデコーダーが現在の位置の内容を予測する並列エンコーダー デコーダー トレーニング プロセスを作成します。これにより、エンコーダーとデコーダーはお互いを強化できます。確率的予測と並列エンコーダー/デコーダーを導入することにより、SAIM は自己回帰画像モデリングのパフォーマンスを大幅に向上させます。私たちの方法は、ImageNet-1K データのみを使用する方法の中で、バニラの ViT-Base モデルで最高の精度 (83.9%) を達成します。ダウンストリーム タスクでの転送パフォーマンスも、モデルが競争力のあるパフォーマンスを達成していることを示しています。
Autoregressive language modeling (ALM) have been successfully used in self-supervised pre-training in Natural language processing (NLP). However, this paradigm has not achieved comparable results with other self-supervised approach in computer vision (e.g., contrastive learning, mask image modeling). In this paper, we try to find the reason why autoregressive modeling does not work well on vision tasks. To tackle this problem, we fully analyze the limitation of visual autoregressive methods and proposed a novel stochastic autoregressive image modeling (named SAIM) by the two simple designs. First, we employ stochastic permutation strategy to generate effective and robust image context which is critical for vision tasks. Second, we create a parallel encoder-decoder training process in which the encoder serves a similar role to the standard vision transformer focus on learning the whole contextual information, and meanwhile the decoder predicts the content of the current position, so that the encoder and decoder can reinforce each other. By introducing stochastic prediction and the parallel encoder-decoder, SAIM significantly improve the performance of autoregressive image modeling. Our method achieves the best accuracy (83.9%) on the vanilla ViT-Base model among methods using only ImageNet-1K data. Transfer performance in downstream tasks also show that our model achieves competitive performance.
updated: Sat Dec 03 2022 13:04:29 GMT+0000 (UTC)
published: Sat Dec 03 2022 13:04:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト