arXiv reaDer
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias
トランスフォーマーは、自己注意メカニズムを使用して長距離依存性をモデル化する強力な機能により、さまざまなコンピュータービジョンタスクで大きな可能性を示しています。それにもかかわらず、視覚変換器は、画像を視覚トークンの1Dシーケンスとして扱い、局所的な視覚構造のモデリングとスケールの変動の処理に固有の誘導バイアス(IB)を欠いています。あるいは、IBを暗黙的に学習するには、大規模なトレーニングデータとより長いトレーニングスケジュールが必要です。この論文では、畳み込みから固有のIB、つまりViTAEを探索することにより、新しいVision TransformerAdvancedを提案します。技術的には、ViTAEにはいくつかの空間ピラミッド縮小モジュールがあり、異なる拡張率の複数の畳み込みを使用して、入力画像をダウンサンプリングし、豊富なマルチスケールコンテキストを持つトークンに埋め込みます。このようにして、固有のスケール不変性IBを取得し、さまざまなスケールでオブジェクトのロバストな特徴表現を学習できます。さらに、各変圧器層で、ViTAEはマルチヘッド自己注意モジュールと並列の畳み込みブロックを備えており、その機能は融合されてフィードフォワードネットワークに供給されます。その結果、固有のローカリティIBを持ち、ローカル機能とグローバル依存関係を共同で学習できます。 ImageNetでの実験とダウンストリームのタスクは、ベースライントランスフォーマーと並行作業に対するViTAEの優位性を証明しています。ソースコードと事前トレーニング済みモデルはGitHubで入手できます。
Transformers have shown great potential in various computer vision tasks owing to their strong capability in modeling long-range dependency using the self-attention mechanism. Nevertheless, vision transformers treat an image as 1D sequence of visual tokens, lacking an intrinsic inductive bias (IB) in modeling local visual structures and dealing with scale variance. Alternatively, they require large-scale training data and longer training schedules to learn the IB implicitly. In this paper, we propose a novel Vision Transformer Advanced by Exploring intrinsic IB from convolutions, ie, ViTAE. Technically, ViTAE has several spatial pyramid reduction modules to downsample and embed the input image into tokens with rich multi-scale context by using multiple convolutions with different dilation rates. In this way, it acquires an intrinsic scale invariance IB and is able to learn robust feature representation for objects at various scales. Moreover, in each transformer layer, ViTAE has a convolution block in parallel to the multi-head self-attention module, whose features are fused and fed into the feed-forward network. Consequently, it has the intrinsic locality IB and is able to learn local features and global dependencies collaboratively. Experiments on ImageNet as well as downstream tasks prove the superiority of ViTAE over the baseline transformer and concurrent works. Source code and pretrained models will be available at GitHub.
updated: Wed Jul 14 2021 15:07:18 GMT+0000 (UTC)
published: Mon Jun 07 2021 05:31:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト