arXiv reaDer
S ^ 2-MLPv2:視覚のための改善された空間シフトMLPアーキテクチャ
S^2-MLPv2: Improved Spatial-Shift MLP Architecture for Vision
最近、MLPベースのビジョンバックボーンが登場しました。誘導バイアスの少ないMLPベースのビジョンアーキテクチャは、CNNやビジョントランスフォーマーと比較して、画像認識において競争力のあるパフォーマンスを実現します。その中でも、単純な空間シフト操作を採用した空間シフトMLP(S ^ 2-MLP)は、MLPミキサーやResMLPなどの先駆的な研究よりも優れたパフォーマンスを実現します。最近では、ピラミッド構造の小さなパッチを使用して、Vision Permutator(ViP)とGlobal Filter Network(GFNet)がS ^ 2-MLPよりも優れたパフォーマンスを実現しています。このホワイトペーパーでは、S ^ 2-MLPビジョンバックボーンを改善します。チャネル次元に沿ってフィーチャマップを展開し、展開されたフィーチャマップをいくつかの部分に分割します。分割されたパーツに対してさまざまな空間シフト操作を実行します。一方、スプリットアテンション操作を利用して、これらのスプリットパーツを融合します。また、同等のパッチと同様に、小規模なパッチを採用し、ピラミッド構造を採用して画像認識精度を高めています。改善された空間シフトMLPビジョンバックボーンをS ^ 2-MLPv2と呼びます。中規模モデルであるS ^ 2-MLPv2-Mediumは、55Mのパラメーターを使用して、自己注意や外部トレーニングデータなしで224×224の画像を使用してImageNet-1Kベンチマークで83.6%のトップ1精度を達成します。
Recently, MLP-based vision backbones emerge. MLP-based vision architectures with less inductive bias achieve competitive performance in image recognition compared with CNNs and vision Transformers. Among them, spatial-shift MLP (S^2-MLP), adopting the straightforward spatial-shift operation, achieves better performance than the pioneering works including MLP-mixer and ResMLP. More recently, using smaller patches with a pyramid structure, Vision Permutator (ViP) and Global Filter Network (GFNet) achieve better performance than S^2-MLP. In this paper, we improve the S^2-MLP vision backbone. We expand the feature map along the channel dimension and split the expanded feature map into several parts. We conduct different spatial-shift operations on split parts. Meanwhile, we exploit the split-attention operation to fuse these split parts. Moreover, like the counterparts, we adopt smaller-scale patches and use a pyramid structure for boosting the image recognition accuracy. We term the improved spatial-shift MLP vision backbone as S^2-MLPv2. Using 55M parameters, our medium-scale model, S^2-MLPv2-Medium achieves an 83.6% top-1 accuracy on the ImageNet-1K benchmark using 224×224 images without self-attention and external training data.
updated: Mon Aug 02 2021 17:59:02 GMT+0000 (UTC)
published: Mon Aug 02 2021 17:59:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト