arXiv reaDer
Hire-MLP:階層的再配置によるビジョンMLP
Hire-MLP: Vision MLP via Hierarchical Rearrangement
MLP-MixerやResMLPなどの以前のビジョンMLPは、線形に平坦化された画像パッチを入力として受け入れるため、さまざまな入力サイズに対して柔軟性がなく、空間情報をキャプチャするのが困難です。このようなアプローチは、MLPがトランスベースの対応するものと同等のパフォーマンスを得るのを妨げ、コンピュータービジョンの一般的なバックボーンになるのを防ぎます。このホワイトペーパーでは、2つのレベルの再配置を含む階層的再配置によるシンプルでありながら競争力のあるビジョンMLPアーキテクチャであるHire-MLPについて説明します。具体的には、空間領域内のローカル情報をキャプチャするために内部領域再配置が提案され、異なる領域間の情報通信を可能にし、空間方向に沿ってすべてのトークンを循環シフトすることによってグローバルコンテキストをキャプチャするためにクロス領域再配置が提案されます。広範な実験により、さまざまなビジョンタスクの多目的なバックボーンとしてのHire-MLPの有効性が実証されています。特に、Hire-MLPは、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクで競争力のある結果を達成します。たとえば、ImageNetで83.8%のトップ1精度、COCO val2017で51.7%のボックスAPと44.8%のマスクAP、ADE20Kで49.9%のmIoU 、以前のトランスベースおよびMLPベースのモデルを上回り、精度とスループットのトレードオフが向上しました。コードはhttps://github.com/ggjy/Hire-Wave-MLP.pytorchで入手できます。
Previous vision MLPs such as MLP-Mixer and ResMLP accept linearly flattened image patches as input, making them inflexible for different input sizes and hard to capture spatial information. Such approach withholds MLPs from getting comparable performance with their transformer-based counterparts and prevents them from becoming a general backbone for computer vision. This paper presents Hire-MLP, a simple yet competitive vision MLP architecture via Hierarchical rearrangement, which contains two levels of rearrangements. Specifically, the inner-region rearrangement is proposed to capture local information inside a spatial region, and the cross-region rearrangement is proposed to enable information communication between different regions and capture global context by circularly shifting all tokens along spatial directions. Extensive experiments demonstrate the effectiveness of Hire-MLP as a versatile backbone for various vision tasks. In particular, Hire-MLP achieves competitive results on image classification, object detection and semantic segmentation tasks, e.g., 83.8% top-1 accuracy on ImageNet, 51.7% box AP and 44.8% mask AP on COCO val2017, and 49.9% mIoU on ADE20K, surpassing previous transformer-based and MLP-based models with better trade-off for accuracy and throughput. Code is available at https://github.com/ggjy/Hire-Wave-MLP.pytorch.
updated: Tue Nov 30 2021 11:17:26 GMT+0000 (UTC)
published: Mon Aug 30 2021 16:11:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト