arXiv reaDer
新しいパラダイムシフトの準備はできていますか? VisualDeepMLPに関する調査
Are we ready for a new paradigm shift? A Survey on Visual Deep MLP
最近、提案されたディープMLPモデルは、ビジョンコミュニティで多くの関心を呼んでいます。歴史的に、より大きなデータセットの可用性とコンピューティング能力の向上は、パラダイムシフトにつながります。このレビューペーパーでは、MLPがコンピュータビジョンの新しいパラダイムになり得るかどうかについて詳細に説明します。畳み込み、自己注意メカニズム、トークンミキシングMLPの本質的なつながりと違いを詳細に比較します。トークンミキシングMLPの利点と制限が提供され、モジュール設計からネットワークアーキテクチャ、およびそれらのアプリケーションまで、最近のMLPのようなバリアントが注意深く分析されます。 GPUの時代では、ローカルおよびグローバルに重み付けされた合計が現在の主流であり、畳み込みと自己注意メカニズム、およびMLPによって表されます。次世代コンピューティングデバイスとともに検討すべきパラダイムのさらなる開発を提案します。
Recently, the proposed deep MLP models have stirred up a lot of interest in the vision community. Historically, the availability of larger datasets combined with increased computing capacity leads to paradigm shifts. This review paper provides detailed discussions on whether MLP can be a new paradigm for computer vision. We compare the intrinsic connections and differences between convolution, self-attention mechanism, and Token-mixing MLP in detail. Advantages and limitations of Token-mixing MLP are provided, followed by careful analysis of recent MLP-like variants, from module design to network architecture, and their applications. In the GPU era, the locally and globally weighted summations are the current mainstreams, represented by the convolution and self-attention mechanism, as well as MLP. We suggest the further development of paradigm to be considered alongside the next-generation computing devices.
updated: Tue Mar 22 2022 02:48:11 GMT+0000 (UTC)
published: Sun Nov 07 2021 12:02:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト