arXiv reaDer
WaveMix: 画像解析のためのリソース効率の高いニューラル ネットワーク
WaveMix: A Resource-efficient Neural Network for Image Analysis
リソース効率が高く、一般化可能でスケーラブルなコンピューター ビジョン用の新しいニューラル アーキテクチャである WaveMix を提案します。 WaveMix ネットワークは、いくつかのタスクで最先端の畳み込みニューラル ネットワーク、ビジョン トランスフォーマー、およびトークン ミキサーと同等またはそれ以上の精度を達成し、都市景観のセグメンテーションの新しいベンチマークを確立します。 Places-365、5 つの EMNIST データセット、および iNAT-mini での分類用。驚くべきことに、WaveMix アーキテクチャは、以前の最先端技術と比較して、これらのベンチマークを達成するために必要なパラメーターが少なくて済みます。さらに、パラメーターの数を制御すると、WaveMix に必要な GPU RAM が少なくて済み、時間、コスト、エネルギーの節約につながります。これらのゲインを達成するために、WaveMix ブロックでマルチレベルの 2 次元離散ウェーブレット変換 (2D-DWT) を使用しました。これには次の利点があります。 -エッジの不変性とまばらさ、(2) パラメーターを追加せずに損失のない方法で、(3) 特徴マップの空間サイズを縮小しながら、前後のパスに必要なメモリと時間を削減し、(4) 拡張畳み込みよりも速く受容野。アーキテクチャ全体は、自己相似で解像度を維持する WaveMix ブロックのスタックであり、さまざまなタスクやリソースの可用性レベルに対するアーキテクチャの柔軟性を実現します。私たちのコードと訓練されたモデルは公開されています。
We propose WaveMix -- a novel neural architecture for computer vision that is resource-efficient yet generalizable and scalable. WaveMix networks achieve comparable or better accuracy than the state-of-the-art convolutional neural networks, vision transformers, and token mixers for several tasks, establishing new benchmarks for segmentation on Cityscapes; and for classification on Places-365, five EMNIST datasets, and iNAT-mini. Remarkably, WaveMix architectures require fewer parameters to achieve these benchmarks compared to the previous state-of-the-art. Moreover, when controlled for the number of parameters, WaveMix requires lesser GPU RAM, which translates to savings in time, cost, and energy. To achieve these gains we used multi-level two-dimensional discrete wavelet transform (2D-DWT) in WaveMix blocks, which has the following advantages: (1) It reorganizes spatial information based on three strong image priors -- scale-invariance, shift-invariance, and sparseness of edges, (2) in a lossless manner without adding parameters, (3) while also reducing the spatial sizes of feature maps, which reduces the memory and time required for forward and backward passes, and (4) expanding the receptive field faster than convolutions do. The whole architecture is a stack of self-similar and resolution-preserving WaveMix blocks, which allows architectural flexibility for various tasks and levels of resource availability. Our code and trained models are publicly available.
updated: Wed Mar 15 2023 22:37:45 GMT+0000 (UTC)
published: Sat May 28 2022 09:08:50 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト