arXiv reaDer
Sparse-MLP:条件付き計算を備えた完全MLPアーキテクチャ
Sparse-MLP: A Fully-MLP Architecture with Conditional Computation
スパース条件付き計算を使用したMixture-of-Experts(MoE)は、注意ベースのモデルを同等の計算コストでより多くのパラメーターにスケーリングするための効果的なアーキテクチャであることが証明されています。この論文では、より計算効率の高いアーキテクチャを実現するために、最近のMLP-MixerモデルをスパースMoEレイヤーでスケーリングするSparse-MLPを提案します。 MLP-Mixerモデルの高密度MLPブロックのサブセットをスパースブロックに置き換えます。各スパースブロックでは、MoEレイヤーの2つのステージを適用します。1つはMLPエキスパートが画像パッチ次元に沿ってチャネル内の情報を混合し、もう1つはMLPエキスパートがチャネル次元に沿ってパッチ内の情報を混合します。さらに、ルーティングの計算コストを削減し、エキスパートの能力を向上させるために、各スパースブロックに再表現レイヤーを設計します。これらのレイヤーは、2つの単純だが効果的な線形変換によって画像表現を再スケーリングするためのものです。 MoCo v3アルゴリズムを使用してImageNet-1kで事前トレーニングを行うと、モデルは、より少ないパラメーターと計算コストで、ImageNet Top-1の精度で高密度MLPモデルを2.5%上回ることができます。小規模なダウンストリーム画像分類タスク、つまりCifar10とCifar100では、Sparse-MLPはベースラインよりも優れたパフォーマンスを実現できます。
Mixture-of-Experts (MoE) with sparse conditional computation has been proved an effective architecture for scaling attention-based models to more parameters with comparable computation cost. In this paper, we propose Sparse-MLP, scaling the recent MLP-Mixer model with sparse MoE layers, to achieve a more computation-efficient architecture. We replace a subset of dense MLP blocks in the MLP-Mixer model with Sparse blocks. In each Sparse block, we apply two stages of MoE layers: one with MLP experts mixing information within channels along image patch dimension, one with MLP experts mixing information within patches along the channel dimension. Besides, to reduce computational cost in routing and improve expert capacity, we design Re-represent layers in each Sparse block. These layers are to re-scale image representations by two simple but effective linear transformations. When pre-training on ImageNet-1k with MoCo v3 algorithm, our models can outperform dense MLP models by 2.5% on ImageNet Top-1 accuracy with fewer parameters and computational cost. On small-scale downstream image classification tasks, i.e. Cifar10 and Cifar100, our Sparse-MLP can still achieve better performance than baselines.
updated: Wed Sep 08 2021 20:10:22 GMT+0000 (UTC)
published: Sun Sep 05 2021 06:43:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト