arXiv reaDer
条件付き計算によるクロストークンモデリング
Cross-token Modeling with Conditional Computation
条件付き計算アーキテクチャであるMixture-of-Experts(MoE)は、変圧器のローカルモジュール(つまりフィードフォワードネットワーク)をスケーリングすることにより、有望なパフォーマンスを実現しました。ただし、トレーニングが不安定なため、クロストークンモジュールのスケーリング(つまり、自己注意)は困難です。この作業では、疎にアクティブ化されたMLPをクロストークンモデリングに適用するすべてのMLPモデルであるSparse-MLPを提案します。具体的には、全MLPモデルの各スパースブロックで、MoEレイヤーの2つのステージを適用します。1つは画像パッチ次元に沿ってチャネル内の情報を混合するMLPエキスパート、もう1つはチャネル次元に沿ってパッチ内の情報を混合するMLPエキスパートです。さらに、MoEの重要度スコアルーティング戦略を提案し、画像表現の形状を再設計することで、モデルの計算効率をさらに向上させます。実験的には、同等の精度でVisionTransformersよりも計算効率が高くなっています。また、私たちのモデルは、より少ないパラメーターと計算コストで、ImageNet Top-1の精度でMLP-Mixerを2.5%上回ることができます。ダウンストリームタスク、つまりCifar10とCifar100では、モデルはベースラインよりも優れたパフォーマンスを達成できます。
Mixture-of-Experts (MoE), a conditional computation architecture, achieved promising performance by scaling local module (i.e. feed-forward network) of transformer. However, scaling the cross-token module (i.e. self-attention) is challenging due to the unstable training. This work proposes Sparse-MLP, an all-MLP model which applies sparsely-activated MLPs to cross-token modeling. Specifically, in each Sparse block of our all-MLP model, we apply two stages of MoE layers: one with MLP experts mixing information within channels along image patch dimension, the other with MLP experts mixing information within patches along the channel dimension. In addition, by proposing importance-score routing strategy for MoE and redesigning the image representation shape, we further improve our model's computational efficiency. Experimentally, we are more computation-efficient than Vision Transformers with comparable accuracy. Also, our models can outperform MLP-Mixer by 2.5% on ImageNet Top-1 accuracy with fewer parameters and computational cost. On downstream tasks, i.e. Cifar10 and Cifar100, our models can still achieve better performance than baselines.
updated: Fri Jan 14 2022 08:06:11 GMT+0000 (UTC)
published: Sun Sep 05 2021 06:43:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト