arXiv reaDer
深くする代わりに広くする
Go Wider Instead of Deeper
変圧器は最近、さまざまなタスクで印象的な結果を達成しました。変圧器の有効性と効率をさらに改善するために、既存の作業には2つの考えがあります。(1)より訓練可能なパラメーターにスケーリングすることによってより広くなる。 (2)深さとともにパラメータ共有またはモデル圧縮によって浅くなる。ただし、トレーニングに使用できるトークンが少ない場合、通常、大きなモデルは適切にスケーリングできません。モデルが非常に大きい場合は、高度な並列処理が必要になります。小さいモデルは通常、表現力が失われるため、元のトランスモデルと比較してパフォーマンスが低下します。この論文では、より少ないトレーニング可能なパラメータでより良いパフォーマンスを達成するために、より深くではなくより広くすることによって、トレーニング可能なパラメータを効率的に展開するためのフレームワークを提案します。特に、フィードフォワードネットワーク(FFN)を専門家の混合(MoE)に置き換えることにより、モデルの幅に沿ってスケーリングします。次に、個々のレイヤーの正規化を使用して、変圧器ブロック間でMoEレイヤーを共有します。このような展開は、さまざまなセマンティック表現を変換する役割を果たし、モデルをよりパラメーター効率的かつ効果的にします。フレームワークを評価するために、WideNetを設計し、ImageNet-1Kで評価します。私たちの最高のモデルは、0.72×トレーニング可能なパラメーターでVision Transformer(ViT)を1.46%上回っています。 0.46×および0.13×のパラメーターを使用しても、WideNetはViTおよびViT-MoEをそれぞれ0.83%および2.08%上回ることができます。
The transformer has recently achieved impressive results on various tasks. To further improve the effectiveness and efficiency of the transformer, there are two trains of thought among existing works: (1) going wider by scaling to more trainable parameters; (2) going shallower by parameter sharing or model compressing along with the depth. However, larger models usually do not scale well when fewer tokens are available to train, and advanced parallelisms are required when the model is extremely large. Smaller models usually achieve inferior performance compared to the original transformer model due to the loss of representation power. In this paper, to achieve better performance with fewer trainable parameters, we propose a framework to deploy trainable parameters efficiently, by going wider instead of deeper. Specially, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). We then share the MoE layers across transformer blocks using individual layer normalization. Such deployment plays the role to transform various semantic representations, which makes the model more parameter-efficient and effective. To evaluate our framework, we design WideNet and evaluate it on ImageNet-1K. Our best model outperforms Vision Transformer (ViT) by 1.46% with 0.72 × trainable parameters. Using 0.46 × and 0.13 × parameters, our WideNet can still surpass ViT and ViT-MoE by 0.83% and 2.08%, respectively.
updated: Thu Jul 29 2021 10:17:23 GMT+0000 (UTC)
published: Sun Jul 25 2021 14:44:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト