arXiv reaDer
深くする代わりに広くする
Go Wider Instead of Deeper
最近、接続が残っている変圧器ブロックが増え、さまざまなタスクで印象的な結果が得られました。より少ない訓練可能なパラメータでより良い性能を達成するために、最近の方法は、深さとともにパラメータ共有またはモデル圧縮によって浅くなることが提案されている。ただし、モデリング能力が弱いと、パフォーマンスが制限されます。対照的に、より訓練可能な行列とパラメーターを誘導することによってより広くなると、訓練と推論に高度な並列処理を必要とする巨大なモデルが生成されます。この論文では、パラメータ効率の高いフレームワークを提案します。特に、既存の作業に続いて、深さに沿って圧縮するようにパラメータ共有を適応させます。ただし、このような展開ではパフォーマンスが制限されます。モデリング能力を最大化するために、フィードフォワードネットワーク(FFN)を専門家の混合(MoE)に置き換えることにより、モデルの幅に沿ってスケーリングします。トランスフォーマーブロック全体で、正規化レイヤーを共有する代わりに、個々のレイヤーノルムを使用して、さまざまなセマンティック表現をよりパラメーター効率の高い方法で変換することを提案します。プラグアンドランフレームワークを評価するために、WideNetを設計し、一般的なコンピュータービジョンと自然言語処理のベンチマークに関する包括的な実験を実施します。 ImageNet-1Kでは、私たちの最高のモデルは、0.72×トレーニング可能なパラメーターでVision Transformer(ViT)を1.5%上回っています。 0.46×および0.13×のパラメーターを使用しても、WideNetはViTおよびViT-MoEをそれぞれ0.8%および2.1%上回ることができます。 4つの自然言語処理データセットで、WideNetは平均1.8%ALBERTを上回り、より少ないパラメーターで0.8%の因数分解された埋め込みパラメーター化を使用してBERTを上回っています。
More transformer blocks with residual connections have recently achieved impressive results on various tasks. To achieve better performance with fewer trainable parameters, recent methods are proposed to go shallower by parameter sharing or model compressing along with the depth. However, weak modeling capacity limits their performance. Contrastively, going wider by inducing more trainable matrixes and parameters would produce a huge model requiring advanced parallelism to train and inference. In this paper, we propose a parameter-efficient framework, going wider instead of deeper. Specially, following existing works, we adapt parameter sharing to compress along depth. But, such deployment would limit the performance. To maximize modeling capacity, we scale along model width by replacing feed-forward network (FFN) with mixture-of-experts (MoE). Across transformer blocks, instead of sharing normalization layers, we propose to use individual layernorms to transform various semantic representations in a more parameter-efficient way. To evaluate our plug-and-run framework, we design WideNet and conduct comprehensive experiments on popular computer vision and natural language processing benchmarks. On ImageNet-1K, our best model outperforms Vision Transformer (ViT) by 1.5% with 0.72 × trainable parameters. Using 0.46 × and 0.13 × parameters, our WideNet can still surpass ViT and ViT-MoE by 0.8% and 2.1%, respectively. On four natural language processing datasets, WideNet outperforms ALBERT by 1.8% on average and surpass BERT using factorized embedding parameterization by 0.8% with fewer parameters.
updated: Tue Sep 07 2021 11:58:00 GMT+0000 (UTC)
published: Sun Jul 25 2021 14:44:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト