arXiv reaDer
OmniNet:トランスフォーマーからの全方向表現
OmniNet: Omnidirectional Representations from Transformers
このペーパーでは、Transformers(OmniNet)からの全方向表現を提案します。 OmniNetでは、厳密に水平方向の受容野を維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加できます。このプロセスは、ネットワークの幅と深さ全体の受容野を持つ極端なまたは集中的な注意メカニズムの形式として解釈することもできます。この目的のために、全方向性注意は、本質的に別の自己注意ベースのモデルであるメタラーナーを介して学習されます。完全な受容野注意の計算コストを軽減するために、カーネルベース(Choromanski et al。)、低ランク注意(Wang et al。)、ビッグバード(Zaheer)などの効率的な自己注意モデルを活用します。 et al。)メタラーナーとして。自己回帰言語モデリング(LM1B、C4)、機械翻訳、長距離アリーナ(LRA)、および画像認識について、広範な実験が行われます。実験によると、OmniNetは、LM1B、WMT'14 En-De / En-Fr、およびLong Range Arenaでの最先端のパフォーマンスの達成など、これらのタスク全体で大幅な改善を達成しています。さらに、Vision Transformersで全方向表現を使用すると、数ショットの学習と微調整のセットアップの両方で画像認識タスクが大幅に改善されます。
This paper proposes Omnidirectional Representations from Transformers (OmniNet). In OmniNet, instead of maintaining a strictly horizontal receptive field, each token is allowed to attend to all tokens in the entire network. This process can also be interpreted as a form of extreme or intensive attention mechanism that has the receptive field of the entire width and depth of the network. To this end, the omnidirectional attention is learned via a meta-learner, which is essentially another self-attention based model. In order to mitigate the computationally expensive costs of full receptive field attention, we leverage efficient self-attention models such as kernel-based (Choromanski et al.), low-rank attention (Wang et al.) and/or Big Bird (Zaheer et al.) as the meta-learner. Extensive experiments are conducted on autoregressive language modeling (LM1B, C4), Machine Translation, Long Range Arena (LRA), and Image Recognition. The experiments show that OmniNet achieves considerable improvements across these tasks, including achieving state-of-the-art performance on LM1B, WMT'14 En-De/En-Fr, and Long Range Arena. Moreover, using omnidirectional representation in Vision Transformers leads to significant improvements on image recognition tasks on both few-shot learning and fine-tuning setups.
updated: Mon Mar 01 2021 15:31:54 GMT+0000 (UTC)
published: Mon Mar 01 2021 15:31:54 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト