arXiv reaDer
ディープ トランスフォーマーは包括的な周波数データを渇望する
Deep Transformers Thirst for Comprehensive-Frequency Data
現在の研究では、誘導性バイアス (IB) を導入すると、ビジョン トランス (ViT) の性能が向上することが示されています。ただし、それらはピラミッド構造を同時に導入して、IB の導入によって引き起こされるインクリメンタル FLOP とパラメーターを打ち消します。このような構造は、コンピューター ビジョンと自然言語処理 (NLP) の統合を破壊し、ピクセル レベルのタスクにも適していません。 LSRA と呼ばれる NLP モデルを研究します。これは、FLOP とパラメーターが少ないピラミッドのない構造で IB を導入します。 ViT よりもパフォーマンスが優れている理由を分析し、IB を導入すると各レイヤーの高頻度データ (HFD) のシェアが増加し、「注意」がより包括的な情報に与えられることを発見しました。その結果、頭部はより多様な情報に気づき、頭部注意距離の多様性 (Head Diversity) が増加します。しかし、LSRA が IB を導入した方法は非効率的です。 HFDシェアをさらに向上させ、ヘッドの多様性を高め、トランスの可能性を探るために、EITを提案します。 EIT 斬新な減少畳み込み構造とピラミッドフリー構造により、効率的に IB を ViT に導入します。 4 つの小規模なデータセットでは、EIT は ViT よりも少ないパラメーターと FLOP で平均 13% の精度向上を実現しています。 ImageNet-1K では、EIT は 3.5M、8.9M、16M、および 25M パラメータでそれぞれ 70%、78%、81%、および 82% のトップ 1 精度を達成しており、代表的な最新技術と競合しています。 (SOTA) メソッド。特に EIT は、ピラミッドフリー構造を持つ他のモデルよりも優れた SOTA 性能を達成しています。最後に、アブレーション研究は、EIT が位置埋め込みを必要としないことを示しています。これにより、埋め込みを再設計する必要なく、より多くの視覚的タスクへの単純化された適応の可能性が提供されます。
Current researches indicate that the introduction of inductive bias (IB) can improve the performance of Vision Transformer (ViT). However, they introduce a pyramid structure at the same time to counteract the incremental FLOPs and parameters caused by introducing IB. A structure like this destroys the unification of computer vision and natural language processing (NLP) and is also unsuitable for pixel-level tasks. We study an NLP model called LSRA, which introduces IB under a pyramid-free structure with fewer FLOPs and parameters. We analyze why it outperforms ViT, discovering that introducing IB increases the share of high-frequency data (HFD) in each layer, giving 'attention' more comprehensive information. As a result, the head notices more diverse information, showing increased diversity of the head-attention distances (Head Diversity). However, the way LSRA introduced IB is inefficient. To further improve the HFD share, increase the Head Diversity, and explore the potential of transformers, we propose EIT. EIT Efficiently introduces IB to ViT with a novel decreasing convolutional structure and a pyramid-free structure. In four small-scale datasets, EIT has an accuracy improvement of 13% on average with fewer parameters and FLOPs than ViT. In the ImageNet-1K, EIT achieves 70%, 78%, 81% and 82% Top-1 accuracy with 3.5M, 8.9M, 16M and 25M parameters, respectively, which are competitive with the representative state-of-the-art (SOTA) methods. In particular, EIT achieves SOTA performance over other models which have a pyramid-free structure. Finally, ablation studies show that EIT does not require position embedding, which offers the possibility of simplified adaptation to more visual tasks without the need to redesign embedding.
updated: Thu Oct 13 2022 03:35:46 GMT+0000 (UTC)
published: Mon Mar 14 2022 14:01:17 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト