arXiv reaDer
トランス対。 NLP 問題の MLP-Mixer 指数表現ギャップ
Transformer Vs. MLP-Mixer Exponential Expressive Gap For NLP Problems
ビジョン トランスフォーマーは、さまざまなビジョン タスクで広く使用されています。一方、MLP ベースのアーキテクチャを使用して同様のパフォーマンスを達成しようとする MLP ミキサーから始まる別の一連の作業があります。興味深いことに、これまで NLP タスクにそれらを使用したと報告されたものはなく、さらにこれまで、ビジョン タスクで最先端を達成すると主張されている mlp ベースのアーキテクチャはありませんでした。この論文では、複数の異なる入力間の依存関係を同時にモデル化する際の mlp ベースのアーキテクチャの表現力を分析し、注意と mlp ベースのメカニズムの間の指数関数的なギャップを示します。私たちの結果は、NLPの問題でmlpが注意ベースのメカニズムと競合できないことの理論的説明を示唆しています。また、ビジョンタスクのパフォーマンスギャップは、複数の異なる場所間の依存関係をモデル化する際のmlpの相対的な弱さに起因する可能性があることも示唆しています。 mlp アーキテクチャへのスマートな入力順列だけでは、パフォーマンスのギャップを埋めるのに十分ではない場合があります。
Vision-Transformers are widely used in various vision tasks. Meanwhile, there is another line of works starting with the MLP-mixer trying to achieve similar performance using mlp-based architectures. Interestingly, until now none reported using them for NLP tasks, additionally until now non of those mlp-based architectures claimed to achieve state-of-the-art in vision tasks. In this paper, we analyze the expressive power of mlp-based architectures in modeling dependencies between multiple different inputs simultaneously, and show an exponential gap between the attention and the mlp-based mechanisms. Our results suggest a theoretical explanation for the mlp inability to compete with attention-based mechanisms in NLP problems, they also suggest that the performance gap in vision tasks may be due to the mlp relative weakness in modeling dependencies between multiple different locations, and that combining smart input permutations to the mlp architectures may not suffice alone to close the performance gap.
updated: Wed Aug 17 2022 09:59:22 GMT+0000 (UTC)
published: Wed Aug 17 2022 09:59:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト