arXiv reaDer
効率的なアテンションネットワーク:プラグを差し込む場所を検索することでアテンションを加速します
Efficient Attention Network: Accelerate Attention by Searching Where to Plug
最近、多くのプラグアンドプレイ自己注意モジュールが、深い畳み込みニューラルネットワーク(CNN)の内部情報を活用することによってモデルの一般化を強化するために提案されています。以前の作品は、特定の機能、例えば、軽量またはタスク指向の注意のための注意モジュールの設計に重点を置いています。ただし、アテンションモジュールをどこに接続するかという重要性は無視されます。これは、モジュールをCNNバックボーン全体の各ブロックに個別に接続するため、ネットワークの深さが増すにつれて、計算コストとパラメーターの数が増加するためです。したがって、既存の注意モジュールの効率を改善するために、Efficient Attention Network(EAN)と呼ばれるフレームワークを提案します。 EANでは、共有メカニズム(Huang etal。2020)を活用して、バックボーン内で注意モジュールを共有し、強化学習を介して共有注意モジュールを接続する場所を検索します。最後に、(1)精度を維持しながら、(2)余分なパラメーターの増分を減らし、(3)推論を加速しながら、バックボーンとモジュール間の接続がまばらなアテンションネットワークを取得します。広く使用されているベンチマークと人気のある注意ネットワークに関する広範な実験は、EANの有効性を示しています。さらに、私たちのEANには、他のタスクに転送し、有益な機能をキャプチャする能力があることを経験的に示しています。コードはhttps://github.com/gbup-group/EAN-efficient-attention-networkで入手できます。
Recently, many plug-and-play self-attention modules are proposed to enhance the model generalization by exploiting the internal information of deep convolutional neural networks (CNNs). Previous works lay an emphasis on the design of attention module for specific functionality, e.g., light-weighted or task-oriented attention. However, they ignore the importance of where to plug in the attention module since they connect the modules individually with each block of the entire CNN backbone for granted, leading to incremental computational cost and number of parameters with the growth of network depth. Thus, we propose a framework called Efficient Attention Network (EAN) to improve the efficiency for the existing attention modules. In EAN, we leverage the sharing mechanism (Huang et al. 2020) to share the attention module within the backbone and search where to connect the shared attention module via reinforcement learning. Finally, we obtain the attention network with sparse connections between the backbone and modules, while (1) maintaining accuracy (2) reducing extra parameter increment and (3) accelerating inference. Extensive experiments on widely-used benchmarks and popular attention networks show the effectiveness of EAN. Furthermore, we empirically illustrate that our EAN has the capacity of transferring to other tasks and capturing the informative features. The code is available at https://github.com/gbup-group/EAN-efficient-attention-network.
updated: Sun Jul 11 2021 12:44:58 GMT+0000 (UTC)
published: Sat Nov 28 2020 03:31:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト