arXiv reaDer
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
 最近、チャネルアテンションメカニズムは、深い畳み込みニューラルネットワーク(CNN)のパフォーマンスを向上させる大きな可能性を提供することが実証されています。ただし、ほとんどの既存の方法は、より優れたパフォーマンスを実現するためのより洗練されたアテンションモジュールの開発に専念しており、必然的にモデルの複雑さが増大します。パフォーマンスと複雑さのトレードオフのパラドックスを克服するために、このペーパーでは、明確なパフォーマンスの向上をもたらしながら、ほんの一握りのパラメーターのみを含む効率的なチャネルアテンション(ECA)モジュールを提案します。 SENetのチャネルアテンションモジュールを分析することにより、次元の削減を回避することがチャネルの注意を学ぶために重要であり、適切なクロスチャネル相互作用がモデルの複雑さを大幅に削減しながらパフォーマンスを維持できることを経験的に示しています。したがって、1次元の畳み込みを介して効率的に実装できる、次元の削減なしのローカルクロスチャネル相互作用戦略を提案します。さらに、1次元畳み込みのカーネルサイズを適応的に選択し、ローカルクロスチャネル相互作用のカバレッジを決定する方法を開発します。提案されたECAモジュールは効率的かつ効果的です。たとえば、ResNet50のバックボーンに対するモジュールのパラメーターと計算は、それぞれ80対24.37Mおよび4.7e-4 GFLOP対3.86 GFLOPであり、パフォーマンスの向上は2%以上です。トップ1の精度に関して。 ResNetとMobileNetV2のバックボーンを使用して、画像分類、オブジェクト検出、インスタンスセグメンテーションに関するECAモジュールを広範囲に評価します。実験結果は、私たちのモジュールが対応するモジュールに対して有利に機能する一方で、より効率的であることを示しています。
Recently, channel attention mechanism has demonstrated to offer great potential in improving the performance of deep convolutional neural networks (CNNs). However, most existing methods dedicate to developing more sophisticated attention modules for achieving better performance, which inevitably increase model complexity. To overcome the paradox of performance and complexity trade-off, this paper proposes an Efficient Channel Attention (ECA) module, which only involves a handful of parameters while bringing clear performance gain. By dissecting the channel attention module in SENet, we empirically show avoiding dimensionality reduction is important for learning channel attention, and appropriate cross-channel interaction can preserve performance while significantly decreasing model complexity. Therefore, we propose a local cross-channel interaction strategy without dimensionality reduction, which can be efficiently implemented via 1D convolution. Furthermore, we develop a method to adaptively select kernel size of 1D convolution, determining coverage of local cross-channel interaction. The proposed ECA module is efficient yet effective, e.g., the parameters and computations of our modules against backbone of ResNet50 are 80 vs. 24.37M and 4.7e-4 GFLOPs vs. 3.86 GFLOPs, respectively, and the performance boost is more than 2% in terms of Top-1 accuracy. We extensively evaluate our ECA module on image classification, object detection and instance segmentation with backbones of ResNets and MobileNetV2. The experimental results show our module is more efficient while performing favorably against its counterparts.
updated: Tue Apr 07 2020 13:53:51 GMT+0000 (UTC)
published: Tue Oct 08 2019 01:14:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト