注意メカニズム、特にチャネル注意は、コンピュータビジョンの分野で大きな成功を収めています。多くの研究は、根本的な問題を無視しながら、効率的なチャネル注意メカニズムを設計する方法に焦点を当てています。つまり、疑う余地のない前処理方法としてグローバル平均プーリング(GAP)を使用しています。この作業では、別の視点から始めて、周波数分析を使用してチャネルの注意を再考します。周波数分析に基づいて、従来のGAPが周波数領域での特徴分解の特殊なケースであることを数学的に証明します。証明により、周波数領域でのチャネル注意メカニズムの前処理を自然に一般化し、新しいマルチスペクトルチャネル注意を備えたFcaNetを提案します。提案された方法は単純ですが効果的です。計算で1行のコードのみを変更して、既存のチャネルアテンションメソッド内にメソッドを実装できます。さらに、提案された方法は、画像分類、オブジェクト検出、およびインスタンスセグメンテーションタスクに関する他のチャネル注意方法と比較して、最先端の結果を達成します。私たちの方法は、同じ数のパラメーターと同じ計算コストで、ベースラインのSENet-50と比較してImageNetのトップ1の精度に関して1.8%向上する可能性があります。私たちのコードとモデルはhttps://github.com/cfzd/FcaNetで公開されています。
Attention mechanism, especially channel attention, has gained great success in the computer vision field. Many works focus on how to design efficient channel attention mechanisms while ignoring a fundamental problem, i.e., using global average pooling (GAP) as the unquestionable pre-processing method. In this work, we start from a different view and rethink channel attention using frequency analysis. Based on the frequency analysis, we mathematically prove that the conventional GAP is a special case of the feature decomposition in the frequency domain. With the proof, we naturally generalize the pre-processing of channel attention mechanism in the frequency domain and propose FcaNet with novel multi-spectral channel attention. The proposed method is simple but effective. We can change only one line of code in the calculation to implement our method within existing channel attention methods. Moreover, the proposed method achieves state-of-the-art results compared with other channel attention methods on image classification, object detection, and instance segmentation tasks. Our method could improve by 1.8% in terms of Top-1 accuracy on ImageNet compared with the baseline SENet-50, with the same number of parameters and the same computational cost. Our code and models are publicly available at https://github.com/cfzd/FcaNet.