コンボリューションニューラルネットワーク(CNN)は、集中的なコンピュータービジョンタスクの解決に非常に成功しています。 CNNで使用される畳み込みフィルターは、入力から有用な特徴を抽出することにより、この成功に大きな役割を果たしました。最近、研究者は、これらのフィルター(Squeeze-and-Excitation Networks(SENets)など)によって作成された特徴マップを再調整することにより、CNNのパフォーマンスを向上させようとしました。これらのアプローチは、重要なチャンネルまたは特徴マップを興奮させ、残りを減らすことでパフォーマンスを向上させました。ただし、その過程で、アーキテクチャの複雑さが増しました。私たちは、CNNのパフォーマンスを向上させる既存の方法よりもはるかに低い複雑さを導入しながら、それらよりも大幅に優れたパフォーマンスを実現するアーキテクチャブロックを提案します。 CIFAR、ImageNet、およびMS-COCOデータセットで実験を行い、提案されたブロックが最先端の結果に挑戦できることを示します。この方法では、ResNet-50アーキテクチャをブーストして、3倍の深さのネットワークであるResNet-152アーキテクチャと同等に分類します。また、我々の方法は分類に限定されず、オブジェクト検出などの他のタスクにも一般化できることを実験的に示しています。
Convolution Neural Networks (CNN) have been extremely successful in solving intensive computer vision tasks. The convolutional filters used in CNNs have played a major role in this success, by extracting useful features from the inputs. Recently researchers have tried to boost the performance of CNNs by re-calibrating the feature maps produced by these filters, e.g., Squeeze-and-Excitation Networks (SENets). These approaches have achieved better performance by Exciting up the important channels or feature maps while diminishing the rest. However, in the process, architectural complexity has increased. We propose an architectural block that introduces much lower complexity than the existing methods of CNN performance boosting while performing significantly better than them. We carry out experiments on the CIFAR, ImageNet and MS-COCO datasets, and show that the proposed block can challenge the state-of-the-art results. Our method boosts the ResNet-50 architecture to perform comparably to the ResNet-152 architecture, which is a three times deeper network, on classification. We also show experimentally that our method is not limited to classification but also generalizes well to other tasks such as object detection.