畳み込みニューラルネットワーク(CNN)は、オブジェクト検出の大きな進歩をもたらしました。さまざまなサイズのオブジェクトを検出するために、オブジェクト検出器は多くの場合、フィーチャピラミッドと呼ばれるマルチスケールフィーチャマップの階層を活用します。これは、CNNアーキテクチャによって容易に取得されます。ただし、畳み込み層の少ないボトムレベルの機能マップには、小さなオブジェクトの特性をキャプチャするために必要なセマンティック情報がないため、これらのオブジェクト検出器のパフォーマンスは制限されます。このような問題に対処するために、オブジェクト検出に使用される最下位レベルの特徴の深さを増やすためのさまざまな方法が提案されています。ほとんどのアプローチは、横方向の接続を伴うトップダウン経路を介した追加機能の生成に基づいていますが、当社のアプローチは、双方向の長期短期メモリ(biLSTM)を使用してマルチスケール機能マップを直接融合し、深く融合したセマンティクスを生成します。次に、結果のセマンティック情報は、チャネルごとのアテンションモデルを介して、各スケールで個々のピラミッドフィーチャに再配布されます。セマンティック結合および注意深い再配布機能ネットワーク(ScarfNet)をベースラインオブジェクト検出器、つまりFaster R-CNN、シングルショットマルチボックス検出器(SSD)およびRetinaNetと統合します。私たちの実験は、本手法が既存の特徴ピラミッド手法およびベースライン検出器よりも優れており、PASCAL VOCおよびCOCO検出ベンチマークで最先端の性能を達成していることを示しています。
Convolutional neural network (CNN) has led to significant progress in object detection. In order to detect the objects in various sizes, the object detectors often exploit the hierarchy of the multi-scale feature maps called feature pyramid, which is readily obtained by the CNN architecture. However, the performance of these object detectors is limited since the bottom-level feature maps, which experience fewer convolutional layers, lack the semantic information needed to capture the characteristics of the small objects. In order to address such problem, various methods have been proposed to increase the depth for the bottom-level features used for object detection. While most approaches are based on the generation of additional features through the top-down pathway with lateral connections, our approach directly fuses multi-scale feature maps using bidirectional long short term memory (biLSTM) in effort to generate deeply fused semantics. Then, the resulting semantic information is redistributed to the individual pyramidal feature at each scale through the channel-wise attention model. We integrate our semantic combining and attentive redistribution feature network (ScarfNet) with baseline object detectors, i.e., Faster R-CNN, single-shot multibox detector (SSD) and RetinaNet. Our experiments show that our method outperforms the existing feature pyramid methods as well as the baseline detectors and achieve the state of the art performances in the PASCAL VOC and COCO detection benchmarks.