POD: Practical Object Detection with Scale-Sensitive Network
  スケールに敏感なオブジェクトの検出は、既存のメソッドのほとんどが明示的に学習できず、スケールの変動に対してロバストではない、困難なタスクのままです。さらに、ほとんどの既存の方法は、トレーニング中の効率が低下したり、推論中の速度が遅くなったりします。これは、リアルタイムアプリケーションに適していません。本論文では、スケールに敏感なネットワークを用いた実用的な物体検出手法を提案する。まず、各ネットワークステージの各畳み込みフィルターについて、すべての位置で共有されるグローバル連続スケールを予測する。スケールを効果的に学習するために、空間的特徴を平均化し、チャンネルからスケールを抽出します。高速展開のために、ロバストな分数スケールを各畳み込みフィルターの固定積分スケールの組み合わせに転送するスケール分解法を提案します。これは、拡張畳み込みを利用します。異なる構成の1ステージおよび2ステージアルゴリズムでそれを示します。実際のアプリケーションでは、この方法のトレーニングは効率的でシンプルであり、複雑なデータサンプリングを排除したり、戦略を最適化します。テスト中、提案された方法は余分な操作を必要とせず、TensorRTやTVMなどのハードウェアアクセラレーションを非常にサポートします。 COCOテスト開発では、ResNet-101に基づいて、1段検出器で41.5 mAP、2段検出器で42.1 mAPを達成し、追加のFLOPSなしでベースラインをそれぞれ2.4および2.1だけ上回りました。
Scale-sensitive object detection remains a challenging task, where most of the existing methods could not learn it explicitly and are not robust to scale variance. In addition, the most existing methods are less efficient during training or slow during inference, which are not friendly to real-time applications. In this paper, we propose a practical object detection method with scale-sensitive network.Our method first predicts a global continuous scale ,which is shared by all position, for each convolution filter of each network stage. To effectively learn the scale, we average the spatial features and distill the scale from channels. For fast-deployment, we propose a scale decomposition method that transfers the robust fractional scale into combination of fixed integral scales for each convolution filter, which exploits the dilated convolution. We demonstrate it on one-stage and two-stage algorithms under different configurations. For practical applications, training of our method is of efficiency and simplicity which gets rid of complex data sampling or optimize strategy. During test-ing, the proposed method requires no extra operation and is very supportive of hardware acceleration like TensorRT and TVM. On the COCO test-dev, our model could achieve a 41.5 mAP on one-stage detector and 42.1 mAP on two-stage detectors based on ResNet-101, outperforming base-lines by 2.4 and 2.1 respectively without extra FLOPS.
updated: Thu Sep 05 2019 06:24:50 GMT+0000 (UTC)
published: Thu Sep 05 2019 06:24:50 GMT+0000 (UTC)
