Instance Scale Normalization for image understanding
スケールの変動は、オブジェクト検出にとって依然として難しい問題です。一般的なパラダイムでは、通常、マルチスケールのトレーニングとテスト(イメージピラミッド)またはFPN(機能ピラミッドネットワーク)を採用して、オブジェクトを広範囲のスケールで処理します。ただし、マルチスケールメソッドは、FPNを使用した深い畳み込みニューラルネットワークでもうまく処理できないスケールのバリエーションをさらに悪化させます。この作業では、上記の問題を解決するためのインスタンススケール正規化(ISN)と呼ばれる革新的なパラダイムを提案します。 ISNは、トレーニング段階とテスト段階の両方で、オブジェクトのスケールスペースを一定の範囲(ISN範囲)に圧縮します。これにより、スケールの変動の問題が根本的に再確認され、ネットワークの最適化の困難さが軽減されます。実験は、いくつかのアーキテクチャで、ISNがオブジェクト検出、インスタンスセグメンテーション、およびマルチタスクの人間の姿勢推定において、マルチスケールの対応物を大幅に上回っていることを示しています。 COCO test-devでは、ISNに基づく私たちの単一モデルは、ResNet-101バックボーンで46.5 mAPを達成します。これは、オブジェクト検出の最先端(SOTA)候補の1つです。
Scale variation remains a challenging problem for object detection. Common paradigms usually adopt multiscale training & testing (image pyramid) or FPN (feature pyramid network) to process objects in a wide scale range. However, multi-scale methods aggravate more variations of scale that even deep convolution neural networks with FPN cannot handle well. In this work, we propose an innovative paradigm called Instance Scale Normalization (ISN) to resolve the above problem. ISN compresses the scale space of objects into a consistent range (ISN range), in both training and testing phases. This reassures the problem of scale variation fundamentally and reduces the difficulty of network optimization. Experiments show that ISN surpasses multi-scale counterpart significantly for object detection, instance segmentation, and multi-task human pose estimation, on several architectures. On COCO test-dev, our single model based on ISN achieves 46.5 mAP with a ResNet-101 backbone, which is among the state-of-the-art (SOTA) candidates for object detection.
updated: Wed Jun 10 2020 01:42:50 GMT+0000 (UTC)
published: Tue Aug 20 2019 13:12:33 GMT+0000 (UTC)
