Prime Sample Attention in Object Detection
  オブジェクト検出フレームワークでは、すべてのサンプルを平等に扱い、平均してパフォーマンスを最大化することを目標とする一般的なパラダイムです。この作業では、さまざまなサンプルがmAPの観点から測定された全体的なパフォーマンスにどのように寄与するかについての慎重な研究を通じて、このパラダイムを再検討します。私たちの研究は、各ミニバッチのサンプルが独立でも等しく重要でもないことを示唆しているため、平均してより良い分類器が必ずしも高いmAPを意味するわけではありません。この研究によって動機付けられた、私たちはプライムサンプルの概念を提案します。それは検出性能を駆動するのに重要な役割を果たすものです。さらに、PrIme Sample Attention(PISA)と呼ばれるシンプルで効果的なサンプリングおよび学習戦略を開発し、トレーニングプロセスの焦点をそのようなサンプルに向けます。私たちの実験は、検出器を訓練する際に、ハードサンプルよりもプライムサンプルに焦点を合わせることがしばしばより効果的であることを示しています。特に、MSCOCOデータセットでは、強力なバックボーンResNeXt-101を使用した場合でも、PISAはランダムサンプリングベースラインおよびハードマイニングスキーム(OHEMやFocal Lossなど)よりも、シングルステージおよび2ステージ検出器の両方で一貫して約2%優れています。
It is a common paradigm in object detection frameworks to treat all samples equally and target at maximizing the performance on average. In this work, we revisit this paradigm through a careful study on how different samples contribute to the overall performance measured in terms of mAP. Our study suggests that the samples in each mini-batch are neither independent nor equally important, and therefore a better classifier on average does not necessarily mean higher mAP. Motivated by this study, we propose the notion of Prime Samples, those that play a key role in driving the detection performance. We further develop a simple yet effective sampling and learning strategy called PrIme Sample Attention (PISA) that directs the focus of the training process towards such samples. Our experiments demonstrate that it is often more effective to focus on prime samples than hard samples when training a detector. Particularly, On the MSCOCO dataset, PISA outperforms the random sampling baseline and hard mining schemes, e.g., OHEM and Focal Loss, consistently by around 2% on both single-stage and two-stage detectors, even with a strong backbone ResNeXt-101.
updated: Sun Sep 15 2019 15:40:02 GMT+0000 (UTC)
published: Tue Apr 09 2019 17:59:18 GMT+0000 (UTC)
