arXiv reaDer
高密度のロングテールオブジェクト検出のための均等化された焦点損失
Equalized Focal Loss for Dense Long-Tailed Object Detection
ロングテールオブジェクト検出の最近の成功にもかかわらず、ほとんどすべてのロングテールオブジェクト検出器は、2段階のパラダイムに基づいて開発されています。実際には、1ステージ検出器は、展開が容易なシンプルで高速なパイプラインを備えているため、業界でより普及しています。ただし、ロングテールシナリオでは、この一連の作業はこれまで調査されていません。この論文では、この場合に一段検波器がうまく機能するかどうかを調査します。 1ステージ検出器が優れたパフォーマンスを達成することを妨げる主な障害は、次のとおりです。カテゴリは、ロングテールのデータ分布の下でさまざまな程度の正負の不均衡の問題に悩まされます。従来の焦点損失は、トレーニングプロセスとすべてのカテゴリの同じ変調係数のバランスをとるため、ロングテールの問題を処理できません。この問題に対処するために、不均衡の程度に応じて、さまざまなカテゴリの正と負のサンプルの損失の寄与を個別に再調整するEqualized Focal Loss(EFL)を提案します。具体的には、EFLは、さまざまなカテゴリのトレーニングステータスによって動的に調整できるカテゴリ関連の変調係数を採用しています。挑戦的なLVISv1ベンチマークで実施された広範な実験は、提案された方法の有効性を示しています。エンドツーエンドのトレーニングパイプラインにより、EFLはAP全体で29.2%を達成し、既存のすべての最先端の方法を超えて、まれなカテゴリで大幅なパフォーマンスの向上を実現します。コードはhttps://github.com/ModelTC/EODで入手できます。
Despite the recent success of long-tailed object detection, almost all long-tailed object detectors are developed based on the two-stage paradigm. In practice, one-stage detectors are more prevalent in the industry because they have a simple and fast pipeline that is easy to deploy. However, in the long-tailed scenario, this line of work has not been explored so far. In this paper, we investigate whether one-stage detectors can perform well in this case. We discover the primary obstacle that prevents one-stage detectors from achieving excellent performance is: categories suffer from different degrees of positive-negative imbalance problems under the long-tailed data distribution. The conventional focal loss balances the training process with the same modulating factor for all categories, thus failing to handle the long-tailed problem. To address this issue, we propose the Equalized Focal Loss (EFL) that rebalances the loss contribution of positive and negative samples of different categories independently according to their imbalance degrees. Specifically, EFL adopts a category-relevant modulating factor which can be adjusted dynamically by the training status of different categories. Extensive experiments conducted on the challenging LVIS v1 benchmark demonstrate the effectiveness of our proposed method. With an end-to-end training pipeline, EFL achieves 29.2% in terms of overall AP and obtains significant performance improvements on rare categories, surpassing all existing state-of-the-art methods. The code is available at https://github.com/ModelTC/EOD.
updated: Fri Jan 07 2022 18:35:58 GMT+0000 (UTC)
published: Fri Jan 07 2022 18:35:58 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト