arXiv reaDer
体系的なIoU関連の方法:より良いローカリゼーションのための単純化された回帰を超えて
A Systematic IoU-Related Method: Beyond Simplified Regression for Better Localization
Smooth-ℓ_1Lossなどの4変数独立回帰ローカリゼーション損失は、最新の検出器でデフォルトで使用されます。それにもかかわらず、この種の損失は単純化されすぎているため、最終的な評価指標である交差点(IoU)と矛盾します。標準のIoUを直接使用することも不可能ではありません。これは、重複しないボックスの場合の一定のゼロのプラトーと、最小の非ゼロの勾配により、トレーニングが不可能になる可能性があるためです。したがって、これらの問題に対処するための体系的な方法を提案します。まず、新しいメトリックである拡張IoU(EIoU)を提案します。これは、2つのボックスがオーバーラップしていない場合は明確に定義され、オーバーラップしている場合は標準のIoUに縮小されます。次に、EIoUに基づいて損失を構築するための凸面化手法(CT)を提示します。これにより、最小の勾配がゼロになることが保証されます。第三に、我々は、部分的なEIoU損失をより着実かつスムーズに最小に近づけるために、定常最適化手法(SOT)を提案します。第4に、EIoUベースの損失の機能を十分に活用するために、相互に関連するIoU予測ヘッドを導入して、ローカリゼーションの精度をさらに高めます。提案された貢献により、ResNet50 + FPNをバックボーンとしてFasterR-CNNに組み込まれた新しい方法は、トレーニングや推論の計算コストをほとんどかけずに、ベースラインのSmooth-ℓ_1損失に対してVOC2007で4.2 mAPゲイン、COCO2017で2.3mAPゲインをもたらします。具体的には、メトリックが厳密であるほど、ゲインが顕著になり、メトリックAP_90でVOC2007で8.2 mAP、COCO2017で5.4mAPが向上します。
Four-variable-independent-regression localization losses, such as Smooth-ℓ_1 Loss, are used by default in modern detectors. Nevertheless, this kind of loss is oversimplified so that it is inconsistent with the final evaluation metric, intersection over union (IoU). Directly employing the standard IoU is also not infeasible, since the constant-zero plateau in the case of non-overlapping boxes and the non-zero gradient at the minimum may make it not trainable. Accordingly, we propose a systematic method to address these problems. Firstly, we propose a new metric, the extended IoU (EIoU), which is well-defined when two boxes are not overlapping and reduced to the standard IoU when overlapping. Secondly, we present the convexification technique (CT) to construct a loss on the basis of EIoU, which can guarantee the gradient at the minimum to be zero. Thirdly, we propose a steady optimization technique (SOT) to make the fractional EIoU loss approaching the minimum more steadily and smoothly. Fourthly, to fully exploit the capability of the EIoU based loss, we introduce an interrelated IoU-predicting head to further boost localization accuracy. With the proposed contributions, the new method incorporated into Faster R-CNN with ResNet50+FPN as the backbone yields 4.2 mAP gain on VOC2007 and 2.3 mAP gain on COCO2017 over the baseline Smooth-ℓ_1 Loss, at almost no training and inferencing computational cost. Specifically, the stricter the metric is, the more notable the gain is, improving 8.2 mAP on VOC2007 and 5.4 mAP on COCO2017 at metric AP_90.
updated: Fri Dec 03 2021 09:00:55 GMT+0000 (UTC)
published: Fri Dec 03 2021 09:00:55 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト