本論文では、オブジェクト検出のためにアンカーボックスを最適化する一般的なアプローチを提案します。現在、アンカーボックスは最先端の検出フレームワークで広く採用されています。ただし、これらのフレームワークは通常、アンカーボックスの形状をヒューリスティックな方法で事前定義し、トレーニング中にサイズを修正します。アンカーボックスの設計の精度を向上させ、労力を削減するために、アンカーの形状を動的に学習することを提案します。これにより、アンカーはデータ配信とネットワーク学習機能に自動的に適応できます。学習アプローチは、確率的勾配降下法を使用して簡単に実装でき、アンカーボックスベースの検出フレームワークにプラグインできます。追加のトレーニングコストはほとんど無視でき、推論時間やメモリコストには影響しません。徹底的な実験により、提案されたアンカー最適化手法は、Pascal VOC 07 + 12、MS COCO、Brainwashを含むいくつかのベンチマークデータセットのベースライン手法に対して、大幅な改善(\ ge 1%mAP絶対ゲイン)を一貫して達成します。一方、堅牢性は、さまざまなアンカー初期化方法およびアンカー形状の数に対しても検証されます。これにより、アンカーボックスの設計の問題が大幅に簡素化されます。
In this paper, we propose a general approach to optimize anchor boxes for object detection. Nowadays, anchor boxes are widely adopted in state-of-the-art detection frameworks. However, these frameworks usually pre-define anchor box shapes in heuristic ways and fix the sizes during training. To improve the accuracy and reduce the effort of designing anchor boxes, we propose to dynamically learn the anchor shapes, which allows the anchors to automatically adapt to the data distribution and the network learning capability. The learning approach can be easily implemented with stochastic gradient descent and can be plugged into any anchor box-based detection framework. The extra training cost is almost negligible and it has no impact on the inference time or memory cost. Exhaustive experiments demonstrate that the proposed anchor optimization method consistently achieves significant improvement (\ge 1% mAP absolute gain) over the baseline methods on several benchmark datasets including Pascal VOC 07+12, MS COCO and Brainwash. Meanwhile, the robustness is also verified towards different anchor initialization methods and the number of anchor shapes, which greatly simplifies the problem of anchor box design.