Intersection-over-Union(IoU)ベースの最適化は、最終的なIoU予測メトリックと損失の一貫性を維持するため、単一ステージ2Dオブジェクト検出器の回帰ブランチと分類ブランチの両方で広く使用されています。最近、いくつかの3Dオブジェクト検出方法は、IoUベースの最適化を採用し、2DIoUを3DIoUに直接置き換えています。ただし、このような3Dでの直接計算は、実装が複雑で逆方向の操作が非効率的であるため、非常にコストがかかります。さらに、3D IoUベースの最適化は、回転に敏感であり、トレーニングの不安定性や検出パフォーマンスの低下を引き起こす可能性があるため、最適ではありません。この論文では、回転感度の問題を軽減し、トレーニング段階で3DIoUと比較してより効率的な最適化目標を生成できる新しい回転分離IoU(RDIoU)メソッドを提案します。具体的には、RDIoUは、回転変数を独立した項として分離することにより、回帰パラメーターの複雑な相互作用を単純化しますが、3DIoUのジオメトリは保持します。 RDIoUを回帰ブランチと分類ブランチの両方に組み込むことにより、ネットワークはより正確なバウンディングボックスを学習し、同時に分類と回帰の間の不整合の問題を克服することが奨励されます。ベンチマークKITTIとWaymoOpenDatasetでの広範な実験により、RDIoUメソッドが単一ステージの3Dオブジェクト検出に大幅な改善をもたらすことができることが検証されています。
Since Intersection-over-Union (IoU) based optimization maintains the consistency of the final IoU prediction metric and losses, it has been widely used in both regression and classification branches of single-stage 2D object detectors. Recently, several 3D object detection methods adopt IoU-based optimization and directly replace the 2D IoU with 3D IoU. However, such a direct computation in 3D is very costly due to the complex implementation and inefficient backward operations. Moreover, 3D IoU-based optimization is sub-optimal as it is sensitive to rotation and thus can cause training instability and detection performance deterioration. In this paper, we propose a novel Rotation-Decoupled IoU (RDIoU) method that can mitigate the rotation-sensitivity issue, and produce more efficient optimization objectives compared with 3D IoU during the training stage. Specifically, our RDIoU simplifies the complex interactions of regression parameters by decoupling the rotation variable as an independent term, yet preserving the geometry of 3D IoU. By incorporating RDIoU into both the regression and classification branches, the network is encouraged to learn more precise bounding boxes and concurrently overcome the misalignment issue between classification and regression. Extensive experiments on the benchmark KITTI and Waymo Open Dataset validate that our RDIoU method can bring substantial improvement for the single-stage 3D object detection.