安全な自動運転には、信頼性の高い3Dオブジェクトの検出が必要です。これにより、対象物の6 DoFポーズと寸法を決定できます。このタスクを解決するためにステレオカメラを使用することは、広く使用されているLiDARセンサーに代わる費用対効果の高い選択肢です。現在の最先端のステレオ3Dオブジェクト検出は、既存のPSMNetステレオマッチングネットワークを変更せずに使用し、推定された視差を3Dポイントクラウドに変換し、このポイントクラウドをLiDARベースの3Dオブジェクト検出器に送ります。 。既存のステレオマッチングネットワークの問題は、3Dオブジェクト検出ではなく、視差推定用に設計されていることです。オブジェクトポイントクラウドの形状と精度は焦点ではありません。ステレオマッチングネットワークは、通常、背景と前景のポイントが一緒に推定されるため、ストリーキングと定義するオブジェクト境界での不正確な深度推定の影響を受けます。また、既存のネットワークは、損失関数でのオブジェクトポイントクラウドの推定位置ではなく、視差を不利にします。これら2つの問題に対処するために、関心のあるオブジェクトの視差のみを推定する、新しい2Dボックスの関連付けとオブジェクト中心のステレオマッチング方法を提案します。この方法は、KITTI 3DおよびBEVベンチマークで最新の結果を達成します。
Safe autonomous driving requires reliable 3D object detection-determining the 6 DoF pose and dimensions of objects of interest. Using stereo cameras to solve this task is a cost-effective alternative to the widely used LiDAR sensor. The current state-of-the-art for stereo 3D object detection takes the existing PSMNet stereo matching network, with no modifications, and converts the estimated disparities into a 3D point cloud, and feeds this point cloud into a LiDAR-based 3D object detector. The issue with existing stereo matching networks is that they are designed for disparity estimation, not 3D object detection; the shape and accuracy of object point clouds are not the focus. Stereo matching networks commonly suffer from inaccurate depth estimates at object boundaries, which we define as streaking, because background and foreground points are jointly estimated. Existing networks also penalize disparity instead of the estimated position of object point clouds in their loss functions. We propose a novel 2D box association and object-centric stereo matching method that only estimates the disparities of the objects of interest to address these two issues. Our method achieves state-of-the-art results on the KITTI 3D and BEV benchmarks.