自動運転のコンテキストでマルチセンサーの洗練された3 Dオブジェクト検出システムを提案します。このフレームワークでは、単眼カメラは、2Dオブジェクトの提案と最初の3Dバウンディングボックスの予測の基本的なセンサーとして機能します。ステレオカメラとLiDARは、3Dボックスのローカリゼーションパフォーマンスを改善するための適応型プラグインセンサーとして扱われます。生の測定ドメインで観測された各要素(たとえば、ステレオのピクセル、LiDARの3Dポイント)について、インスタンスフレーム表現としてローカルジオメトリをモデリングします。これは、オブジェクトフレームに関する各要素の3D座標を示します。この統一された幾何学的表現を使用して、立体測光アライメントまたは点群アライメントによって3Dオブジェクトの位置を統一して洗練することができます。最先端の単眼ステレオ法と比較した優れた3D検出および定位性能と、KITTIオブジェクトベンチマークでのベースラインLiDAR法と比較した競合性能を実証します。
We propose a 3D object detection system with multi-sensor refinement in the context of autonomous driving. In our framework, the monocular camera serves as the fundamental sensor for 2D object proposal and initial 3D bounding box prediction. While the stereo cameras and LiDAR are treated as adaptive plug-in sensors to refine the 3D box localization performance. For each observed element in the raw measurement domain (e.g., pixels for stereo, 3D points for LiDAR), we model the local geometry as an instance vector representation, which indicates the 3D coordinate of each element respecting to the object frame. Using this unified geometric representation, the 3D object location can be unified refined by the stereo photometric alignment or point cloud alignment. We demonstrate superior 3D detection and localization performance compared to state-of-the-art monocular, stereo methods and competitive performance compared with the baseline LiDAR method on the KITTI object benchmark.