画像からのシーンの理解は、自動運転で遭遇する困難な問題です。オブジェクトレベルでは、2Dメソッドは単純なバウンディングボックスの計算からインスタンスのセグメンテーションのようなよりきめの細かい結果を提供するように徐々に進化してきましたが、3Dファミリは依然として3Dバウンディングボックスの推定によって支配されています。本論文では、形状事前分布を使用してステレオ画像ペアから車両の3D剛体ポーズと形状を共同で推定するための新しいアプローチを提案します。密なステレオ再構築から形状を点群に幾何学的に整列させる以前の作品とは異なり、私たちのアプローチは、エネルギー関数で測光とシルエットの整列項を組み合わせることにより、画像上で直接動作します。両方の用語との整合性を効率的に測定するために、適応型スパースポイント選択方式が提案されています。実験では、以前の幾何学的アプローチよりも3Dの姿勢と形状の推定に関する本方法の優れたパフォーマンスを示し、本方法が洗練ステップとしても適用可能であり、いくつかの最先端の深層学習のパフォーマンスを大幅に向上できることを実証しますベースの3Dオブジェクト検出器。すべての関連資料およびデモビデオは、プロジェクトページhttps://vision.in.tum.de/research/vslam/direct-shapeで入手できます。
Scene understanding from images is a challenging problem encountered in autonomous driving. On the object level, while 2D methods have gradually evolved from computing simple bounding boxes to delivering finer grained results like instance segmentations, the 3D family is still dominated by estimating 3D bounding boxes. In this paper, we propose a novel approach to jointly infer the 3D rigid-body poses and shapes of vehicles from a stereo image pair using shape priors. Unlike previous works that geometrically align shapes to point clouds from dense stereo reconstruction, our approach works directly on images by combining a photometric and a silhouette alignment term in the energy function. An adaptive sparse point selection scheme is proposed to efficiently measure the consistency with both terms. In experiments, we show superior performance of our method on 3D pose and shape estimation over the previous geometric approach and demonstrate that our method can also be applied as a refinement step and significantly boost the performances of several state-of-the-art deep learning based 3D object detectors. All related materials and demonstration videos are available at the project page https://vision.in.tum.de/research/vslam/direct-shape.