arXiv reaDer
PLUMENet:ステレオ画像からの効率的な3Dオブジェクト検出
PLUMENet: Efficient 3D Object Detection from Stereo Images
3Dオブジェクト検出は、自動運転車などの多くのロボットアプリケーションの重要なコンポーネントです。多くのアプローチは、正確な3D推定値を生成するために、LiDARなどの高価な3Dセンサーに依存していますが、ステレオカメラを活用する方法は、最近、低コストで有望な結果を示しています。既存のアプローチでは、この問題に2つのステップで取り組みます。最初にステレオ画像から深度推定を実行して疑似LiDARポイントクラウドを生成し、それを3Dオブジェクト検出器への入力として使用します。ただし、このアプローチは、2つのタスクが2つの異なる距離空間で最適化されるため、表現の不一致のために最適ではありません。この論文では、これら2つのタスクを統合し、同じ距離空間で実行するモデルを提案します。具体的には、3D空間に疑似LiDARフィーチャボリューム(PLUME)を直接構築します。これは、深度推定とオブジェクト検出の両方のタスクを解決するために使用されます。私たちのアプローチは、挑戦的なKITTIベンチマークの既存の方法と比較して、はるかに高速な推論時間で最先端のパフォーマンスを実現します。
3D object detection is a key component of many robotic applications such as self-driving vehicles. While many approaches rely on expensive 3D sensors such as LiDAR to produce accurate 3D estimates, methods that exploit stereo cameras have recently shown promising results at a lower cost. Existing approaches tackle this problem in two steps: first depth estimation from stereo images is performed to produce a pseudo LiDAR point cloud, which is then used as input to a 3D object detector. However, this approach is suboptimal due to the representation mismatch, as the two tasks are optimized in two different metric spaces. In this paper we propose a model that unifies these two tasks and performs them in the same metric space. Specifically, we directly construct a pseudo LiDAR feature volume (PLUME) in 3D space, which is then used to solve both depth estimation and object detection tasks. Our approach achieves state-of-the-art performance with much faster inference times when compared to existing methods on the challenging KITTI benchmark.
updated: Sun Aug 01 2021 03:40:28 GMT+0000 (UTC)
published: Sun Jan 17 2021 05:11:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト