arXiv reaDer
オブジェクト中心の補助深度監視による単眼 3D オブジェクト検出の強化
Boosting Monocular 3D Object Detection with Object-Centric Auxiliary Depth Supervision
単眼 3D 検出における最近の進歩では、深度推定ネットワークが 3D 検出ネットワークの中間段階として明示的に活用されています。深度マップ アプローチは、大規模なデータセットでトレーニングされた深度推定ネットワークのおかげで、他の方法よりもオブジェクトに正確な深度をもたらします。ただし、深度マップのアプローチは、深度マップの精度によって制限される可能性があり、深度推定と 3D 検出に 2 つの別々のネットワークを連続して使用すると、計算コストと推論時間が大幅に増加します。この作業では、深度推定タスクに類似した深度予測損失を使用して検出ネットワークを共同でトレーニングすることにより、RGB 画像ベースの 3D 検出器をブーストする方法を提案します。このようにして、当社の 3D 検出ネットワークは、深さマップを明示的に予測することなく正確な深さを推定するために、人間の注釈コストを必要としない生の LiDAR ポイントからのより多くの深さの監視によって監視することができます。私たちの新しいオブジェクト中心の深度予測損失は、オブジェクト中心の方法でピクセル単位の深度監視を活用するために、3D オブジェクト検出にとって重要な前景オブジェクト周辺の深度に焦点を当てています。私たちの深度回帰モデルは、オブジェクトの 3D 信頼度を表す深度の不確実性を予測するようにさらにトレーニングされています。生の LiDAR ポイントを使用して 3D 検出器を効果的にトレーニングし、エンドツーエンドのトレーニングを可能にするために、3D オブジェクトの回帰ターゲットを再検討し、ネットワーク アーキテクチャを設計します。 KITTI および nuScenes ベンチマークでの広範な実験は、リアルタイムの推論速度を維持しながら、私たちの方法が単眼画像ベースの 3D 検出器を大幅に向上させ、深度マップ アプローチよりも優れていることを示しています。
Recent advances in monocular 3D detection leverage a depth estimation network explicitly as an intermediate stage of the 3D detection network. Depth map approaches yield more accurate depth to objects than other methods thanks to the depth estimation network trained on a large-scale dataset. However, depth map approaches can be limited by the accuracy of the depth map, and sequentially using two separated networks for depth estimation and 3D detection significantly increases computation cost and inference time. In this work, we propose a method to boost the RGB image-based 3D detector by jointly training the detection network with a depth prediction loss analogous to the depth estimation task. In this way, our 3D detection network can be supervised by more depth supervision from raw LiDAR points, which does not require any human annotation cost, to estimate accurate depth without explicitly predicting the depth map. Our novel object-centric depth prediction loss focuses on depth around foreground objects, which is important for 3D object detection, to leverage pixel-wise depth supervision in an object-centric manner. Our depth regression model is further trained to predict the uncertainty of depth to represent the 3D confidence of objects. To effectively train the 3D detector with raw LiDAR points and to enable end-to-end training, we revisit the regression target of 3D objects and design a network architecture. Extensive experiments on KITTI and nuScenes benchmarks show that our method can significantly boost the monocular image-based 3D detector to outperform depth map approaches while maintaining the real-time inference speed.
updated: Sat Oct 29 2022 11:32:28 GMT+0000 (UTC)
published: Sat Oct 29 2022 11:32:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト