arXiv reaDer
LIGA-Stereo:ステレオベースの3D検出器のLiDARジオメトリ対応表現の学習
LIGA-Stereo: Learning LiDAR Geometry Aware Representations for Stereo-based 3D Detector
ステレオベースの3D検出は、中間深度マップまたは暗黙の3Dジオメトリ表現を使用して、ステレオ画像から3Dオブジェクトバウンディングボックスを検出することを目的としています。これにより、3D知覚に低コストのソリューションが提供されます。ただし、そのパフォーマンスは、LiDARベースの検出アルゴリズムと比較して依然として劣っています。正確な3Dバウンディングボックスを検出してローカライズするために、LiDARベースのモデルは、LiDARポイントクラウドからの正確なオブジェクト境界とサーフェス法線方向をエンコードできます。ただし、ステレオベースの検出器の検出結果は、ステレオマッチングの制限により、誤った深度機能の影響を受けやすくなります。この問題を解決するために、LIGA-Stereo(LiDAR Geometry Aware Stereo Detector)を提案し、LiDARベースの検出モデルの高レベルのジオメトリ対応表現のガイダンスの下でステレオベースの3D検出器を学習します。さらに、既存のボクセルベースのステレオ検出器は、間接的な3D監視から意味的特徴を効果的に学習できなかったことがわかりました。補助的な2D検出ヘッドを取り付けて、直接2Dセマンティック監視を提供します。実験結果は、上記の2つの戦略が幾何学的および意味論的表現能力を改善したことを示しています。最先端のステレオ検出器と比較して、私たちの方法は、公式のKITTIベンチマークで車、歩行者、サイクリストの3D検出性能をそれぞれ10.44%、5.69%、5.97%mAP改善しました。ステレオベースの3D検出器とLiDARベースの3D検出器の間のギャップはさらに狭くなります。
Stereo-based 3D detection aims at detecting 3D object bounding boxes from stereo images using intermediate depth maps or implicit 3D geometry representations, which provides a low-cost solution for 3D perception. However, its performance is still inferior compared with LiDAR-based detection algorithms. To detect and localize accurate 3D bounding boxes, LiDAR-based models can encode accurate object boundaries and surface normal directions from LiDAR point clouds. However, the detection results of stereo-based detectors are easily affected by the erroneous depth features due to the limitation of stereo matching. To solve the problem, we propose LIGA-Stereo (LiDAR Geometry Aware Stereo Detector) to learn stereo-based 3D detectors under the guidance of high-level geometry-aware representations of LiDAR-based detection models. In addition, we found existing voxel-based stereo detectors failed to learn semantic features effectively from indirect 3D supervisions. We attach an auxiliary 2D detection head to provide direct 2D semantic supervisions. Experiment results show that the above two strategies improved the geometric and semantic representation capabilities. Compared with the state-of-the-art stereo detector, our method has improved the 3D detection performance of cars, pedestrians, cyclists by 10.44%, 5.69%, 5.97% mAP respectively on the official KITTI benchmark. The gap between stereo-based and LiDAR-based 3D detectors is further narrowed.
updated: Wed Aug 18 2021 17:24:40 GMT+0000 (UTC)
published: Wed Aug 18 2021 17:24:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト