arXiv reaDer
単眼3Dオブジェクト検出には疑似ライダーが必要ですか?
Is Pseudo-Lidar needed for Monocular 3D Object detection?
単一画像からの3Dオブジェクト検出の最近の進歩は、3Dポイントクラウドを生成する方法として単眼深度推定を活用し、カメラを疑似ライダーセンサーに変えています。これらの2段階検出器は、中間深度推定ネットワークの精度で向上します。中間深度推定ネットワーク自体は、大規模な自己教師あり学習を介して手動ラベルなしで向上させることができます。ただし、エンドツーエンドの方法よりも過剰適合に悩まされる傾向があり、より複雑であり、同様のLIDARベースの検出器とのギャップは依然として重要です。この作業では、エンドツーエンドの単一ステージの単眼3Dオブジェクト検出器DD3Dを提案します。これは、疑似ライダー法のように深度の事前トレーニングの恩恵を受けることができますが、制限はありません。私たちのアーキテクチャは、深度推定と3D検出の間で効果的な情報転送を行うように設計されており、ラベルのない事前トレーニングデータの量に合わせてスケーリングできます。私たちの方法は、2つの挑戦的なベンチマークで最先端の結果を達成します。KITTI-3Dベンチマークでは車と歩行者のAPがそれぞれ16.34%と9.28%、NuScenesのmAPは41.5%です。
Recent progress in 3D object detection from single images leverages monocular depth estimation as a way to produce 3D pointclouds, turning cameras into pseudo-lidar sensors. These two-stage detectors improve with the accuracy of the intermediate depth estimation network, which can itself be improved without manual labels via large-scale self-supervised learning. However, they tend to suffer from overfitting more than end-to-end methods, are more complex, and the gap with similar lidar-based detectors remains significant. In this work, we propose an end-to-end, single stage, monocular 3D object detector, DD3D, that can benefit from depth pre-training like pseudo-lidar methods, but without their limitations. Our architecture is designed for effective information transfer between depth estimation and 3D detection, allowing us to scale with the amount of unlabeled pre-training data. Our method achieves state-of-the-art results on two challenging benchmarks, with 16.34% and 9.28% AP for Cars and Pedestrians (respectively) on the KITTI-3D benchmark, and 41.5% mAP on NuScenes.
updated: Fri Aug 13 2021 22:22:51 GMT+0000 (UTC)
published: Fri Aug 13 2021 22:22:51 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト