arXiv reaDer
M3DeTR:トランスフォーマーを使用したマルチ表現、マルチスケール、相互関係の3Dオブジェクト検出
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers
3Dオブジェクト検出の新しいアーキテクチャであるM3DeTRを紹介します。これは、さまざまな点群表現(生、ボクセル、鳥瞰図)と、マルチスケールの特徴ピラミッドに基づくさまざまな特徴スケールを組み合わせたものです。 M3DeTRは、複数のポイントクラウド表現、フィーチャスケールを統合し、トランスフォーマーを使用してポイントクラウド間の相互関係を同時にモデル化する最初のアプローチです。表現とスケールを融合し、関係をモデル化することの利点を強調する広範なアブレーション実験を実行します。私たちの方法は、KITTI3Dオブジェクト検出データセットとWaymoOpenDatasetで最先端のパフォーマンスを実現します。結果は、M3DeTRがWaymo Open Datasetのすべてのクラスでベースラインを1.48%mAP大幅に改善することを示しています。特に、私たちのアプローチは、車とサイクリストの両方のクラスで有名なKITTI 3D検出ベンチマークで1位にランクされ、単一フレームの点群入力を備えたWaymo OpenDatasetで1位にランクされています。
We present a novel architecture for 3D object detection, M3DeTR, which combines different point cloud representations (raw, voxels, bird-eye view) with different feature scales based on multi-scale feature pyramids. M3DeTR is the first approach that unifies multiple point cloud representations, feature scales, as well as models mutual relationships between point clouds simultaneously using transformers. We perform extensive ablation experiments that highlight the benefits of fusing representation and scale, and modeling the relationships. Our method achieves state-of-the-art performance on the KITTI 3D object detection dataset and Waymo Open Dataset. Results show that M3DeTR improves the baseline significantly by 1.48% mAP for all classes on Waymo Open Dataset. In particular, our approach ranks 1st on the well-known KITTI 3D Detection Benchmark for both car and cyclist classes, and ranks 1st on Waymo Open Dataset with single frame point cloud input.
updated: Sat Apr 24 2021 06:48:23 GMT+0000 (UTC)
published: Sat Apr 24 2021 06:48:23 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト