鳥瞰図(BEV)は、3D点群を処理するための一般的な表現であり、その性質上、基本的にスパースです。移動ロボットプラットフォームの計算上の制限に動機付けられて、この入力スパース性を維持および活用して、非スパースベースラインでのランタイムを減らし、疑似画像領域とランタイムの間のトレードオフを回避する、高速で高性能なBEV3Dオブジェクト検出器を作成します。正規の3D検出データセットであるKITTIと、実際の家具付き住宅のシーンからの新しいMatterport3Dから派生した椅子検出データセットであるMatterport-Chairの結果を示します。デスクトップGPU、組み込みMLアクセラレータ、ロボットCPUを使用してランタイム特性を評価し、この方法により、検出品質がわずかに低下するだけで、組み込みシステムの検出速度が大幅に向上(2倍以上)することを示しています。私たちの仕事は、パイプライン全体で入力の希薄性を維持および活用して、検出パフォーマンスを維持しながらランタイムとリソースの使用量を削減することにより、組み込みシステムのモデルを最適化するための新しいアプローチを表しています。
Bird's Eye View (BEV) is a popular representation for processing 3D point clouds, and by its nature is fundamentally sparse. Motivated by the computational limitations of mobile robot platforms, we create a fast, high-performance BEV 3D object detector that maintains and exploits this input sparsity to decrease runtimes over non-sparse baselines and avoids the tradeoff between pseudoimage area and runtime. We present results on KITTI, a canonical 3D detection dataset, and Matterport-Chair, a novel Matterport3D-derived chair detection dataset from scenes in real furnished homes. We evaluate runtime characteristics using a desktop GPU, an embedded ML accelerator, and a robot CPU, demonstrating that our method results in significant detection speedups (2X or more) for embedded systems with only a modest decrease in detection quality. Our work represents a new approach for practitioners to optimize models for embedded systems by maintaining and exploiting input sparsity throughout their entire pipeline to reduce runtime and resource usage while preserving detection performance.