arXiv reaDer
DSPDet3D: 3D 小さな物体検出のための動的空間枝刈り
DSPDet3D: Dynamic Spatial Pruning for 3D Small Object Detection
詳細な 3D オブジェクト検出は、エージェントが 3D 環境を理解し、周囲のオブジェクトと対話するための中核となる機能です。ただし、現在の手法とベンチマークは主に比較的大きなものに焦点を当てています。幾何学的情報が弱いため、3D オブジェクト検出器は依然として小さなオブジェクトの処理に苦労しています。綿密な研究により、特徴マップの空間解像度を向上させると、3D 小さな物体検出のパフォーマンスが大幅に向上することがわかりました。そしてさらに興味深いことに、計算オーバーヘッドは解像度とともに劇的に増加しますが、その増加は主にデコーダのアップサンプリング操作によってもたらされます。これに触発されて、DSPDet3D という動的空間枝刈り機能を備えた高解像度マルチレベル検出器を紹介します。DSPDet3D は、反復アップサンプリングによって大きな物体から小さな物体まで検出し、その間に、より小さな物体が存在しない領域でシーンの空間表現を枝刈りします。より高い解像度で検出されました。私たちは、ScanNet と TO-SCENE データセットに関する 2 つのベンチマークを整理して、きめ細かい 3D オブジェクト検出の能力を評価します。DSPDet3D は、既存の 3D オブジェクト検出方法と比較して優れた推論速度を達成しながら、小さなオブジェクトの検出パフォーマンスを新しいレベルに向上させます。さらに、ScanNet ルームのみでトレーニングされた DSPDet3D は、より大規模なシーンにうまく一般化できます。 DSPDet3D は、単一の RTX 3090 GPU で、ボトルからベッドに至るまでのほぼすべてのオブジェクトを検出しながら、家全体または数十の部屋で構成される建物全体を直接処理するのに 2 秒もかかりません。プロジェクトページ: https://xuxw98.github.io/DSPDet3D/。
Fine-grained 3D object detection is a core ability for agents to understand their 3D environment and interact with surrounding objects. However, current methods and benchmarks mainly focus on relatively large stuff. 3D object detectors still struggle on small objects due to weak geometric information. With in-depth study, we find increasing the spatial resolution of the feature maps significantly boosts the performance of 3D small object detection. And more interestingly, though the computational overhead increases dramatically with resolution, the growth mainly comes from the upsampling operation of the decoder. Inspired by this, we present a high-resolution multi-level detector with dynamic spatial pruning named DSPDet3D, which detects objects from large to small by iterative upsampling and meanwhile prunes the spatial representation of the scene at regions where there is no smaller object to be detected in higher resolution. We organize two benchmarks on ScanNet and TO-SCENE dataset to evaluate the ability of fine-grained 3D object detection, where our DSPDet3D improves the detection performance of small objects to a new level while achieving leading inference speed compared with existing 3D object detection methods. Moreover, DSPDet3D trained with only ScanNet rooms can generalize well to scenes in larger scale. It takes less than 2s for DSPDet3D to directly process a whole house or building consisting of dozens of rooms while detecting out almost all objects, ranging from bottles to beds, on a single RTX 3090 GPU. Project page: https://xuxw98.github.io/DSPDet3D/.
updated: Mon Jun 05 2023 17:35:33 GMT+0000 (UTC)
published: Fri May 05 2023 17:57:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト