既存の深層学習ベースの 3D オブジェクト検出器は通常、個々のオブジェクトの外観に依存しており、シーンの豊富なコンテキスト情報に明示的に注意を払っていません。この作業では、3D オブジェクト検出のための Contextualized Multi-Stage Refinement (CMR3D) フレームワークを提案します。このフレームワークは、3D シーンを入力として受け取り、シーンの有用なコンテキスト情報を複数のレベルで明示的に統合して、一連のオブジェクト バウンディング ボックスを予測しようとします。対応するセマンティック ラベルと共に。この目的のために、さまざまなレベルの粒度でコンテキスト情報をキャプチャするコンテキスト拡張ネットワークを利用し、その後に多段階の改良モジュールを使用して、ボックスの位置とクラス予測を徐々に改良することを提案します。大規模な ScanNetV2 ベンチマークでの広範な実験により、提案された方法の利点が明らかになり、ベースラインから 2.0% の絶対的な改善がもたらされました。 3D オブジェクトの検出に加えて、3D オブジェクトのカウントの問題に対する CMR3D フレームワークの有効性を調査します。ソースコードは公開されます。
Existing deep learning-based 3D object detectors typically rely on the appearance of individual objects and do not explicitly pay attention to the rich contextual information of the scene. In this work, we propose Contextualized Multi-Stage Refinement for 3D Object Detection (CMR3D) framework, which takes a 3D scene as input and strives to explicitly integrate useful contextual information of the scene at multiple levels to predict a set of object bounding-boxes along with their corresponding semantic labels. To this end, we propose to utilize a context enhancement network that captures the contextual information at different levels of granularity followed by a multi-stage refinement module to progressively refine the box positions and class predictions. Extensive experiments on the large-scale ScanNetV2 benchmark reveal the benefits of our proposed method, leading to an absolute improvement of 2.0% over the baseline. In addition to 3D object detection, we investigate the effectiveness of our CMR3D framework for the problem of 3D object counting. Our source code will be publicly released.