3Dポイントクラウドでのインスタンスセグメンテーションのための、概念的にシンプルで一般的な新しいフレームワークを提案します。 3D-BoNetと呼ばれるこの方法は、ポイントごとの多層パーセプトロン(MLP)の単純な設計哲学に従っています。フレームワークは、ポイントクラウド内のすべてのインスタンスの3Dバウンディングボックスを直接回帰すると同時に、各インスタンスのポイントレベルマスクを予測します。バックボーンネットワークと、それに続く1)バウンディングボックス回帰および2)ポイントマスク予測のための2つの並列ネットワークブランチで構成されます。 3D-BoNetは、シングルステージで、アンカーがなく、エンドツーエンドのトレーニングが可能です。さらに、既存のアプローチとは異なり、非最大抑制、特徴サンプリング、クラスタリング、投票などの後処理ステップを必要としないため、非常に計算効率が高くなります。広範な実験により、このアプローチがScanNetとS3DISの両方のデータセットに関する既存の作業を凌whileする一方で、計算効率が約10倍向上することが示されています。包括的なアブレーション研究は、デザインの有効性を実証しています。
We propose a novel, conceptually simple and general framework for instance segmentation on 3D point clouds. Our method, called 3D-BoNet, follows the simple design philosophy of per-point multilayer perceptrons (MLPs). The framework directly regresses 3D bounding boxes for all instances in a point cloud, while simultaneously predicting a point-level mask for each instance. It consists of a backbone network followed by two parallel network branches for 1) bounding box regression and 2) point mask prediction. 3D-BoNet is single-stage, anchor-free and end-to-end trainable. Moreover, it is remarkably computationally efficient as, unlike existing approaches, it does not require any post-processing steps such as non-maximum suppression, feature sampling, clustering or voting. Extensive experiments show that our approach surpasses existing work on both ScanNet and S3DIS datasets while being approximately 10x more computationally efficient. Comprehensive ablation studies demonstrate the effectiveness of our design.