この研究では、追加のトレーニングや微調整を行わずに、RGB 画像のセグメント何でもモデル (SAM) を活用することで 3D 点群のマスクを予測できる新しいフレームワークである SAM3D を提案します。ポーズが設定された RGB 画像を含む 3D シーンの点群の場合、最初に SAM を使用して RGB 画像のセグメンテーション マスクを予測し、次に 2D マスクを 3D 点に投影します。その後、ボトムアップ結合アプローチで 3D マスクを繰り返し結合します。各ステップで、双方向結合アプローチを使用して、2 つの隣接するフレームの点群マスクを結合します。このようにして、さまざまなフレームから予測された 3D マスクが、3D シーン全体の 3D マスクに徐々にマージされます。最後に、オプションで、SAM3D の結果と、3D シーンの幾何学的情報に基づくオーバーセグメンテーションの結果をアンサンブルできます。私たちのアプローチは ScanNet データセットを使用して実験されており、定性的な結果は、SAM のトレーニングや微調整を行わなくても、SAM3D が合理的できめの細かい 3D セグメンテーション結果を達成することを示しています。
In this work, we propose SAM3D, a novel framework that is able to predict masks in 3D point clouds by leveraging the Segment-Anything Model (SAM) in RGB images without further training or finetuning. For a point cloud of a 3D scene with posed RGB images, we first predict segmentation masks of RGB images with SAM, and then project the 2D masks into the 3D points. Later, we merge the 3D masks iteratively with a bottom-up merging approach. At each step, we merge the point cloud masks of two adjacent frames with the bidirectional merging approach. In this way, the 3D masks predicted from different frames are gradually merged into the 3D masks of the whole 3D scene. Finally, we can optionally ensemble the result from our SAM3D with the over-segmentation results based on the geometric information of the 3D scenes. Our approach is experimented with ScanNet dataset and qualitative results demonstrate that our SAM3D achieves reasonable and fine-grained 3D segmentation results without any training or finetuning of SAM.