3次元(3次元)点群のオブジェクトセグメンテーションは、3次元知覚が可能なロボットにとって重要なタスクです。 2次元画像でのオブジェクトセグメンテーションに対するディープラーニングベースのアプローチの印象的なパフォーマンスにもかかわらず、ディープラーニングは3次元ポイントクラウドセグメンテーションにほとんど適用されていません。一般に、ディープネットワークには大量のラベル付きトレーニングデータが必要です。これらのデータは、2次元画像では簡単に利用できますが、3次元点群では生成が困難です。このレターでは、3D点群セグメンテーションの新しいアプローチであるラベル拡散ライダーセグメンテーション(LDLS)を紹介します。これは、アラインされたカメラからのRGB画像の2Dセグメンテーションを活用して、注釈付き3Dでのトレーニングの必要性を回避しますデータ。 Mask-RCNNをRGB画像に適用して2Dセグメンテーション予測を取得し、3D点と2Dピクセル間の接続のグラフを作成して、この画像を3D LIDAR点群にリンクします。このグラフは、半教師付きラベル拡散プロセスを指示します。2Dピクセルは、3D点群を通じてオブジェクトラベル情報を拡散するソースノードとして機能し、完全な3D点群セグメンテーションになります。 KITTIベンチマークデータセットとモバイルロボットに関する実証研究を実施し、3Dトレーニングデータや3Dトレーニングデータを必要とせずに、3Dポイントクラウドセグメンテーションの従来技術と比較して、LDLSの幅広い適用性と優れたパフォーマンスを実証します2次元画像セグメンテーションモデルの微調整。
Object segmentation in three-dimensional (3-D) point clouds is a critical task for robots capable of 3-D perception. Despite the impressive performance of deep learning-based approaches on object segmentation in 2-D images, deep learning has not been applied nearly as successfully for 3-D point cloud segmentation. Deep networks generally require large amounts of labeled training data, which are readily available for 2-D images but are difficult to produce for 3-D point clouds. In this letter, we present Label Diffusion Lidar Segmentation (LDLS), a novel approach for 3-D point cloud segmentation, which leverages 2-D segmentation of an RGB image from an aligned camera to avoid the need for training on annotated 3-D data. We obtain 2-D segmentation predictions by applying Mask-RCNN to the RGB image, and then link this image to a 3-D lidar point cloud by building a graph of connections among 3-D points and 2-D pixels. This graph then directs a semi-supervised label diffusion process, where the 2-D pixels act as source nodes that diffuse object label information through the 3-D point cloud, resulting in a complete 3-D point cloud segmentation. We conduct empirical studies on the KITTI benchmark dataset and on a mobile robot, demonstrating wide applicability and superior performance of LDLS compared with the previous state of the art in 3-D point cloud segmentation, without any need for either 3-D training data or fine tuning of the 2-D image segmentation model.