SalsaNet: Fast Road and Vehicle Segmentation in LiDAR Point Clouds for Autonomous Driving
  このペーパーでは、3D LiDARポイントクラウドの効率的なセマンティックセグメンテーションのために、SalsaNetという名前のディープエンコーダーデコーダーネットワークを紹介します。 SalsaNetは、点群のBird-Eye-View(BEV)画像投影を使用することで、道路、つまり運転可能な自由空間、およびシーン内の車両をセグメント化します。特に道路セグメントの注釈付きの点群データの不足を克服するために、自動生成されたラベルをカメラからLiDARに転送する自動ラベル付けプロセスを導入します。また、BEVと球面正面投影を比較することにより、セマンティックセグメンテーションにおけるLiDARデータの画像のような投影の役割を調査し、SalsaNetが投影に依存しないことを示します。 KITTIデータセットに対して定量的および定性的な評価を行い、提案されたSalsaNetが精度と計算時間の点で他の最先端のセマンティックセグメンテーションネットワークよりも優れていることを示します。コードとデータはで公開されています。
In this paper, we introduce a deep encoder-decoder network, named SalsaNet, for efficient semantic segmentation of 3D LiDAR point clouds. SalsaNet segments the road, i.e. drivable free-space, and vehicles in the scene by employing the Bird-Eye-View (BEV) image projection of the point cloud. To overcome the lack of annotated point cloud data, in particular for the road segments, we introduce an auto-labeling process which transfers automatically generated labels from the camera to LiDAR. We also explore the role of imagelike projection of LiDAR data in semantic segmentation by comparing BEV with spherical-front-view projection and show that SalsaNet is projection-agnostic. We perform quantitative and qualitative evaluations on the KITTI dataset, which demonstrate that the proposed SalsaNet outperforms other state-of-the-art semantic segmentation networks in terms of accuracy and computation time. Our code and data are publicly available at
