arXiv reaDer
FPS-Net:大規模LiDARポイントクラウドセグメンテーションのための畳み込み融合ネットワーク
FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point Cloud Segmentation
LiDARポイントクラウドに基づくシーンの理解は、自動運転車が安全に運転するために不可欠なタスクです。これは、球形投影を使用して3Dポイントクラウドをマルチチャネル2D画像にマッピングしてセマンティックセグメンテーションを行うことがよくあります。ほとんどの既存の方法は、情報容量を増やすために画像チャネルとして異なるポイント属性/モダリティ(たとえば、座標、強度、深さなど)を単純にスタックしますが、異なる画像チャネルのポイント属性の異なる特性を無視します。 FPS-Netは、投影された画像チャネル間の一意性と不一致を利用して最適な点群セグメンテーションを実現する畳み込み融合ネットワークを設計します。 FPS-Netはエンコーダ-デコーダ構造を採用しています。複数のチャネル画像を単一の入力として単純にスタックするのではなく、それらを異なるモダリティにグループ化して、最初にモダリティ固有の特徴を個別に学習し、次に学習した特徴をピクセルレベルの融合と学習のために共通の高次元特徴空間にマッピングします。具体的には、各モダリティの詳細情報を保持し、階層的なモダリティ固有の融合された機能を効果的に学習するエンコーダのビルディングブロックとして、複数の受容野を持つ残余の密なブロックを設計します。 FPS-Netデコーダーでは、同様に反復畳み込みブロックを使用して、融合した特徴をピクセルレベルの分類のために出力空間に階層的にデコードします。広く採用されている2つの点群データセットで実施された広範な実験により、FPS-Netは、最先端の投影ベースの方法と比較して、優れたセマンティックセグメンテーションを実現していることが示されています。さらに、提案されたモダリティ融合のアイデアは、典型的な投影ベースの方法と互換性があり、一貫したパフォーマンスの向上とともにそれらに組み込むことができます。
Scene understanding based on LiDAR point cloud is an essential task for autonomous cars to drive safely, which often employs spherical projection to map 3D point cloud into multi-channel 2D images for semantic segmentation. Most existing methods simply stack different point attributes/modalities (e.g. coordinates, intensity, depth, etc.) as image channels to increase information capacity, but ignore distinct characteristics of point attributes in different image channels. We design FPS-Net, a convolutional fusion network that exploits the uniqueness and discrepancy among the projected image channels for optimal point cloud segmentation. FPS-Net adopts an encoder-decoder structure. Instead of simply stacking multiple channel images as a single input, we group them into different modalities to first learn modality-specific features separately and then map the learned features into a common high-dimensional feature space for pixel-level fusion and learning. Specifically, we design a residual dense block with multiple receptive fields as a building block in the encoder which preserves detailed information in each modality and learns hierarchical modality-specific and fused features effectively. In the FPS-Net decoder, we use a recurrent convolution block likewise to hierarchically decode fused features into output space for pixel-level classification. Extensive experiments conducted on two widely adopted point cloud datasets show that FPS-Net achieves superior semantic segmentation as compared with state-of-the-art projection-based methods. In addition, the proposed modality fusion idea is compatible with typical projection-based methods and can be incorporated into them with consistent performance improvements.
updated: Mon Mar 01 2021 04:08:28 GMT+0000 (UTC)
published: Mon Mar 01 2021 04:08:28 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト