arXiv reaDer
3Dシーンを理解するためのマルチビューPointNet
Multi-view PointNet for 3D Scene Understanding
  2D画像と3D点群の融合は、密度の高い画像からの情報がまばらな点群を強調する可能性があるため重要です。ただし、2Dデータと3Dデータは異なるスペースに存在するため、融合は困難です。この作業では、MVPNet(Multi-View PointNet)を提案します。ここでは、2Dマルチビュー画像機能を3Dポイントクラウドに集約し、ポイントベースのネットワークを使用して3D標準空間の機能を融合し、3Dセマンティックラベルを予測します。この目的のために、2D-3D機能集約モジュールとともにビュー選択を導入します。広範な実験により、密集した画像の機能を活用する利点が示され、3Dのみの方法と比較して、さまざまな点群密度に対する優れた堅牢性が明らかになりました。 ScanNetV2ベンチマークでは、MVPNetは、3Dセマンティックセグメンテーションのタスクに関する従来のポイントクラウドベースのアプローチよりも大幅に優れています。スパースボクセルアプローチの大規模なネットワークよりもトレーニングがはるかに高速です。 3Dインスタンスのセグメンテーションを紹介するように、2D-3Dフュージョン法の将来の設計と他のタスクへの拡張を容易にするための強固なアブレーション研究を提供します。
Fusion of 2D images and 3D point clouds is important because information from dense images can enhance sparse point clouds. However, fusion is challenging because 2D and 3D data live in different spaces. In this work, we propose MVPNet (Multi-View PointNet), where we aggregate 2D multi-view image features into 3D point clouds, and then use a point based network to fuse the features in 3D canonical space to predict 3D semantic labels. To this end, we introduce view selection along with a 2D-3D feature aggregation module. Extensive experiments show the benefit of leveraging features from dense images and reveal superior robustness to varying point cloud density compared to 3D-only methods. On the ScanNetV2 benchmark, our MVPNet significantly outperforms prior point cloud based approaches on the task of 3D Semantic Segmentation. It is much faster to train than the large networks of the sparse voxel approach. We provide solid ablation studies to ease the future design of 2D-3D fusion methods and their extension to other tasks, as we showcase for 3D instance segmentation.
updated: Mon Sep 30 2019 11:45:37 GMT+0000 (UTC)
published: Mon Sep 30 2019 11:45:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト