動的な3D環境を理解することは、ロボットエージェントや他の多くのアプリケーションにとって重要です。動的3D点群シーケンスの表現を学習するためのMeteorNetと呼ばれる新しいニューラルネットワークアーキテクチャを提案します。グリッドベースの表現を採用し、3Dまたは4Dコンボリューションを適用する以前の作業とは異なり、当社のネットワークは点群を直接処理します。点群シーケンスの各点に時空間近傍を構築する2つの方法を提案します。これらの近隣からの情報は、ポイントごとの特徴を学習するために集約されます。アクション認識、セマンティックセグメンテーション、シーンフロー推定など、さまざまな3D認識タスクでネットワークのベンチマークを行います。 MeteorNetは、Synthiaで最先端のパフォーマンスを達成しながら、以前のグリッドベースの方法よりも強力なパフォーマンスを示します。 MeteorNetは、最大2つの連続した点群を処理できる以前のベースラインメソッドよりも優れています。私たちの知る限り、これは動的な生の点群シーケンスの深層学習に関する最初の作業です。
Understanding dynamic 3D environment is crucial for robotic agents and many other applications. We propose a novel neural network architecture called MeteorNet for learning representations for dynamic 3D point cloud sequences. Different from previous work that adopts a grid-based representation and applies 3D or 4D convolutions, our network directly processes point clouds. We propose two ways to construct spatiotemporal neighborhoods for each point in the point cloud sequence. Information from these neighborhoods is aggregated to learn features per point. We benchmark our network on a variety of 3D recognition tasks including action recognition, semantic segmentation and scene flow estimation. MeteorNet shows stronger performance than previous grid-based methods while achieving state-of-the-art performance on Synthia. MeteorNet also outperforms previous baseline methods that are able to process at most two consecutive point clouds. To the best of our knowledge, this is the first work on deep learning for dynamic raw point cloud sequences.