過去の3DLiDARスキャンを活用して将来の点群を予測することは、自律移動システムが予見された状態推定、衝突回避、および計画を実現するための有望な方法です。この論文では、過去のLiDARスキャンのシーケンスが与えられた場合に、将来の3DLiDARポイントクラウドを予測する問題に対処します。センサーレベルで将来のシーンを推定することは、ローカリゼーションまたは追跡システムのように先行するステップを必要とせず、自己監視で訓練することができます。各3DLiDARスキャンの2D距離画像表現を活用し、一連の距離画像を連結して3Dテンソルを取得するエンドツーエンドのアプローチを提案します。このようなテンソルに基づいて、3D畳み込みを使用してエンコーダーとデコーダーのアーキテクチャを開発し、シーンの空間的および時間的情報を共同で集約し、将来の3D点群を予測します。複数のデータセットでメソッドを評価し、実験結果は、メソッドが既存の点群予測アーキテクチャよりも優れており、追加の微調整なしで新しい目に見えない環境にうまく一般化することを示唆しています。私たちの方法はオンラインで動作し、一般的なLiDARフレームレートである10Hzよりも高速です。
Exploiting past 3D LiDAR scans to predict future point clouds is a promising method for autonomous mobile systems to realize foresighted state estimation, collision avoidance, and planning. In this paper, we address the problem of predicting future 3D LiDAR point clouds given a sequence of past LiDAR scans. Estimating the future scene on the sensor level does not require any preceding steps as in localization or tracking systems and can be trained self-supervised. We propose an end-to-end approach that exploits a 2D range image representation of each 3D LiDAR scan and concatenates a sequence of range images to obtain a 3D tensor. Based on such tensors, we develop an encoder-decoder architecture using 3D convolutions to jointly aggregate spatial and temporal information of the scene and to predict the future 3D point clouds. We evaluate our method on multiple datasets and the experimental results suggest that our method outperforms existing point cloud prediction architectures and generalizes well to new, unseen environments without additional fine-tuning. Our method operates online and is faster than the common LiDAR frame rate of 10 Hz.