世界が将来どのように進化するかを予測することは、自律システムの動作計画にとって重要です。古典的な方法は、動きを計画するためにセマンティック クラス ラベル、バウンディング ボックス、トラックまたは都市の HD マップの形でコストのかかる人間による注釈に依存しているため、制限があります。有望な自己教師ありタスクの 1 つは、注釈のない LiDAR シーケンスからの 3D 点群予測です。このタスクには、(1) センサーの外部要素 (自律走行車のエゴモーション)、(2) センサーの内部要素 (特定の LiDAR センサーに固有のサンプリング パターン)、および (3) を暗黙的にキャプチャするアルゴリズムが必要であることを示します。シーン内の他のオブジェクトの形状と動き。しかし、自律システムは、センサーではなく、世界について予測する必要があります。この目的のために、タスクを時空間 (4D) 占有予測の 1 つとして再キャストすることにより、(1) と (2) を除外します。しかし、グラウンド トゥルースの 4D 占有率を取得するにはコストがかかるため、センサーの外部関数と組み込み関数を指定して 4D 占有率予測から点群データをレンダリングし、注釈のない LiDAR シーケンスを使用して占有アルゴリズムをトレーニングおよびテストできるようにします。これにより、さまざまなデータセット、センサー、車両にわたって点群予測アルゴリズムを評価および比較することもできます。
Predicting how the world can evolve in the future is crucial for motion planning in autonomous systems. Classical methods are limited because they rely on costly human annotations in the form of semantic class labels, bounding boxes, and tracks or HD maps of cities to plan their motion and thus are difficult to scale to large unlabeled datasets. One promising self-supervised task is 3D point cloud forecasting from unannotated LiDAR sequences. We show that this task requires algorithms to implicitly capture (1) sensor extrinsics (i.e., the egomotion of the autonomous vehicle), (2) sensor intrinsics (i.e., the sampling pattern specific to the particular LiDAR sensor), and (3) the shape and motion of other objects in the scene. But autonomous systems should make predictions about the world and not their sensors. To this end, we factor out (1) and (2) by recasting the task as one of spacetime (4D) occupancy forecasting. But because it is expensive to obtain ground-truth 4D occupancy, we render point cloud data from 4D occupancy predictions given sensor extrinsics and intrinsics, allowing one to train and test occupancy algorithms with unannotated LiDAR sequences. This also allows one to evaluate and compare point cloud forecasting algorithms across diverse datasets, sensors, and vehicles.