セマンティック グリッドは、自律システム周辺のシーンを表現するのに役立ちます。ロボットは、周囲の空間のレイアウトに関する情報を取得することで、このタイプの表現をナビゲーションや追跡などの重要なタスクに活用できます。複数のセンサーからの情報を融合することで、堅牢性を高め、タスクの計算負荷を軽減して、リアルタイム パフォーマンスを実現できます。当社のマルチスケール LiDAR 支援透視変換ネットワークは、点群で利用可能な情報を使用して、画像特徴の投影をトップビュー表現に導き、人間のセマンティック グリッド生成の最先端技術を相対的に改善します (+8.67 %) および可動オブジェクト (+49.07%) クラスを nuScenes データセットで使用し、25 FPS で推論を実行しながら、車両、運転可能エリア、歩道クラスの最先端に近い結果を達成しました。
Semantic grids can be useful representations of the scene around an autonomous system. By having information about the layout of the space around itself, a robot can leverage this type of representation for crucial tasks such as navigation or tracking. By fusing information from multiple sensors, robustness can be increased and the computational load for the task can be lowered, achieving real time performance. Our multi-scale LiDAR-Aided Perspective Transform network uses information available in point clouds to guide the projection of image features to a top-view representation, resulting in a relative improvement in the state of the art for semantic grid generation for human (+8.67%) and movable object (+49.07%) classes in the nuScenes dataset, as well as achieving results close to the state of the art for the vehicle, drivable area and walkway classes, while performing inference at 25 FPS.