感覚入力からローカルセマンティクスを推定することは、自動運転における高解像度マップ構築の中心的なコンポーネントです。ただし、従来のパイプラインでは、マップ内のセマンティクスに注釈を付けて維持するために膨大な人的努力とリソースが必要であり、そのためスケーラビリティが制限されます。この論文では、オンボードセンサー観測に基づいてベクトル化されたセマンティクスを動的に構築するローカルセマンティックマップ学習の問題を紹介します。一方、HDMapNetと呼ばれるローカルセマンティックマップ学習方法を紹介します。 HDMapNetは、周囲のカメラからの画像の特徴やLiDARからの点群をエンコードし、鳥瞰図でベクトル化されたマップ要素を予測します。 nuScenesデータセットでHDMapNetのベンチマークを行い、すべての設定で、ベースラインメソッドよりもパフォーマンスが優れていることを示しています。注目すべきことに、フュージョンベースのHDMapNetは、すべてのメトリックで既存のメソッドを50%以上上回っています。さらに、マップの学習パフォーマンスを評価するために、セマンティックレベルとインスタンスレベルのメトリックを開発します。最後に、私たちの方法が局所的に一貫した地図を予測できることを示します。方法と測定基準を紹介することにより、この新しい地図学習問題を研究するようにコミュニティを招待します。コードと評価キットは、将来の開発を容易にするためにリリースされます。
Estimating local semantics from sensory inputs is a central component for high-definition map constructions in autonomous driving. However, traditional pipelines require a vast amount of human efforts and resources in annotating and maintaining the semantics in the map, which limits its scalability. In this paper, we introduce the problem of local semantic map learning, which dynamically constructs the vectorized semantics based on onboard sensor observations. Meanwhile, we introduce a local semantic map learning method, dubbed HDMapNet. HDMapNet encodes image features from surrounding cameras and/or point clouds from LiDAR, and predicts vectorized map elements in the bird's-eye view. We benchmark HDMapNet on nuScenes dataset and show that in all settings, it performs better than baseline methods. Of note, our fusion-based HDMapNet outperforms existing methods by more than 50% in all metrics. In addition, we develop semantic-level and instance-level metrics to evaluate the map learning performance. Finally, we showcase our method is capable of predicting a locally consistent map. By introducing the method and metrics, we invite the community to study this novel map learning problem. Code and evaluation kit will be released to facilitate future development.