LiDAR ベースの 3D オブジェクト検出とパノプティック セグメンテーションは、自律走行車とロボットの認識システムにおける 2 つの重要なタスクです。この論文では、3D オブジェクト検出とパノプティック セグメンテーションを組み合わせた LiDAR ベースのマルチタスク フレームワークである All-in-One Perception Network (AOP-Net) を提案します。この方法では、デュアルタスク 3D バックボーンを開発して、入力 LiDAR ポイント クラウドからパノプティック レベルと検出レベルの両方の特徴を抽出します。また、マルチレイヤー パーセプトロン (MLP) と畳み込みレイヤーを絡み合わせた新しい 2D バックボーンは、検出タスクのパフォーマンスをさらに向上させるように設計されています。最後に、3D バックボーンでのダウンサンプリング操作中に破棄された有用な機能を回復することにより、検出ヘッドをガイドする新しいモジュールが提案されています。このモジュールは、推定されたインスタンス セグメンテーション マスクを活用して、各候補オブジェクトから詳細情報を復元します。 AOP-Net は、3D オブジェクト検出とパノプティック セグメンテーション タスクの両方について、nuScenes ベンチマークで公開された作品の最先端のパフォーマンスを実現します。また、実験は、私たちの方法がBEVベースの3Dオブジェクト検出方法に簡単に適応し、パフォーマンスを大幅に向上させることを示しています。
LiDAR-based 3D object detection and panoptic segmentation are two crucial tasks in the perception systems of autonomous vehicles and robots. In this paper, we propose All-in-One Perception Network (AOP-Net), a LiDAR-based multi-task framework that combines 3D object detection and panoptic segmentation. In this method, a dual-task 3D backbone is developed to extract both panoptic- and detection-level features from the input LiDAR point cloud. Also, a new 2D backbone that intertwines Multi-Layer Perceptron (MLP) and convolution layers is designed to further improve the detection task performance. Finally, a novel module is proposed to guide the detection head by recovering useful features discarded during down-sampling operations in the 3D backbone. This module leverages estimated instance segmentation masks to recover detailed information from each candidate object. The AOP-Net achieves state-of-the-art performance for published works on the nuScenes benchmark for both 3D object detection and panoptic segmentation tasks. Also, experiments show that our method easily adapts to and significantly improves the performance of any BEV-based 3D object detection method.