このペーパーでは、より強力なローカルフィーチャの構築と、画像とLiDARデータの効果的な融合に焦点を当てています。 LiDARデータのさまざまなモダリティを採用して豊富な機能を生成し、適応型の方位角認識ネットワークを提示して、画像、鳥瞰図マップ、および点群からローカル機能を集約します。私たちのネットワークは、主に3つのサブネットワークで構成されています:グランドプレーン推定ネットワーク、地域提案ネットワーク、および適応型フュージョンネットワーク。地表面推定ネットワークは、点群の特徴を抽出し、豊富な3Dアンカーの生成に使用される平面のパラメーターを予測します。地域提案ネットワークは、画像の特徴と鳥瞰図マップを生成して出力地域提案を生成します。異種の画像と点群機能を統合するために、適応型フュージョンネットワークは複数のローカル機能の強度を明示的に調整し、方位角対応のフュージョンモジュールを導入することで、画像とLiDARデータ間の方向の一貫性を実現します。実験はKITTIデータセットで行われ、その結果は、マルチモーダルローカル機能の集約と適応型フュージョンネットワークの利点を検証します。
This paper focuses on the construction of stronger local features and the effective fusion of image and LiDAR data. We adopt different modalities of LiDAR data to generate richer features and present an adaptive and azimuth-aware network to aggregate local features from image, bird's eye view maps and point cloud. Our network mainly consists of three subnetworks: ground plane estimation network, region proposal network and adaptive fusion network. The ground plane estimation network extracts features of point cloud and predicts the parameters of a plane which are used for generating abundant 3D anchors. The region proposal network generates features of image and bird's eye view maps to output region proposals. To integrate heterogeneous image and point cloud features, the adaptive fusion network explicitly adjusts the intensity of multiple local features and achieves the orientation consistency between image and LiDAR data by introduce an azimuth-aware fusion module. Experiments are conducted on KITTI dataset and the results validate the advantages of our aggregation of multimodal local features and the adaptive fusion network.