ドリフトのないローカリゼーションシステムには、場所の認識が不可欠です。環境の変化により、単一モダリティを使用した場所認識には制限があります。本論文では、ビジョンとLiDARの2つのモダリティから複合グローバル記述子を抽出できるバイモーダル場所認識方法を提案します。具体的には、最初に3Dポイントから生成された標高画像を構造表現として作成します。次に、3Dポイントと画像ピクセル間の対応を導き出します。これらは、ピクセル単位の視覚的特徴を標高マップグリッドにマージする際にさらに使用されます。このようにして、一貫性のある鳥瞰図フレームで構造的特徴と視覚的特徴を融合し、セマンティック表現、つまりCORALを生成します。そして、ネットワーク全体はCORAL-VLADと呼ばれます。 Oxford RobotCarでの比較は、CORAL-VLADが他の最先端の方法よりも優れた性能を持っていることを示しています。また、ネットワークを都市間データセットの他のシーンやセンサー構成に一般化できることも示しています。
Place recognition is indispensable for a drift-free localization system. Due to the variations of the environment, place recognition using single-modality has limitations. In this paper, we propose a bi-modal place recognition method, which can extract a compound global descriptor from the two modalities, vision and LiDAR. Specifically, we first build the elevation image generated from 3D points as a structural representation. Then, we derive the correspondences between 3D points and image pixels that are further used in merging the pixel-wise visual features into the elevation map grids. In this way, we fuse the structural features and visual features in the consistent bird-eye view frame, yielding a semantic representation, namely CORAL. And the whole network is called CORAL-VLAD. Comparisons on the Oxford RobotCar show that CORAL-VLAD has superior performance against other state-of-the-art methods. We also demonstrate that our network can be generalized to other scenes and sensor configurations on cross-city datasets.