arXiv reaDer
MinkLoc ++:場所認識のためのライダーと単眼画像の融合
MinkLoc++: Lidar and Monocular Image Fusion for Place Recognition
LiDARからの点群とRGBカメラからの画像という、センサーの読み取り値のペアに基づく識別可能なマルチモーダル記述子を紹介します。 MinkLoc ++という名前の記述子は、ロボット工学または自動運転車のアプリケーションで、場所の認識、再ローカリゼーション、およびループ閉鎖の目的で使用できます。各モダリティが個別に処理され、処理パイプラインの最後の部分で融合されるレイトフュージョンアプローチを使用します。提案された方法は、標準的な場所認識ベンチマークで最先端のパフォーマンスを実現します。また、マルチモーダル記述子をトレーニングするときに、支配的なモダリティの問題を特定します。この問題は、ネットワークがトレーニングデータへのより大きな過剰適合を伴うモダリティに焦点を合わせたときに明らかになります。これにより、トレーニング中の損失が減少しますが、評価セットのパフォーマンスが最適ではなくなります。この作業では、ディープメトリック学習アプローチを使用してマルチモーダルニューラルネットワークをトレーニングするときに、このようなリスクを検出して軽減する方法について説明します。私たちのコードは、プロジェクトのWebサイト(で公開されています。
We introduce a discriminative multimodal descriptor based on a pair of sensor readings: a point cloud from a LiDAR and an image from an RGB camera. Our descriptor, named MinkLoc++, can be used for place recognition, re-localization and loop closure purposes in robotics or autonomous vehicles applications. We use late fusion approach, where each modality is processed separately and fused in the final part of the processing pipeline. The proposed method achieves state-of-the-art performance on standard place recognition benchmarks. We also identify dominating modality problem when training a multimodal descriptor. The problem manifests itself when the network focuses on a modality with a larger overfit to the training data. This drives the loss down during the training but leads to suboptimal performance on the evaluation set. In this work we describe how to detect and mitigate such risk when using a deep metric learning approach to train a multimodal neural network. Our code is publicly available on the project website:
updated: Wed Apr 14 2021 10:02:05 GMT+0000 (UTC)
published: Mon Apr 12 2021 10:16:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト