VS-Net: Voting with Segmentation for Visual Localization
視覚的なローカリゼーションは、ロボット工学とコンピュータービジョンにおいて非常に重要です。最近、シーン座標回帰ベースの方法は、小さな静的シーンでの視覚的位置特定において優れたパフォーマンスを示しています。ただし、それでも多くの劣ったシーン座標からカメラのポーズを推定します。この問題に対処するために、クエリ画像と一連の学習可能なシーン固有のランドマークを使用した3Dマップとの間に2Dから3Dへの対応を確立する新しい視覚的ローカリゼーションフレームワークを提案します。ランドマーク生成段階では、ターゲットシーンの3Dサーフェスがモザイクパッチにオーバーセグメント化され、その中心がシーン固有のランドマークと見なされます。シーン固有のランドマークを堅牢かつ正確に復元するために、セグメンテーションブランチを使用してピクセルを異なるランドマークパッチにセグメント化し、ランドマーク位置投票ブランチを使用して各パッチ内のランドマーク位置を推定する、Voting with Segmentation Network(VS-Net)を提案します。シーン内のランドマークの数は最大5000に達する可能性があるため、このような多数のクラスを使用してセグメンテーションネットワークをトレーニングすると、一般的に使用されるクロスエントロピー損失に対して計算とメモリの両方のコストがかかります。多数のラベルを使用してセマンティックセグメンテーションネットワークを効率的にトレーニングできる、ハードネガティブマイニングを使用した新しいプロトタイプベースのトリプレット損失を提案します。私たちが提案するVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端の視覚的ローカリゼーション手法よりも優れたパフォーマンスを発揮します。コードとモデルはで入手できます。
Visual localization is of great importance in robotics and computer vision. Recently, scene coordinate regression based methods have shown good performance in visual localization in small static scenes. However, it still estimates camera poses from many inferior scene coordinates. To address this problem, we propose a novel visual localization framework that establishes 2D-to-3D correspondences between the query image and the 3D map with a series of learnable scene-specific landmarks. In the landmark generation stage, the 3D surfaces of the target scene are over-segmented into mosaic patches whose centers are regarded as the scene-specific landmarks. To robustly and accurately recover the scene-specific landmarks, we propose the Voting with Segmentation Network (VS-Net) to segment the pixels into different landmark patches with a segmentation branch and estimate the landmark locations within each patch with a landmark location voting branch. Since the number of landmarks in a scene may reach up to 5000, training a segmentation network with such a large number of classes is both computation and memory costly for the commonly used cross-entropy loss. We propose a novel prototype-based triplet loss with hard negative mining, which is able to train semantic segmentation networks with a large number of labels efficiently. Our proposed VS-Net is extensively tested on multiple public benchmarks and can outperform state-of-the-art visual localization methods. Code and models are available at
updated: Sun May 23 2021 08:44:11 GMT+0000 (UTC)
published: Sun May 23 2021 08:44:11 GMT+0000 (UTC)
