6-DoF 視覚ローカリゼーションの大幅な進歩にもかかわらず、研究者は主に地上レベルのベンチマークによって動かされています。航空斜め写真と比較すると、地上レベルの地図コレクションはスケーラビリティと完全なカバレッジに欠けています。この作業では、従来の地上レベルの設定を超えて、空中から地上へのクロスビュー ローカリゼーションを活用することを提案します。この問題は、カメラの姿勢推定を反復的なレンダリングと比較のパイプラインとして定式化し、ノイズの多い初期事前確率からシードを増強することでロバスト性を強化することで解決します。調査対象の問題に関する公開データセットが存在しないため、スマートフォンやドローンからさまざまなクロスビュー画像を提供する新しいデータセットを収集し、クエリ画像のグラウンド トゥルース ポーズを取得するための半自動システムを開発します。私たちの方法といくつかの最先端のベースラインをベンチマークし、私たちの方法が他のアプローチよりも大幅に優れていることを示しています。
Despite the significant progress in 6-DoF visual localization, researchers are mostly driven by ground-level benchmarks. Compared with aerial oblique photography, ground-level map collection lacks scalability and complete coverage. In this work, we propose to go beyond the traditional ground-level setting and exploit the cross-view localization from aerial to ground. We solve this problem by formulating camera pose estimation as an iterative render-and-compare pipeline and enhancing the robustness through augmenting seeds from noisy initial priors. As no public dataset exists for the studied problem, we collect a new dataset that provides a variety of cross-view images from smartphones and drones and develop a semi-automatic system to acquire ground-truth poses for query images. We benchmark our method as well as several state-of-the-art baselines and demonstrate that our method outperforms other approaches by a large margin.