視覚的なローカリゼーション、つまり既知のシーンでのカメラポーズの推定は、自動運転や拡張現実などのテクノロジーのコアコンポーネントです。最先端のローカリゼーションアプローチは、多くの場合、2つの目的のいずれかで画像検索技術に依存しています。(1)おおよそのポーズ推定を提供するか、(2)特定のクエリ画像でシーンのどの部分が潜在的に見えるかを判断します。両方に最先端の画像検索アルゴリズムを使用するのが一般的な方法です。これらのアルゴリズムは、多くの場合、視覚的なローカリゼーションの要件とは異なる、広範囲の視点の変化の下で同じランドマークを取得することを目的としてトレーニングされています。視覚的ローカリゼーションの結果を調査するために、このペーパーでは、複数の視覚的ローカリゼーションパラダイムに対する画像検索の役割を理解することに焦点を当てています。まず、新しいベンチマークセットアップを紹介し、ローカリゼーションパフォーマンスをメトリックとして使用して、複数のデータセットの最先端の検索表現を比較します。次に、画像検索のための「グラウンドトゥルース」のいくつかの定義を調査します。これらの定義を視覚的ローカリゼーションパラダイムの上限として使用して、まだ改善の余地があることを示します。第三に、これらのツールと詳細な分析を使用して、古典的なランドマーク検索または場所認識タスクでの検索パフォーマンスが、すべてではないが一部のパラダイムでのみローカリゼーションパフォーマンスに相関することを示します。最後に、画像のブラーとダイナミックシーンの影響を分析します。ローカリゼーションパラダイム用に特別に設計された検索アプローチが必要であると結論付けます。ベンチマークと評価のプロトコルは、https://github.com/naver/kapture-localizationで入手できます。
Visual localization, i.e., camera pose estimation in a known scene, is a core component of technologies such as autonomous driving and augmented reality. State-of-the-art localization approaches often rely on image retrieval techniques for one of two purposes: (1) provide an approximate pose estimate or (2) determine which parts of the scene are potentially visible in a given query image. It is common practice to use state-of-the-art image retrieval algorithms for both of them. These algorithms are often trained for the goal of retrieving the same landmark under a large range of viewpoint changes which often differs from the requirements of visual localization. In order to investigate the consequences for visual localization, this paper focuses on understanding the role of image retrieval for multiple visual localization paradigms. First, we introduce a novel benchmark setup and compare state-of-the-art retrieval representations on multiple datasets using localization performance as metric. Second, we investigate several definitions of "ground truth" for image retrieval. Using these definitions as upper bounds for the visual localization paradigms, we show that there is still sgnificant room for improvement. Third, using these tools and in-depth analysis, we show that retrieval performance on classical landmark retrieval or place recognition tasks correlates only for some but not all paradigms to localization performance. Finally, we analyze the effects of blur and dynamic scenes in the images. We conclude that there is a need for retrieval approaches specifically designed for localization paradigms. Our benchmark and evaluation protocols are available at https://github.com/naver/kapture-localization.