テクスチャの弱い部屋と幾何学的なパターンの繰り返しが支配的な大規模で複雑な屋内シーンでの視覚的ローカリゼーションは、拡張現実やロボット工学などのアプリケーションに高い実用的関連性を持つ困難な問題です。このシナリオで発生するあいまいさを処理するための一般的な戦略は、最初に、特定のクエリ画像が取得されたカメラポーズの複数の推定値を生成することです。次に、クエリ画像との幾何学的整合性が最大のポーズ(たとえば、インライアーカウントの形式)が、第2段階で選択されます。かなりの量の研究が第一段階に集中していますが、第二段階の作業はかなり少なくなっています。したがって、このホワイトペーパーでは、ポーズの検証に焦点を当てます。異なるモダリティ、つまり外観、ジオメトリ、およびセマンティクスを組み合わせると、ポーズの検証が大幅に向上し、結果としてポーズの精度が向上することがわかります。複数の手作りのアプローチとトレーニング可能なアプローチを開発して、幾何セマンティック検証に参加し、非常に困難な屋内データセットでの最新技術を大幅に改善します。
Visual localization in large and complex indoor scenes, dominated by weakly textured rooms and repeating geometric patterns, is a challenging problem with high practical relevance for applications such as Augmented Reality and robotics. To handle the ambiguities arising in this scenario, a common strategy is, first, to generate multiple estimates for the camera pose from which a given query image was taken. The pose with the largest geometric consistency with the query image, e.g., in the form of an inlier count, is then selected in a second stage. While a significant amount of research has concentrated on the first stage, there is considerably less work on the second stage. In this paper, we thus focus on pose verification. We show that combining different modalities, namely appearance, geometry, and semantics, considerably boosts pose verification and consequently pose accuracy. We develop multiple hand-crafted as well as a trainable approach to join into the geometric-semantic verification and show significant improvements over state-of-the-art on a very challenging indoor dataset.