視覚的な位置確認は、コンピュータービジョンとロボット工学の多くのアプリケーションにとって重要です。単一画像のRGBローカリゼーションに対処するために、最先端の機能ベースのメソッドは、クエリ画像と事前に構築された3Dモデル間のローカル記述子を照合します。最近、ディープニューラルネットワークが生のピクセルとシーン内の3D座標の間のマッピングを回帰するために利用されているため、マッチングはネットワークを介したフォワードパスによって暗黙的に実行されます。ただし、大規模であいまいな環境では、そのような回帰タスクを直接学習することは、単一のネットワークでは難しい場合があります。この作業では、新しいRGBシーン座標ネットワークを提示して、単一のRGB画像からピクセルシーンの座標を粗から細に予測します。ネットワークは一連の出力層で構成され、それぞれが前の層を条件としています。最終的な出力レイヤーは3D座標を予測し、他のレイヤーは徐々に細かい離散的な位置ラベルを生成します。提案された方法は、ベースライン回帰のみのネットワークよりも優れており、大規模環境にロバストにスケーリングするコンパクトモデルをトレーニングできます。 7シーン、12シーン、ケンブリッジランドマークデータセット、および3つのシーンを組み合わせたシングルイメージRGBローカリゼーションパフォーマンスの新しい最先端技術を設定します。さらに、アーヘンの昼夜データセットの大規模な屋外定位では、既存のシーン座標回帰法よりも優れたパフォーマンスと、パフォーマンスギャップw.r.tを大幅に削減するハイブリッドアプローチを提示します。明示的な特徴照合方法。
Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The network consists of a series of output layers, each of them conditioned on the previous ones. The final output layer predicts the 3D coordinates and the others produce progressively finer discrete location labels. The proposed method outperforms the baseline regression-only network and allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image RGB localization performance on the 7-Scenes, 12-Scenes, Cambridge Landmarks datasets, and three combined scenes. Moreover, for large-scale outdoor localization on the Aachen Day-Night dataset, we present a hybrid approach which outperforms existing scene coordinate regression methods, and reduces significantly the performance gap w.r.t. explicit feature matching methods.