ビジュアル ローカリゼーションは、コンピューター ビジョンやロボット工学の多くのアプリケーションにとって重要です。単一画像の RGB ローカリゼーションに対処するために、最先端の機能ベースの方法で、クエリ画像と事前に構築された 3D モデルの間でローカル記述子を照合します。最近、深層ニューラル ネットワークが生のピクセルとシーン内の 3D 座標との間のマッピングを回帰するために利用されているため、マッチングはネットワークを介したフォワード パスによって暗黙的に実行されます。ただし、大規模であいまいな環境では、このような回帰タスクを直接学習することは、単一のネットワークでは困難な場合があります。この作業では、単一の RGB 画像から粗から細かい方法でピクセル シーン座標を予測するための新しい階層シーン座標ネットワークを提示します。 HSCNet の拡張である提案された方法により、大規模な環境にロバストにスケーリングするコンパクトなモデルをトレーニングできます。これは、7 シーン、12 シーン、ケンブリッジ ランドマーク データセット、および組み合わされた屋内シーンでの単一画像ローカリゼーションの新しい最先端技術を設定します。
Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The proposed method, which is an extension of HSCNet, allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image localization on the 7-Scenes, 12 Scenes, Cambridge Landmarks datasets, and the combined indoor scenes.