視覚的な再ローカリゼーションは、ロボット工学や拡張現実などのアプリケーションに不可欠な、既知の環境でカメラの姿勢を復元することを目的としています。フィード フォワード絶対カメラ ポーズ回帰法は、ネットワークによって直接ポーズを出力しますが、精度が低いという問題があります。一方、シーン座標ベースの方法は正確ですが、反復的な RANSAC 後処理が必要であり、効率的なエンドツーエンドのトレーニングと推論に課題をもたらします。両方の長所を活かすために、SC-wLS と呼ばれるフィードフォワード法を提案します。これは、加重最小二乗姿勢回帰のすべてのシーン座標推定を利用します。この微分可能な定式化は、2D-3D 対応に課せられた重みネットワークを活用し、ポーズの監視のみを必要とします。定性的な結果は、学習した重みの解釈可能性を示しています。 7Scenes とケンブリッジのデータセットでの評価は、以前のフィードフォワードの対応物と比較して、パフォーマンスが大幅に向上したことを示しています。さらに、私たちの SC-wLS メソッドは、新しい機能を可能にします: 重みネットワークでの自己管理型テスト時間の適応です。コードとモデルは公開されています。
Visual re-localization aims to recover camera poses in a known environment, which is vital for applications like robotics or augmented reality. Feed-forward absolute camera pose regression methods directly output poses by a network, but suffer from low accuracy. Meanwhile, scene coordinate based methods are accurate, but need iterative RANSAC post-processing, which brings challenges to efficient end-to-end training and inference. In order to have the best of both worlds, we propose a feed-forward method termed SC-wLS that exploits all scene coordinate estimates for weighted least squares pose regression. This differentiable formulation exploits a weight network imposed on 2D-3D correspondences, and requires pose supervision only. Qualitative results demonstrate the interpretability of learned weights. Evaluations on 7Scenes and Cambridge datasets show significantly promoted performance when compared with former feed-forward counterparts. Moreover, our SC-wLS method enables a new capability: self-supervised test-time adaptation on the weight network. Codes and models are publicly available.