この論文では、アップライト カメラの仮定の下で、360^∘ パノラマのグループからのワイドベースライン カメラ ポーズ推定の問題に対処します。最近の研究では、360^∘ パノラマ ペアにおけるエンドツーエンドの直接相対姿勢回帰に対するディープ ラーニングのメリットが実証されています [11]。学習ベースのフレームワークでマルチビュー ロジックの利点を活用するために、Graph-CoVis を導入します。これは、CoVisPose [11] を相対 2 ビューからグローバル マルチビュー球面カメラ ポーズ推定に自明ではありません。 Graph-CoVis は、エンド ツー エンドの完全に監視されたアプローチで共可視構造とグローバル モーションを共同で学習する新しいグラフ ニューラル ネットワーク ベースのアーキテクチャです。 ZInD [4] データセットを使用して、広いベースライン、オクルージョン、限られた視覚的オーバーラップを示す実際の家を特徴とし、私たちのモデルが最先端のアプローチに匹敵するパフォーマンスを発揮することを示します。
In this paper, we address the problem of wide-baseline camera pose estimation from a group of 360^∘ panoramas under upright-camera assumption. Recent work has demonstrated the merit of deep-learning for end-to-end direct relative pose regression in 360^∘ panorama pairs [11]. To exploit the benefits of multi-view logic in a learning-based framework, we introduce Graph-CoVis, which non-trivially extends CoVisPose [11] from relative two-view to global multi-view spherical camera pose estimation. Graph-CoVis is a novel Graph Neural Network based architecture that jointly learns the co-visible structure and global motion in an end-to-end and fully-supervised approach. Using the ZInD [4] dataset, which features real homes presenting wide-baselines, occlusion, and limited visual overlap, we show that our model performs competitively to state-of-the-art approaches.