カメラの姿勢推定またはカメラの再配置は、ビジュアル オドメトリ、ストラクチャー フロム モーション (SfM)、SLAM などの多くのコンピューター ビジョン タスクの中心です。この論文では、カメラの再配置問題に対処するために、グラフ変換バックボーン、つまり TransCamP を使用したニューラル ネットワーク アプローチを提案します。ポーズの回帰が主に測光の一貫性によって導かれる以前の研究とは対照的に、TransCamP は画像の特徴、カメラのポーズ情報、フレーム間の相対的なカメラの動きをエンコードされたグラフ属性に効果的に融合し、代わりにグラフの一貫性と精度に向けて訓練され、大幅な成果より高い計算効率。 TransCamP は、エッジ機能を備えたグラフ トランスレイヤーを活用し、テンソル化された隣接行列を有効にすることで、グローバルな注目を動的にキャプチャし、ポーズ グラフに進化する構造を付与して、堅牢性と精度の向上を実現します。さらに、オプションの時間変換レイヤーは、シーケンシャル入力の時空間フレーム間関係を積極的に強化します。さまざまな公開ベンチマークで提案されたネットワークを評価すると、TransCamP が最先端のアプローチよりも優れていることがわかります。
Camera pose estimation or camera relocalization is the centerpiece in numerous computer vision tasks such as visual odometry, structure from motion (SfM) and SLAM. In this paper we propose a neural network approach with a graph transformer backbone, namely TransCamP, to address the camera relocalization problem. In contrast with prior work where the pose regression is mainly guided by photometric consistency, TransCamP effectively fuses the image features, camera pose information and inter-frame relative camera motions into encoded graph attributes and is trained towards the graph consistency and accuracy instead, yielding significantly higher computational efficiency. By leveraging graph transformer layers with edge features and enabling tensorized adjacency matrix, TransCamP dynamically captures the global attention and thus endows the pose graph with evolving structures to achieve improved robustness and accuracy. In addition, optional temporal transformer layers actively enhance the spatiotemporal inter-frame relation for sequential inputs. Evaluation of the proposed network on various public benchmarks demonstrates that TransCamP outperforms state-of-the-art approaches.