arXiv reaDer
S3E-GNN:カメラの再ローカリゼーションのためのグラフニューラルネットワークを使用したスパース空間シーンの埋め込み
S3E-GNN: Sparse Spatial Scene Embedding with Graph Neural Networks for Camera Relocalization
カメラの再ローカリゼーションは、同時ローカリゼーションおよびマッピング(SLAM)システムの重要なコンポーネントです。このホワイトペーパーでは、効率的で堅牢なカメラの再ローカリゼーションのためのエンドツーエンドのフレームワークとして、グラフニューラルネットワークを使用したスパース空間シーン埋め込み(S3E-GNN)という名前の学習ベースのアプローチを提案します。 S3E-GNNは2つのモジュールで構成されています。エンコードモジュールでは、トレーニングされたS3EネットワークがRGB画像を埋め込みコードにエンコードして、空間的および意味的な埋め込みコードを暗黙的に表します。 SLAMシステムから取得した埋め込みコードと関連するポーズを使用して、各画像はポーズグラフのグラフノードとして表されます。 GNNクエリモジュールでは、ポーズグラフが変換され、カメラの再ローカリゼーション用の埋め込み集約参照グラフが形成されます。実験を行うために、困難な環境でさまざまなシーンデータセットを収集します。私たちの結果は、S3E-GNNメソッドが、学習ベースの埋め込みとGNNを利用したシーンマッチングメカニズムにより、カメラの再ローカリゼーションに関して従来のBag-of-words(BoW)よりも優れていることを示しています。
Camera relocalization is the key component of simultaneous localization and mapping (SLAM) systems. This paper proposes a learning-based approach, named Sparse Spatial Scene Embedding with Graph Neural Networks (S3E-GNN), as an end-to-end framework for efficient and robust camera relocalization. S3E-GNN consists of two modules. In the encoding module, a trained S3E network encodes RGB images into embedding codes to implicitly represent spatial and semantic embedding code. With embedding codes and the associated poses obtained from a SLAM system, each image is represented as a graph node in a pose graph. In the GNN query module, the pose graph is transformed to form a embedding-aggregated reference graph for camera relocalization. We collect various scene datasets in the challenging environments to perform experiments. Our results demonstrate that S3E-GNN method outperforms the traditional Bag-of-words (BoW) for camera relocalization due to learning-based embedding and GNN powered scene matching mechanism.
updated: Thu May 12 2022 03:21:45 GMT+0000 (UTC)
published: Thu May 12 2022 03:21:45 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト