arXiv reaDer
グラフ アテンション ネットワークを使用した動きから構造を学習する
Learning Structure-from-Motion with Graph Attention Networks
この論文では、グラフ アテンション ネットワークを使用して Structure-from-Motion (SfM) を学習する問題に取り組みます。 SfM は古典的なコンピュータ ビジョンの問題であり、適切な初期化から開始して、バンドル調整 (BA) と呼ばれる再投影誤差の最小化を反復することによって解決されます。 BA に対して十分な初期化を行うために、従来の方法は、BA を使用して改善できる初期解を提供する一連の副問題 (ペアごとの姿勢推定、姿勢平均、三角測量など) に依存しています。この研究では、複数のビューにわたって検出された 2D キーポイントを入力として受け取り、対応するカメラのポーズと 3D キーポイント座標を出力するモデルを学習することで、これらのサブ問題を置き換えます。私たちのモデルはグラフ ニューラル ネットワークを利用して SfM 固有のプリミティブを学習し、新しい未知のシーケンスの再構成の高速推論に使用できることを示します。実験結果は、提案されたモデルが競合する学習ベースの方法よりも優れたパフォーマンスを示し、実行時間を短縮しながら COLMAP に挑戦することを示しています。
In this paper we tackle the problem of learning Structure-from-Motion (SfM) through the use of graph attention networks. SfM is a classic computer vision problem that is solved though iterative minimization of reprojection errors, referred to as Bundle Adjustment (BA), starting from a good initialization. In order to obtain a good enough initialization to BA, conventional methods rely on a sequence of sub-problems (such as pairwise pose estimation, pose averaging or triangulation) which provides an initial solution that can then be refined using BA. In this work we replace these sub-problems by learning a model that takes as input the 2D keypoints detected across multiple views, and outputs the corresponding camera poses and 3D keypoint coordinates. Our model takes advantage of graph neural networks to learn SfM-specific primitives, and we show that it can be used for fast inference of the reconstruction for new and unseen sequences. The experimental results show that the proposed model outperforms competing learning-based methods, and challenges COLMAP while having lower runtime.
updated: Mon Dec 04 2023 08:50:31 GMT+0000 (UTC)
published: Wed Aug 30 2023 12:13:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト