自己教師ありマルチフレーム深度推定は、隣接するフレーム間のピクセル対応のマッチング コストを計算し、幾何学的情報をネットワークに注入することで、高い精度を達成します。これらのピクセル対応候補は、フレーム間の相対的な姿勢推定に基づいて計算されます。正確な姿勢予測は、エピポーラ ジオメトリに影響を与えるため、正確なマッチング コストの計算に不可欠です。さらに、改善された奥行き推定値を使用して、姿勢推定値を整列させることができます。従来の構造から動き (SfM) の原則に着想を得て、DualRefine モデルを提案します。これは、フィードバック ループを介して深度とポーズの推定を緊密に結合します。私たちの新しい更新パイプラインは、深層平衡モデル フレームワークを使用して、エピポーラ ジオメトリに基づいてローカル マッチング コストを計算することにより、深さの推定値とフィーチャ マップの隠れた状態を繰り返し改良します。重要なことは、洗練された深度推定と特徴マップを使用して、各ステップでポーズの更新を計算したことです。ポーズ推定値のこの更新により、改良プロセス中にエピポーラ ジオメトリがゆっくりと変更されます。 KITTI データセットの実験結果は、競争力のある深度予測とオドメトリ予測のパフォーマンスが、公開されている自己教師ありベースラインを上回っていることを示しています。
Self-supervised multi-frame depth estimation achieves high accuracy by computing matching costs of pixel correspondences between adjacent frames, injecting geometric information into the network. These pixel-correspondence candidates are computed based on the relative pose estimates between the frames. Accurate pose predictions are essential for precise matching cost computation as they influence the epipolar geometry. Furthermore, improved depth estimates can, in turn, be used to align pose estimates. Inspired by traditional structure-from-motion (SfM) principles, we propose the DualRefine model, which tightly couples depth and pose estimation through a feedback loop. Our novel update pipeline uses a deep equilibrium model framework to iteratively refine depth estimates and a hidden state of feature maps by computing local matching costs based on epipolar geometry. Importantly, we used the refined depth estimates and feature maps to compute pose updates at each step. This update in the pose estimates slowly alters the epipolar geometry during the refinement process. Experimental results on the KITTI dataset demonstrate competitive depth prediction and odometry prediction performance surpassing published self-supervised baselines.