ポーズをとった画像からの 3D 神経場の再構成は、自己教師あり表現学習の有望な方法として浮上しています。これらの 3D シーン学習器を大規模なビデオ データに展開することを妨げる主な課題は、モーションからの構造からの正確なカメラ ポーズに依存していることであり、大規模に実行するには法外なコストがかかります。我々は、カメラのポーズと 3D ニューラル シーン表現をオンラインで単一の順方向パスで共同再構築する方法を提案します。まず微分可能なレンダリングを介してフレーム間のオプティカル フローを 3D シーン フローにリフトし、画像処理バックボーンの局所性とシフト等分散を維持することでポーズを推定します。 SE(3) カメラの姿勢推定は、シーン フロー フィールドに合わせた重み付き最小二乗法によって実行されます。この定式化により、入力ビデオの再レンダリングを介して姿勢推定と一般化可能なニューラル シーン表現を共同で監視できるため、実世界のビデオ データセットでエンドツーエンドで完全に自己監視されたトレーニングを行うことができます。我々の手法が、多様な現実世界のビデオ、特に最適化ベースの姿勢推定技術が伝統的に困難であったシーケンスに対して堅牢に実行されることを実証します。
Reconstruction of 3D neural fields from posed images has emerged as a promising method for self-supervised representation learning. The key challenge preventing the deployment of these 3D scene learners on large-scale video data is their dependence on precise camera poses from structure-from-motion, which is prohibitively expensive to run at scale. We propose a method that jointly reconstructs camera poses and 3D neural scene representations online and in a single forward pass. We estimate poses by first lifting frame-to-frame optical flow to 3D scene flow via differentiable rendering, preserving locality and shift-equivariance of the image processing backbone. SE(3) camera pose estimation is then performed via a weighted least-squares fit to the scene flow field. This formulation enables us to jointly supervise pose estimation and a generalizable neural scene representation via re-rendering the input video, and thus, train end-to-end and fully self-supervised on real-world video datasets. We demonstrate that our method performs robustly on diverse, real-world video, notably on sequences traditionally challenging to optimization-based pose estimation techniques.