ビデオから深度を予測するためのエンドツーエンドの深層学習アーキテクチャであるDeepV2Dを提案します。 DeepV2Dは、ニューラルネットワークの表現能力と、画像形成を支配する幾何学的原理を組み合わせています。古典的な幾何学的アルゴリズムのコレクションを構成します。これは、訓練可能なモジュールに変換され、エンドツーエンドの微分可能なアーキテクチャに結合されます。 DeepV2Dは、モーション推定と深度推定の2つの段階をインターリーブします。推論中、動きと深度の推定は交互に行われ、正確な深度に収束します。コードはhttps://github.com/princeton-vl/DeepV2Dで入手できます。
We propose DeepV2D, an end-to-end deep learning architecture for predicting depth from video. DeepV2D combines the representation ability of neural networks with the geometric principles governing image formation. We compose a collection of classical geometric algorithms, which are converted into trainable modules and combined into an end-to-end differentiable architecture. DeepV2D interleaves two stages: motion estimation and depth estimation. During inference, motion and depth estimation are alternated and converge to accurate depth. Code is available https://github.com/princeton-vl/DeepV2D.