単眼ステレオを解決し、複数のターゲットフレームからの深度情報を融合するために拡張できる学習ベースの方法を提案します。既知の固有のキャリブレーションを備えた単眼カメラからの2つの制約のない画像を考えると、ネットワークは相対的なカメラポーズとソース画像の深度マップを推定します。提案された方法の中心的な貢献は3つあります。まず、ネットワークは、オプティカルフローとカメラの動きを共同で推定する静的なシーンに合わせて調整されます。同時推定により、オプティカルフローの探索空間が徐々に減少し、効率的で正確なフロー推定が実現します。第二に、推定されたオプティカルフローとカメラの動きをエンコードし、エピポーラによって引き起こされる一般的な数値の問題を回避するために、新しい三角測量レイヤーが提案されます。第三に、2ビュー深度推定を超えて、上記のネットワークをさらに拡張して、複数のターゲット画像からの深度情報を融合し、ソース画像の深度マップを推定します。さらに研究コミュニティに利益をもたらすために、深層ネットワークを十分に訓練および評価できるように、写実的な運動からの構造データセットを生成するツールを導入します。提案された方法は以前の方法と比較され、より短い時間で最先端の結果を達成します。実世界のアプリケーションとGoogle Earthからの画像を使用して、メソッドの一般化機能を示します。
We propose a learning-based method that solves monocular stereo and can be extended to fuse depth information from multiple target frames. Given two unconstrained images from a monocular camera with known intrinsic calibration, our network estimates relative camera poses and the depth map of the source image. The core contribution of the proposed method is threefold. First, a network is tailored for static scenes that jointly estimates the optical flow and camera motion. By the joint estimation, the optical flow search space is gradually reduced resulting in an efficient and accurate flow estimation. Second, a novel triangulation layer is proposed to encode the estimated optical flow and camera motion while avoiding common numerical issues caused by epipolar. Third, beyond two-view depth estimation, we further extend the above networks to fuse depth information from multiple target images and estimate the depth map of the source image. To further benefit the research community, we introduce tools to generate photorealistic structure-from-motion datasets such that deep networks can be well trained and evaluated. The proposed method is compared with previous methods and achieves state-of-the-art results within less time. Images from real-world applications and Google Earth are used to demonstrate the generalization ability of the method.