コスト ボリュームに基づくマルチビュー ステレオ奥行き推定は、移動する物体やテクスチャの低い表面を除き、通常、自己監視による単眼奥行き推定よりもうまく機能します。そこでこの論文では、数回の反復内でベイジアン融合層を活用し、マルチフレームシーケンシャル制約によって単眼深度を連続的に調整できるマルチフレーム深度推定フレームワークを提案します。単眼ネットワークと多視点ネットワークは両方とも、深度監視なしでトレーニングできます。また、私たちの方法は、単眼推定と多視点コストボリュームを組み合わせた場合の解釈可能性を高めます。詳細な実験により、私たちの方法が、KITTIベンチマークでのテスト時に単一または複数のフレームを利用する最先端の教師なし方法を上回ることが示されました。
Multi-view stereo depth estimation based on cost volume usually works better than self-supervised monocular depth estimation except for moving objects and low-textured surfaces. So in this paper, we propose a multi-frame depth estimation framework which monocular depth can be refined continuously by multi-frame sequential constraints, leveraging a Bayesian fusion layer within several iterations. Both monocular and multi-view networks can be trained with no depth supervision. Our method also enhances the interpretability when combining monocular estimation with multi-view cost volume. Detailed experiments show that our method surpasses state-of-the-art unsupervised methods utilizing single or multiple frames at test time on KITTI benchmark.