マルチビュー深度推定のための最近の深層学習アプローチは、ビデオからの深度またはマルチビュー ステレオ設定のいずれかで採用されています。設定は異なりますが、これらのアプローチは技術的には似ています。複数のソース ビューをキービューと関連付けて、キービューの深度マップを推定します。この作業では、一連の公開データセットに基づいて構築され、異なるドメインからのデータの両方の設定で評価できる堅牢なマルチビュー深度ベンチマークを紹介します。最近のアプローチを評価し、ドメイン間でパフォーマンスのバランスが取れていないことを発見しました。さらに、カメラのポーズが利用可能で、目的が正しいスケールで対応する深度マップを推定することである 3 番目の設定を検討します。最近のアプローチは、この設定のデータセット全体で一般化されていないことを示しています。これは、コストボリューム出力が分配を使い果たすためです。これを解決するために、既存のコンポーネントに基づいて構築されていますが、新しいスケール拡張手順を採用しているマルチビュー深度推定用のロバスト MVD ベースライン モデルを提示します。ターゲットデータに関係なく、堅牢なマルチビュー深度推定に適用できます。 https://github.com/lmb-freiburg/robustmvd で、提案されたベンチマークとベースライン モデルのコードを提供します。
Recent deep learning approaches for multi-view depth estimation are employed either in a depth-from-video or a multi-view stereo setting. Despite different settings, these approaches are technically similar: they correlate multiple source views with a keyview to estimate a depth map for the keyview. In this work, we introduce the Robust Multi-View Depth Benchmark that is built upon a set of public datasets and allows evaluation in both settings on data from different domains. We evaluate recent approaches and find imbalanced performances across domains. Further, we consider a third setting, where camera poses are available and the objective is to estimate the corresponding depth maps with their correct scale. We show that recent approaches do not generalize across datasets in this setting. This is because their cost volume output runs out of distribution. To resolve this, we present the Robust MVD Baseline model for multi-view depth estimation, which is built upon existing components but employs a novel scale augmentation procedure. It can be applied for robust multi-view depth estimation, independent of the target data. We provide code for the proposed benchmark and baseline model at https://github.com/lmb-freiburg/robustmvd.