単一画像からの深度推定を超えて、単眼キューは、精度を向上させるために他の利用可能な深度キューを活用できる場合など、より広範な深度推論アプリケーションおよび設定で役立ちます。現在、さまざまな推論タスクと深度キューの組み合わせを備えたさまざまなアプリケーションが、さまざまな専門のネットワークを介して解決されています。アプリケーションごとに個別にトレーニングされています。代わりに、パッチごとの条件付きVAEからの出力のサンプル近似として、入力カラー画像が与えられたシーンの深度にわたる確率分布を出力する、汎用性の高いタスクに依存しない単眼モデルを提案します。この分布出力を使用して、アプリケーションごとに再トレーニングする必要なく、さまざまな設定でさまざまな推論タスクを有効にできることを示します。さまざまなアプリケーションセット(深さ補完、ユーザーガイドによる推定など)で、共通のモデルは、アプリケーション固有のネットワークに依存する最先端のメソッドに匹敵するか、それを上回る高精度の結果をもたらします。
Beyond depth estimation from a single image, the monocular cue is useful in a broader range of depth inference applications and settings---such as when one can leverage other available depth cues for improved accuracy. Currently, different applications, with different inference tasks and combinations of depth cues, are solved via different specialized networks---trained separately for each application. Instead, we propose a versatile task-agnostic monocular model that outputs a probability distribution over scene depth given an input color image, as a sample approximation of outputs from a patch-wise conditional VAE. We show that this distributional output can be used to enable a variety of inference tasks in different settings, without needing to retrain for each application. Across a diverse set of applications (depth completion, user guided estimation, etc.), our common model yields results with high accuracy---comparable to or surpassing that of state-of-the-art methods dependent on application-specific networks.