画像から高密度の深度測定を推測する最新のアプローチは、膨大な量のデータでエンドツーエンドでトレーニングされたCNNに依存しています。ただし、これらのアプローチは、トレーニング時に観察される環境とは外観やコンテキストが大幅に異なる環境を扱う場合、精度が大幅に低下します。このドメインシフトの問題は、通常、デプスラベルが付けられたターゲットドメインからの画像の小さなセットを微調整することで解決されます。残念ながら、そのような監視されたラベル付けに依存することは、ほとんどの実際的な設定ではめったに実行できません。したがって、グラウンドトゥルースラベルを必要としない教師なしドメイン適応手法を提案します。この方法は、画像ペアのみに依存し、従来のステレオアルゴリズムを活用して、信頼性を評価するための信頼性推定器とともに視差測定値を生成します。推定された信頼度に従って重み付けされたノイズのあるラベルとして測定された視差を処理する新しい信頼度誘導損失関数により、ステレオからの深度とモノからの深度の両方のアーキテクチャを微調整することを提案します。標準データセットと評価プロトコルに基づく広範な実験結果は、当社の手法がステレオと単眼の両方の深度予測アーキテクチャでドメインシフトの問題に効果的に対処し、ドメインを追求するために展開される可能性のある他の最先端の教師なし損失関数よりも優れていることを証明しています適応。
State-of-the-art approaches to infer dense depth measurements from images rely on CNNs trained end-to-end on a vast amount of data. However, these approaches suffer a drastic drop in accuracy when dealing with environments much different in appearance and/or context from those observed at training time. This domain shift issue is usually addressed by fine-tuning on smaller sets of images from the target domain annotated with depth labels. Unfortunately, relying on such supervised labeling is seldom feasible in most practical settings. Therefore, we propose an unsupervised domain adaptation technique which does not require groundtruth labels. Our method relies only on image pairs and leverages on classical stereo algorithms to produce disparity measurements alongside with confidence estimators to assess upon their reliability. We propose to fine-tune both depth-from-stereo as well as depth-from-mono architectures by a novel confidence-guided loss function that handles the measured disparities as noisy labels weighted according to the estimated confidence. Extensive experimental results based on standard datasets and evaluation protocols prove that our technique can address effectively the domain shift issue with both stereo and monocular depth prediction architectures and outperforms other state-of-the-art unsupervised loss functions that may be alternatively deployed to pursue domain adaptation.