大規模なグラウンド トゥルース深度量への依存を軽減するために、単眼深度推定のための新しい半教師付き学習フレームワークである MaskingDepth を提案します。 MaskingDepth は、強力に拡張されたラベルなしデータと、弱く拡張されたラベルなしデータから派生した疑似ラベルとの間の一貫性を強化するように設計されており、監視なしで深さを学習できます。このフレームワークでは、単純なマスキング戦略を増強として利用するための新しいデータ増強が提案されていますが、弱く増強されたブランチと強力に増強されたブランチの深さの間のスケールのあいまいさの問題と、小規模なインスタンスを見逃すリスクを回避します。弱く拡張されたブランチからの信頼性の高い深度予測のみを疑似ラベルとして保持するために、ロバストな一貫性の正則化を定義するために使用される不確実性推定手法も提示します。 KITTI および NYU-Depth-v2 データセットでの実験は、各コンポーネントの有効性、使用する深度アノテーション付き画像の数が少ないことに対する堅牢性、および単眼深度推定のための他の最先端の半教師あり方法と比較して優れたパフォーマンスを示しています。 .さらに、この方法をドメイン適応タスクに簡単に拡張できることを示します。コードは https://github.com/KU-CVLAB/MaskingDepth で入手できます。
We propose MaskingDepth, a novel semi-supervised learning framework for monocular depth estimation to mitigate the reliance on large ground-truth depth quantities. MaskingDepth is designed to enforce consistency between the strongly-augmented unlabeled data and the pseudo-labels derived from weakly-augmented unlabeled data, which enables learning depth without supervision. In this framework, a novel data augmentation is proposed to take the advantage of a naive masking strategy as an augmentation, while avoiding its scale ambiguity problem between depths from weakly- and strongly-augmented branches and risk of missing small-scale instances. To only retain high-confident depth predictions from the weakly-augmented branch as pseudo-labels, we also present an uncertainty estimation technique, which is used to define robust consistency regularization. Experiments on KITTI and NYU-Depth-v2 datasets demonstrate the effectiveness of each component, its robustness to the use of fewer depth-annotated images, and superior performance compared to other state-of-the-art semi-supervised methods for monocular depth estimation. Furthermore, we show our method can be easily extended to domain adaptation task. Our code is available at https://github.com/KU-CVLAB/MaskingDepth.