Regularizing Nighttime Weirdness: Efficient Self-supervised Monocular Depth Estimation in the Dark
単眼深度推定は、単一の画像またはビデオから深度を予測することを目的としています。最近、自己監視方式が注目を集めています。これは、深度アノテーションがなく、KITTIやCityscapesなどのいくつかの日中のベンチマークで優れたパフォーマンスを発揮するためです。ただし、視認性が低く、照明が変化するため、より困難な夜間のシナリオでは奇妙な出力が生成されます。これにより、テクスチャが弱くなり、明るさの一貫性の仮定が破られます。これらの問題に対処するために、この論文では、いくつかの改善を加えた新しいフレームワークを提案します。(1)事前確率に基づく正則化を導入して、対になっていない深度マップから分布知識を学習し、モデルが誤ってトレーニングされるのを防ぎます。 (2)マッピングの一貫性のある画像強調モジュールを活用して、明るさの一貫性を維持しながら画像の視認性とコントラストを強化します。 (3)動的統計を使用して、テクスチャのない領域内の削除されたピクセルの数を調整する統計ベースのマスク戦略を提示します。実験結果は、各コンポーネントの有効性を示しています。一方、私たちのフレームワークは、2つの夜間データセットで目覚ましい改善と最先端の結果を達成しています。
Monocular depth estimation aims at predicting depth from a single image or video. Recently, self-supervised methods draw much attention, due to their free of depth annotations and impressive performance on several daytime benchmarks, such as KITTI and Cityscapes. However, they produce weird outputs in more challenging nighttime scenarios because of low visibility and varying illuminations, which bring weak textures and break brightness-consistency assumption, respectively. To address these problems, in this paper we propose a novel framework with several improvements: (1) we introduce Priors-Based Regularization to learn distribution knowledge from unpaired depth maps and prevent model from being incorrectly trained; (2) we leverage Mapping-Consistent Image Enhancement module to enhance image visibility and contrast while maintaining brightness consistency; and (3) we present Statistics-Based Mask strategy to tune the number of removed pixels within textureless regions, using dynamic statistics. Experimental results demonstrate the effectiveness of each component. Meanwhile, our framework achieves remarkable improvements and state-of-the-art results on two nighttime datasets.
updated: Mon Aug 09 2021 06:24:35 GMT+0000 (UTC)
published: Mon Aug 09 2021 06:24:35 GMT+0000 (UTC)
