単眼深度推定は、ディープ ニューラル ネットワークが大きな可能性を示した挑戦的な問題です。ただし、既存のディープ モデルによって予測される深度マップには、通常、畳み込み演算とネットワークでのダウンサンプリングが原因で、きめの細かい詳細が欠けています。低解像度での推定は全体的により正確ですが、入力解像度を上げると、よりローカルな詳細を保持するのに役立ちます。したがって、推定の利点とマルチ解像度入力を組み合わせるために、新しい深度マップ融合モジュールを提案します。低解像度推定と高解像度推定を等しくマージする代わりに、ポアソン融合のコアアイデアを採用し、高解像度深度の勾配ドメインを低解像度深度に埋め込もうとします。古典的なポアソン融合には監督として融合マスクが必要ですが、ガイド付き画像フィルタリングに基づく自己教師ありフレームワークを提案します。この勾配ベースの構成は、最先端の深度マップ融合法と比較して、ノイズ耐性ではるかに優れていることを示しています。当社の軽量深度融合はワンショットでリアルタイムで実行されるため、最先端の深度融合手法よりも 80 倍高速です。定量的評価は、提案された方法が多くの完全畳み込み単眼深度推定バックボーンに統合され、パフォーマンスが大幅に向上し、深度マップの詳細強調の最先端の結果につながることを示しています。
Monocular depth estimation is a challenging problem on which deep neural networks have demonstrated great potential. However, depth maps predicted by existing deep models usually lack fine-grained details due to the convolution operations and the down-samplings in networks. We find that increasing input resolution is helpful to preserve more local details while the estimation at low resolution is more accurate globally. Therefore, we propose a novel depth map fusion module to combine the advantages of estimations with multi-resolution inputs. Instead of merging the low- and high-resolution estimations equally, we adopt the core idea of Poisson fusion, trying to implant the gradient domain of high-resolution depth into the low-resolution depth. While classic Poisson fusion requires a fusion mask as supervision, we propose a self-supervised framework based on guided image filtering. We demonstrate that this gradient-based composition performs much better at noisy immunity, compared with the state-of-the-art depth map fusion method. Our lightweight depth fusion is one-shot and runs in real-time, making our method 80X faster than a state-of-the-art depth fusion method. Quantitative evaluations demonstrate that the proposed method can be integrated into many fully convolutional monocular depth estimation backbones with a significant performance boost, leading to state-of-the-art results of detail enhancement on depth maps.