arXiv reaDer
URCDC-Depth: 単眼深度推定のための CutFlip を使用した不確実性修正交差蒸留
URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation
この作業は、単一の RGB 画像から高品質の深度マップを推定することを目的としています。深さの手がかりがないため、遠距離相関とローカル情報を最大限に活用することは、正確な深さ推定にとって重要です。この目的に向けて、Transformer と畳み込みニューラル ネットワーク (CNN) の間に不確実性を修正した相互蒸留を導入して、統一された深度推定器を学習します。具体的には、Transformer ブランチと CNN ブランチからの深さの推定値を疑似ラベルとして使用して、互いに教え合います。一方、ピクセル単位の深度の不確実性をモデル化して、ノイズの多い疑似ラベルの損失の重みを修正します。相互蒸留を悪化させる強い Transformer ブランチによって引き起こされる大きな容量のギャップを回避するために、特徴マップを Transformer から CNN に転送し、結合ユニットを設計して、弱い CNN ブランチが転送された機能を活用できるようにします。さらに、驚くほどシンプルでありながら非常に効果的なデータ拡張技術 CutFlip を提案します。これにより、モデルは、奥行きの推定のために垂直方向の画像位置とは別に、より価値のある手がかりを利用するようになります。広範な実験により、〜URCDC-Depth と呼ばれる私たちのモデルは、推論時に追加の計算負荷がなくても、KITTI、NYU-Depth-v2、および SUN RGB-D データセットでの以前の最先端の方法を超えることが実証されています。ソース コードは、https://github.com/ShuweiShao/URCDC-Depth で公開されています。
This work aims to estimate a high-quality depth map from a single RGB image. Due to the lack of depth clues, making full use of the long-range correlation and the local information is critical for accurate depth estimation. Towards this end, we introduce an uncertainty rectified cross-distillation between Transformer and convolutional neural network (CNN) to learn a unified depth estimator. Specifically, we use the depth estimates from the Transformer branch and the CNN branch as pseudo labels to teach each other. Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss weights of noisy pseudo labels. To avoid the large capacity gap induced by the strong Transformer branch deteriorating the cross-distillation, we transfer the feature maps from Transformer to CNN and design coupling units to assist the weak CNN branch to leverage the transferred features. Furthermore, we propose a surprisingly simple yet highly effective data augmentation technique CutFlip, which enforces the model to exploit more valuable clues apart from the vertical image position for depth inference. Extensive experiments demonstrate that our model, termed~URCDC-Depth, exceeds previous state-of-the-art methods on the KITTI, NYU-Depth-v2 and SUN RGB-D datasets, even with no additional computational burden at inference time. The source code is publicly available at https://github.com/ShuweiShao/URCDC-Depth.
updated: Fri Feb 17 2023 04:20:14 GMT+0000 (UTC)
published: Thu Feb 16 2023 08:53:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト