arXiv reaDer
URCDC-Depth: 単眼深度推定のための CutFlip を使用した不確実性修正交差蒸留
URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for Monocular Depth Estimation
この作業は、単一の RGB 画像から高品質の深度マップを推定することを目的としています。深さの手がかりがないため、遠距離相関とローカル情報を最大限に活用することは、正確な深さ推定にとって重要です。この目的に向けて、Transformer と畳み込みニューラル ネットワーク (CNN) の間に不確実性を修正した相互蒸留を導入して、統一された深度推定器を学習します。具体的には、Transformer ブランチと CNN ブランチから導出された深さの推定値を疑似ラベルとして使用して、互いに教え合います。一方、ピクセル単位の深度の不確実性をモデル化して、ノイズの多い深度ラベルの損失重みを修正します。クロス蒸留を悪化させる強い Transformer ブランチによって引き起こされる大きなパフォーマンス ギャップを回避するために、特徴マップを Transformer から CNN に転送し、カップリング ユニットを設計して、弱い CNN ブランチが転送された機能を利用できるようにします。さらに、驚くほどシンプルでありながら非常に効果的なデータ拡張技術 CutFlip を提案します。これにより、深度推定のための垂直方向の画像位置の手がかりとは別に、モデルがより価値のある手がかりを利用するようになります。広範な実験により、~URCDC-Depth と呼ばれるモデルは、推論時に追加の計算負荷がなくても、KITTI および NYU-Depth-v2 データセットに対する以前の最先端の方法を超えていることが示されています。ソース コードは、https://github.com/ShuweiShao/URCDC-Depth で公開されています。
This work aims to estimate a high-quality depth map from a single RGB image. Due to the lack of depth clues, making full use of the long-range correlation and the local information is critical for accurate depth estimation. Towards this end, we introduce an uncertainty rectified cross-distillation between Transformer and convolutional neural network (CNN) to learn a unified depth estimator. Specifically, we use the depth estimates derived from the Transformer branch and the CNN branch as pseudo labels to teach each other. Meanwhile, we model the pixel-wise depth uncertainty to rectify the loss weights of noisy depth labels. To avoid the large performance gap induced by the strong Transformer branch deteriorating the cross-distillation, we transfer the feature maps from Transformer to CNN and design coupling units to assist the weak CNN branch to utilize the transferred features. Furthermore, we propose a surprisingly simple yet highly effective data augmentation technique CutFlip, which enforces the model to exploit more valuable clues apart from the clue of vertical image position for depth estimation. Extensive experiments indicate that our model, termed~URCDC-Depth, exceeds previous state-of-the-art methods on the KITTI and NYU-Depth-v2 datasets, even with no additional computational burden at inference time. The source code is publicly available at https://github.com/ShuweiShao/URCDC-Depth.
updated: Thu Feb 16 2023 08:53:08 GMT+0000 (UTC)
published: Thu Feb 16 2023 08:53:08 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト