arXiv reaDer
解像度が一致しないデータを使用した弱教師あり単眼深度推定
Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched Data
単一の画像からの深度推定は、コンピュータビジョンの活発な研究トピックです。最も正確なアプローチは、完全に監視された学習モデルに基づいています。このモデルは、大量の高密度で高解像度(HR)のグラウンドトゥルース深度マップに依存しています。ただし、実際には、カラー画像は通常、深度マップよりもはるかに高い解像度でキャプチャされるため、解像度の不一致の影響が生じます。この論文では、単眼深度推定ネットワークをトレーニングして、解像度が一致しない監視を備えたHR深度マップを生成するための新しい弱監視フレームワークを提案します。つまり、入力はHRカラー画像であり、グラウンドトゥルースは低解像度(LR)です。深度マップ。提案された弱教師ありフレームワークは、共有重み単眼深度推定ネットワークと蒸留用の深度再構築ネットワークで構成されています。具体的には、単眼深度推定ネットワークの場合、入力カラー画像を最初にダウンサンプリングして、グラウンドトゥルース深度と同じ解像度のLRバージョンを取得します。次に、HRとLRの両方のカラー画像が提案された単眼深度推定ネットワークに供給され、対応する推定深度マップが取得されます。ネットワークをトレーニングするために3つの損失を導入します。1)推定LR深度とグラウンドトゥルースLR深度の間の再構築損失。 2)ダウンサンプリングされた推定HR深度とグラウンドトゥルースLR深度の間の再構成損失。 3)推定LR深度とダウンサンプリングされた推定HR深度の間の一貫性の損失。さらに、深さから深さへの深さ再構築ネットワークを設計します。蒸留損失により、2つのネットワーク間の機能が親和性空間の構造的一貫性を維持し、最終的に推定ネットワークのパフォーマンスを向上させます。実験結果は、私たちの方法が教師なしおよび半教師あり学習ベースのスキームよりも優れたパフォーマンスを達成し、教師ありのものと比較して競争力があるか、さらに優れていることを示しています。
Depth estimation from a single image is an active research topic in computer vision. The most accurate approaches are based on fully supervised learning models, which rely on a large amount of dense and high-resolution (HR) ground-truth depth maps. However, in practice, color images are usually captured with much higher resolution than depth maps, leading to the resolution-mismatched effect. In this paper, we propose a novel weakly-supervised framework to train a monocular depth estimation network to generate HR depth maps with resolution-mismatched supervision, i.e., the inputs are HR color images and the ground-truth are low-resolution (LR) depth maps. The proposed weakly supervised framework is composed of a sharing weight monocular depth estimation network and a depth reconstruction network for distillation. Specifically, for the monocular depth estimation network the input color image is first downsampled to obtain its LR version with the same resolution as the ground-truth depth. Then, both HR and LR color images are fed into the proposed monocular depth estimation network to obtain the corresponding estimated depth maps. We introduce three losses to train the network: 1) reconstruction loss between the estimated LR depth and the ground-truth LR depth; 2) reconstruction loss between the downsampled estimated HR depth and the ground-truth LR depth; 3) consistency loss between the estimated LR depth and the downsampled estimated HR depth. In addition, we design a depth reconstruction network from depth to depth. Through distillation loss, features between two networks maintain the structural consistency in affinity space, and finally improving the estimation network performance. Experimental results demonstrate that our method achieves superior performance than unsupervised and semi-supervised learning based schemes, and is competitive or even better compared to supervised ones.
updated: Thu Sep 23 2021 18:04:12 GMT+0000 (UTC)
published: Thu Sep 23 2021 18:04:12 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト