arXiv reaDer
屋内深度完了のためのデコーダー変調
Decoder Modulation for Indoor Depth Completion
深度の完了により、センサー測定から高密度の深度マップが復元されます。現在の方法は、主に屋外設定でのLiDARからの非常にまばらな深度測定用に調整されていますが、屋内シーンでは、飛行時間(ToF)または構造化光センサーが主に使用されます。これらのセンサーは、一部の地域では高密度の測定値を、他の地域ではほとんど空の測定値を持つ、半高密度のマップを提供します。そのような地域間の統計的差異を考慮に入れた新しいモデルを提案します。私たちの主な貢献は、エンコーダ-デコーダアーキテクチャに追加された新しいデコーダ変調ブランチです。エンコーダーは、連結されたRGB画像と生の深度から特徴を抽出します。入力として欠落値のマスクが与えられると、提案された変調ブランチは、これらの特徴からの密な深度マップのデコードを、地域ごとに異なる方法で制御します。これは、Spatially-Adaptive Denormalization(SPADE)ブロックを介してデコーダー内の出力信号の空間分布を変更することによって実装されます。 2番目の貢献は、グラウンドトゥルース深度マップが利用できない場合に、半密度センサーデータでトレーニングできる新しいトレーニング戦略です。私たちのモデルは、屋内のMatterport3Dデータセットで最先端の結果を達成しています。半密度の入力深度用に設計されているため、このモデルは、KITTIデータセットに対するLiDAR指向のアプローチと競合します。 NYUv2データセットで検証されているように、私たちのトレーニング戦略は、利用可能な密なグラウンドトゥルースがない状態で予測品質を大幅に向上させます。
Depth completion recovers a dense depth map from sensor measurements. Current methods are mostly tailored for very sparse depth measurements from LiDARs in outdoor settings, while for indoor scenes Time-of-Flight (ToF) or structured light sensors are mostly used. These sensors provide semi-dense maps, with dense measurements in some regions and almost empty in others. We propose a new model that takes into account the statistical difference between such regions. Our main contribution is a new decoder modulation branch added to the encoder-decoder architecture. The encoder extracts features from the concatenated RGB image and raw depth. Given the mask of missing values as input, the proposed modulation branch controls the decoding of a dense depth map from these features differently for different regions. This is implemented by modifying the spatial distribution of output signals inside the decoder via Spatially-Adaptive Denormalization (SPADE) blocks. Our second contribution is a novel training strategy that allows us to train on a semi-dense sensor data when the ground truth depth map is not available. Our model achieves the state of the art results on indoor Matterport3D dataset. Being designed for semi-dense input depth, our model is still competitive with LiDAR-oriented approaches on the KITTI dataset. Our training strategy significantly improves prediction quality with no dense ground truth available, as validated on the NYUv2 dataset.
updated: Mon Feb 08 2021 08:20:51 GMT+0000 (UTC)
published: Mon May 18 2020 11:42:42 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト