arXiv reaDer
Unsupervised Depth Completion with Calibrated Backprojection Layers
画像と疎な点群から密な深さを推測するためのディープニューラルネットワークアーキテクチャを提案します。これは、LIDARまたは他の距離センサーから取得したビデオストリームと対応する同期スパースポイントクラウド、およびカメラの固有のキャリブレーションパラメーターを使用してトレーニングされます。推論時に、トレーニングに使用されるものとは異なる可能性のあるカメラのキャリブレーションが、スパースポイントクラウドおよび単一の画像とともにネットワークへの入力として供給されます。 Calibrated Backprojection Layerは、キャリブレーション行列と深度特徴記述子を使用して、画像内の各ピクセルを3次元空間に逆投影します。結果の3D位置エンコーディングは、画像記述子および前のレイヤー出力と連結され、エンコーダーの次のレイヤーへの入力を生成します。スキップ接続を利用するデコーダーは、密な深度マップを生成します。結果として得られるキャリブレーションされた逆投影ネットワーク(KBNet)は、測光再投影エラーを最小限に抑えることにより、監視なしでトレーニングされます。 KBNetは、一般的な正則化ではなく、トレーニングセットに基づいて欠落している深度値を代入します。 KBNetを公開深度完了ベンチマークでテストします。このベンチマークでは、同じカメラをトレーニングとテストに使用した場合、屋内で30.5%、屋外で8.8%、最先端のパフォーマンスを上回っています。テストカメラが異なる場合、改善は62%に達します。コードはで入手できます。
We propose a deep neural network architecture to infer dense depth from an image and a sparse point cloud. It is trained using a video stream and corresponding synchronized sparse point cloud, as obtained from a LIDAR or other range sensor, along with the intrinsic calibration parameters of the camera. At inference time, the calibration of the camera, which can be different than the one used for training, is fed as an input to the network along with the sparse point cloud and a single image. A Calibrated Backprojection Layer backprojects each pixel in the image to three-dimensional space using the calibration matrix and a depth feature descriptor. The resulting 3D positional encoding is concatenated with the image descriptor and the previous layer output to yield the input to the next layer of the encoder. A decoder, exploiting skip-connections, produces a dense depth map. The resulting Calibrated Backprojection Network, or KBNet, is trained without supervision by minimizing the photometric reprojection error. KBNet imputes missing depth value based on the training set, rather than on generic regularization. We test KBNet on public depth completion benchmarks, where it outperforms the state of the art by 30.5% indoor and 8.8% outdoor when the same camera is used for training and testing. When the test camera is different, the improvement reaches 62%. Code available at:
updated: Sun Oct 10 2021 21:56:55 GMT+0000 (UTC)
published: Tue Aug 24 2021 05:41:59 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト