潜在的な特徴空間における深度マップの集約を学習する新しいオンライン深度マップ融合アプローチを提示します。以前の融合方法は符号付き距離関数(SDF)のような明示的なシーン表現を使用しますが、融合のために学習された特徴表現を提案します。重要なアイデアは、追加のトランスレータネットワークを介して、フュージョンに使用されるシーン表現と出力シーン表現を分離することです。私たちのニューラルネットワークアーキテクチャは、深さと特徴の融合サブネットワークの2つの主要部分で構成され、その後にトランスレータサブネットワークが続き、視覚化やその他のタスクのための最終的な表面表現(TSDFなど)を生成します。私たちのアプローチはリアルタイム対応であり、高いノイズレベルを処理し、特にフォトメトリックステレオベースの深度マップで一般的な総外れ値を処理できます。実際のデータと合成データでの実験は、特に大量のノイズと外れ値を伴う困難なシナリオで、最先端技術と比較して改善された結果を示しています。
We present a novel online depth map fusion approach that learns depth map aggregation in a latent feature space. While previous fusion methods use an explicit scene representation like signed distance functions (SDFs), we propose a learned feature representation for the fusion. The key idea is a separation between the scene representation used for the fusion and the output scene representation, via an additional translator network. Our neural network architecture consists of two main parts: a depth and feature fusion sub-network, which is followed by a translator sub-network to produce the final surface representation (e.g. TSDF) for visualization or other tasks. Our approach is real-time capable, handles high noise levels, and is particularly able to deal with gross outliers common for photometric stereo-based depth maps. Experiments on real and synthetic data demonstrate improved results compared to the state of the art, especially in challenging scenarios with large amounts of noise and outliers.