3D シーンのジオメトリ構造とセマンティック ラベルを共同で知覚する新しいリアルタイム対応の学習方法を提示します。リアルタイム 3D シーン再構成への最近のアプローチでは、切り捨てられた符号付き距離関数 (TSDF) が直接回帰されるボリューム スキームがほとんど採用されています。ただし、これらの体積測定アプローチは、再構成の全体的な一貫性に焦点を当てる傾向があり、局所的な幾何学的詳細の欠如につながります。この問題を克服するために、TSDF ボリュームでの占有学習を改善するために、明示的な深度予測と固定された特徴生成によって 2D 画像特徴の潜在的な幾何学的事前知識を活用することを提案します。さらに、このクロスディメンション機能の改良方法論は、セマンティック セグメンテーション タスクにも採用できることがわかりました。したがって、3Dメッシュと3Dセマンティックラベリングの両方をリアルタイムで抽出するために、エンドツーエンドのクロスディメンションリファインメントニューラルネットワーク(CDRNet)を提案しました。実験結果は、提案された方法が複数のデータセットで最先端の 3D 認識効率を達成することを示しています。これは、産業用アプリケーションに対する私たちの方法の大きな可能性を示しています。
We present a novel real-time capable learning method that jointly perceives a 3D scene's geometry structure and semantic labels. Recent approaches to real-time 3D scene reconstruction mostly adopt a volumetric scheme, where a truncated signed distance function (TSDF) is directly regressed. However, these volumetric approaches tend to focus on the global coherence of their reconstructions, which leads to a lack of local geometrical detail. To overcome this issue, we propose to leverage the latent geometrical prior knowledge in 2D image features by explicit depth prediction and anchored feature generation, to refine the occupancy learning in TSDF volume. Besides, we find that this cross-dimensional feature refinement methodology can also be adopted for the semantic segmentation task. Hence, we proposed an end-to-end cross-dimensional refinement neural network (CDRNet) to extract both 3D mesh and 3D semantic labeling in real time. The experiment results show that the proposed method achieves state-of-the-art 3D perception efficiency on multiple datasets, which indicates the great potential of our method for industrial applications.