自己監視単眼深度推定は、その実用的な重要性と最近の有望な改善のために、広く研究されてきました。ただし、ほとんどの作品は、特に弱いテクスチャ領域やオブジェクトの境界で、測光の一貫性の監視が制限されています。この弱点を克服するために、クロスドメイン情報、特にシーンのセマンティクスを活用することにより、自己監視単眼深度推定を改善するための新しいアイデアを提案します。暗黙のセマンティック知識を幾何学的表現の強化に組み込むことに焦点を当て、2つのアイデアを提案します。セマンティクスに基づくローカルジオメトリを活用して中間深度表現を最適化するメトリック学習アプローチと、2つの異種機能表現間のクロスモダリティを慎重に利用する新しい機能融合モジュールです。 。 KITTIデータセットでメソッドを包括的に評価し、メソッドが最先端のメソッドよりも優れていることを示します。ソースコードはhttps://github.com/hyBlue/FSRE-Depthで入手できます。
Self-supervised monocular depth estimation has been widely studied, owing to its practical importance and recent promising improvements. However, most works suffer from limited supervision of photometric consistency, especially in weak texture regions and at object boundaries. To overcome this weakness, we propose novel ideas to improve self-supervised monocular depth estimation by leveraging cross-domain information, especially scene semantics. We focus on incorporating implicit semantic knowledge into geometric representation enhancement and suggest two ideas: a metric learning approach that exploits the semantics-guided local geometry to optimize intermediate depth representations and a novel feature fusion module that judiciously utilizes cross-modality between two heterogeneous feature representations. We comprehensively evaluate our methods on the KITTI dataset and demonstrate that our method outperforms state-of-the-art methods. The source code is available at https://github.com/hyBlue/FSRE-Depth.