arXiv reaDer
自己教師あり単眼訓練された深さ推定のための意味論的ガイド表現の強化
Semantic-Guided Representation Enhancement for Self-supervised Monocular Trained Depth Estimation
自己監視深度推定は、入力として画像シーケンスのみが与えられた場合に、高品質の深度マップを作成するのに非常に効果的であることを示しています。ただし、通常、境界領域や薄い構造のオブジェクトを推定する場合、深度表現機能が制限されるため、パフォーマンスが低下します。この論文では、豊富なコンテキスト情報を活用することによってローカルとグローバルの両方の深度特徴表現を促進するセマンティックガイド深度表現強化方法を提案することによって、この問題に対処します。従来のパラダイムで使用されていた単一の深度ネットワークの代わりに、深度推定のための追加のコンテキスト機能を提供するための追加のセマンティックセグメンテーションブランチを提案します。このフレームワークに基づいて、セマンティックエッジにあるポイントベースの特徴をサンプリングして個々のセマンティックガイドエッジ強調モジュール(SEEM)にフィードすることにより、ローカル特徴表現を強化します。SEEMは、チャレンジングで深度推定を促進するために特別に設計されています。セマンティックボーダー。次に、セマンティックガイド付きマルチレベル注意メカニズムを提案することでグローバル特徴表現を改善します。これは、マルチレベル深度デコードスキームでピクセル単位の相関を調査することでセマンティック機能と深度機能を強化します。広範な実験により、セマンティックカテゴリの境界や薄いオブジェクトなどの難しい画像領域で非常に正確な深度をキャプチャするという、私たちの方法の明確な優位性が検証されます。 KITTIの定量的実験と定性的実験の両方で、私たちの方法が最先端の方法よりも優れていることが示されています。
Self-supervised depth estimation has shown its great effectiveness in producing high quality depth maps given only image sequences as input. However, its performance usually drops when estimating on border areas or objects with thin structures due to the limited depth representation ability. In this paper, we address this problem by proposing a semantic-guided depth representation enhancement method, which promotes both local and global depth feature representations by leveraging rich contextual information. In stead of a single depth network as used in conventional paradigms, we propose an extra semantic segmentation branch to offer extra contextual features for depth estimation. Based on this framework, we enhance the local feature representation by sampling and feeding the point-based features that locate on the semantic edges to an individual Semantic-guided Edge Enhancement module (SEEM), which is specifically designed for promoting depth estimation on the challenging semantic borders. Then, we improve the global feature representation by proposing a semantic-guided multi-level attention mechanism, which enhances the semantic and depth features by exploring pixel-wise correlations in the multi-level depth decoding scheme. Extensive experiments validate the distinct superiority of our method in capturing highly accurate depth on the challenging image areas such as semantic category borders and thin objects. Both quantitative and qualitative experiments on KITTI show that our method outperforms the state-of-the-art methods.
updated: Tue Dec 15 2020 02:24:57 GMT+0000 (UTC)
published: Tue Dec 15 2020 02:24:57 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト