arXiv reaDer
注意ベースの階層的マルチモーダル融合による高解像度深度マップイメージング
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion
デプスマップは、視点とシーン内のオブジェクトとの間の距離を記録します。これは、多くの実際のアプリケーションで重要な役割を果たします。ただし、民生用RGB-Dカメラでキャプチャされた深度マップは、空間分解能が低いという問題があります。ガイド付き深度マップ超解像(DSR)は、この問題に対処するための一般的なアプローチであり、入力低解像度(LR)深度とその結合されたHR RGB画像から高解像度(HR)深度マップを復元しようとします。ガイダンス。ガイド付きDSRの最も難しい問題は、一貫性のある構造を正しく選択して伝播し、一貫性のない構造を適切に処理する方法です。この論文では、ガイド付きDSRのための新しい注意ベースの階層的マルチモーダル融合(AHMF)ネットワークを提案します。具体的には、LR深度とHRガイダンスから関連情報を効果的に抽出して組み合わせるために、価値のある機能を選択する機能強化ブロックや統合する機能再調整ブロックなど、階層畳み込み層のマルチモーダル注意ベース融合(MMAF)戦略を提案します。外観特性が異なるモダリティの類似性メトリック。さらに、マルチスケール機能間で低レベルの空間情報と高レベルの構造情報を十分に活用するために、双方向階層機能コラボレーション(BHFC)モジュールを提案します。実験結果は、私たちのアプローチが、再構築の精度、実行速度、およびメモリ効率の点で最先端の方法よりも優れていることを示しています。
Depth map records distance between the viewpoint and objects in the scene, which plays a critical role in many real-world applications. However, depth map captured by consumer-grade RGB-D cameras suffers from low spatial resolution. Guided depth map super-resolution (DSR) is a popular approach to address this problem, which attempts to restore a high-resolution (HR) depth map from the input low-resolution (LR) depth and its coupled HR RGB image that serves as the guidance. The most challenging problems for guided DSR are how to correctly select consistent structures and propagate them, and properly handle inconsistent ones. In this paper, we propose a novel attention-based hierarchical multi-modal fusion (AHMF) network for guided DSR. Specifically, to effectively extract and combine relevant information from LR depth and HR guidance, we propose a multi-modal attention based fusion (MMAF) strategy for hierarchical convolutional layers, including a feature enhance block to select valuable features and a feature recalibration block to unify the similarity metrics of modalities with different appearance characteristics. Furthermore, we propose a bi-directional hierarchical feature collaboration (BHFC) module to fully leverage low-level spatial information and high-level structure information among multi-scale features. Experimental results show that our approach outperforms state-of-the-art methods in terms of reconstruction accuracy, running speed and memory efficiency.
updated: Sun Apr 04 2021 03:28:33 GMT+0000 (UTC)
published: Sun Apr 04 2021 03:28:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト