arXiv reaDer
HiMODE:ハイブリッド単眼全方向深度推定モデル
HiMODE: A Hybrid Monocular Omnidirectional Depth Estimation Model
単眼全方向深度推定は、360°の周囲を検知するための幅広いアプリケーションのため、かなりの研究の注目を集めています。この分野の既存のアプローチには、グラウンドトゥルースデプスマップの取得中に失われた小さなオブジェクトの詳細とデータを回復する際の制限があります。この論文では、新しい単眼全方向深度推定モデル、すなわちHiMODEを、パフォーマンスを低下させることなく歪みと計算コストを軽減するようにモジュールが効率的に設計されたハイブリッドCNN + Transformer(エンコーダ-デコーダ)アーキテクチャに基づいて提案します。まず、HNetブロックに基づいて特徴ピラミッドネットワークを設計し、エッジ付近の高解像度の特徴を抽出します。パフォーマンスはさらに向上し、Transformerエンコーダーとデコーダーのそれぞれの自己およびクロスアテンションレイヤーと空間/時間パッチの恩恵を受けています。その上、パラメータの数を減らすために空間残余ブロックが採用されています。各バックボーンブロックで入力画像から抽出された深さの特徴を、トランスエンコーダーデコーダーによって予測された生の深さマップとともにコンテキスト調整レイヤーを介して共同で渡すことにより、モデルは、地面よりも優れた視覚品質で結果の深さマップを生成できます。 -真実。包括的なアブレーション研究は、個々のモジュールの重要性を示しています。 3つのデータセットで実施された広範な実験。 Stanford3D、Matterport3D、およびSunCGは、HiMODEが360°単眼深度推定の最先端のパフォーマンスを実現できることを示しています。
Monocular omnidirectional depth estimation is receiving considerable research attention due to its broad applications for sensing 360° surroundings. Existing approaches in this field suffer from limitations in recovering small object details and data lost during the ground-truth depth map acquisition. In this paper, a novel monocular omnidirectional depth estimation model, namely HiMODE is proposed based on a hybrid CNN+Transformer (encoder-decoder) architecture whose modules are efficiently designed to mitigate distortion and computational cost, without performance degradation. Firstly, we design a feature pyramid network based on the HNet block to extract high-resolution features near the edges. The performance is further improved, benefiting from a self and cross attention layer and spatial/temporal patches in the Transformer encoder and decoder, respectively. Besides, a spatial residual block is employed to reduce the number of parameters. By jointly passing the deep features extracted from an input image at each backbone block, along with the raw depth maps predicted by the transformer encoder-decoder, through a context adjustment layer, our model can produce resulting depth maps with better visual quality than the ground-truth. Comprehensive ablation studies demonstrate the significance of each individual module. Extensive experiments conducted on three datasets; Stanford3D, Matterport3D, and SunCG, demonstrate that HiMODE can achieve state-of-the-art performance for 360° monocular depth estimation.
updated: Mon Apr 11 2022 11:11:43 GMT+0000 (UTC)
published: Mon Apr 11 2022 11:11:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト