単眼深度推定 (MDE) は、単一の RGB 画像を指定してピクセル単位の深度を予測することを目的としています。畳み込みモデルと最近の注意ベースのモデルの両方で、グローバル コンテキストとピクセル レベルの解像度が同時に必要とされるため、エンコーダー デコーダー ベースのアーキテクチャが有用であることがわかっています。通常、スキップ接続モジュールは、エンコーダとデコーダの機能を融合するために使用されます。これは、機能マップの連結とそれに続く畳み込み操作で構成されます。多数のコンピューター ビジョンの問題で実証された注意の利点に着想を得て、エンコーダとデコーダの機能の注意ベースの融合を提案します。 MDE をピクセル クエリの改良問題として提起します。この問題では、最も粗いレベルのエンコーダ機能を使用してピクセル レベルのクエリを初期化し、提案された Skip Attention Module (SAM) によってより高い解像度に改良されます。連続深度範囲を離散化するビン センターに対する順序回帰として予測問題を定式化し、ピクセル クエリを使用して最も粗いレベルでビンを予測する Bin Center Predictor (BCP) モジュールを導入します。画像適応深度ビニングの利点とは別に、提案された設計は、グラウンド トゥルースからの直接監視を介して、初期ピクセル クエリで改善された深度埋め込みを学習するのに役立ちます。 2 つの正規データセット NYUV2 と KITTI での広範な実験では、SUNRGBD データセットでの一般化パフォーマンスが 9.4% 向上するとともに、当社のアーキテクチャが最新技術よりもそれぞれ 5.3% と 3.9% 優れていることが示されています。コードは https://github.com/ashutosh1807/PixelFormer.git で入手できます。
Monocular Depth Estimation (MDE) aims to predict pixel-wise depth given a single RGB image. For both, the convolutional as well as the recent attention-based models, encoder-decoder-based architectures have been found to be useful due to the simultaneous requirement of global context and pixel-level resolution. Typically, a skip connection module is used to fuse the encoder and decoder features, which comprises of feature map concatenation followed by a convolution operation. Inspired by the demonstrated benefits of attention in a multitude of computer vision problems, we propose an attention-based fusion of encoder and decoder features. We pose MDE as a pixel query refinement problem, where coarsest-level encoder features are used to initialize pixel-level queries, which are then refined to higher resolutions by the proposed Skip Attention Module (SAM). We formulate the prediction problem as ordinal regression over the bin centers that discretize the continuous depth range and introduce a Bin Center Predictor (BCP) module that predicts bins at the coarsest level using pixel queries. Apart from the benefit of image adaptive depth binning, the proposed design helps learn improved depth embedding in initial pixel queries via direct supervision from the ground truth. Extensive experiments on the two canonical datasets, NYUV2 and KITTI, show that our architecture outperforms the state-of-the-art by 5.3% and 3.9%, respectively, along with an improved generalization performance by 9.4% on the SUNRGBD dataset. Code is available at https://github.com/ashutosh1807/PixelFormer.git.