Structure-Attentioned Memory Network for Monocular Depth Estimation
  単眼深度推定は、特定の単一RGB画像から対応する深度マップを予測することを目的とする困難なタスクです。 RGB画像と深度ドメイン間の深い特徴のアライメントを学習することにより、画像から深度を予測するための最近の深層学習モデルが提案されています。本論文では、構造適応メモリネットワークと名付けられた新しいアプローチを提示し、ドメイン適応における共通構造の規則性(例えば、反復構造パターン、平面表面、対称性)を考慮することにより、単眼深度推定のドメイン特徴をより効果的に転送します。この目的のために、RGB画像ドメインと深度ドメイン間の構造固有の情報を学習および記憶するための新しい構造指向メモリ(SOM)モジュールを導入します。より具体的には、SOMモジュールでは、構造認識画像深度残差パターンを記憶する一連のフィルターを学習するためのMemorable Bank of Filters(MBF)ユニットを開発し、Attention Guided Controller(AGC)ユニットを制御して画像機能クエリを指定したMBFのフィルター選択。クエリ画像機能が与えられると、訓練されたSOMモジュールは、画像と深度の間の最適な構造的不均衡でクロスドメイン機能転送のために最適なカスタマイズされたフィルターを適応的に選択することができます。要約すると、単眼深度推定のための新しいエンドツーエンドのマルチスケール記憶可能なネットワークを提案することにより、この構造固有のドメイン適応の課題に対処することに焦点を当てています。実験は、提案されたモデルが、挑戦的なKITTIおよびNYU Depth V2ベンチマークでの既存の監視された単眼深度推定アプローチと比較して優れたパフォーマンスを実証することを示しています。
Monocular depth estimation is a challenging task that aims to predict a corresponding depth map from a given single RGB image. Recent deep learning models have been proposed to predict the depth from the image by learning the alignment of deep features between the RGB image and the depth domains. In this paper, we present a novel approach, named Structure-Attentioned Memory Network, to more effectively transfer domain features for monocular depth estimation by taking into account the common structure regularities (e.g., repetitive structure patterns, planar surfaces, symmetries) in domain adaptation. To this end, we introduce a new Structure-Oriented Memory (SOM) module to learn and memorize the structure-specific information between RGB image domain and the depth domain. More specifically, in the SOM module, we develop a Memorable Bank of Filters (MBF) unit to learn a set of filters that memorize the structure-aware image-depth residual pattern, and also an Attention Guided Controller (AGC) unit to control the filter selection in the MBF given image features queries. Given the query image feature, the trained SOM module is able to adaptively select the best customized filters for cross-domain feature transferring with an optimal structural disparity between image and depth. In summary, we focus on addressing this structure-specific domain adaption challenge by proposing a novel end-to-end multi-scale memorable network for monocular depth estimation. The experiments show that our proposed model demonstrates the superior performance compared to the existing supervised monocular depth estimation approaches on the challenging KITTI and NYU Depth V2 benchmarks.
updated: Tue Sep 10 2019 16:05:38 GMT+0000 (UTC)
published: Tue Sep 10 2019 16:05:38 GMT+0000 (UTC)
