arXiv reaDer
HRDFuse: 地域深度分布を含む全体論的学習による単眼 360°深度推定
HRDFuse: Monocular 360°Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions
単眼の 360° 画像からの深度推定は、シーンの全体的なセンシングのために急成長している問題です。最近、OmniFusion などのいくつかの方法では、接線投影 (TP) を適用して 360° 画像を表現し、パッチごとの回帰を介して深度値を予測し、これらをマージして正距円筒図法 (ERP) 形式の深度マップを取得しています。ただし、これらの方法には、次のような問題があります。1) 多数のパッチをマージするプロセスが自明ではありません。 2) 各ピクセルの深度値を直接回帰することにより、全体的ではない地域的なコンテキスト情報をキャプチャします。このホワイト ペーパーでは、ERP からの全体的なコンテキスト情報と TP からの地域構造情報を共同で学習することにより、畳み込みニューラル ネットワーク (CNN) とトランスフォーマーの可能性を微妙に組み合わせる、新しいフレームワーク HRDFuse を提案します。まず、TP と ERP の間の特徴の類似性を学習して TP 特徴を完全な ERP 特徴マップにピクセル単位で集約する空間特徴アライメント (SFA) モジュールを提案します。次に、ERP と TP の深さ分布をキャプチャする全体的な地域ヒストグラムを学習する共同深さ分布分類 (CDDC) モジュールを提案します。したがって、最終的な深度値は、ヒストグラム ビンの中心の線形結合として予測できます。最後に、ERP と TP からの深度予測を適応的に組み合わせて、最終的な深度マップを取得します。広範な実験により、私たちの方法は、SOTA 方法よりも良好な結果を達成しながら、より滑らかで正確な深さの結果を予測することが示されています。
Depth estimation from a monocular 360° image is a burgeoning problem owing to its holistic sensing of a scene. Recently, some methods, e.g. , OmniFusion, have applied the tangent projection (TP) to represent a 360°image and predicted depth values via patch-wise regressions, which are merged to get a depth map with equirectangular projection (ERP) format. However, these methods suffer from 1) non-trivial process of merging plenty of patches; 2) capturing less holistic-with-regional contextual information by directly regressing the depth value of each pixel. In this paper, we propose a novel framework, HRDFuse, that subtly combines the potential of convolutional neural networks (CNNs) and transformers by collaboratively learning the holistic contextual information from the ERP and the regional structural information from the TP. Firstly, we propose a spatial feature alignment (SFA) module that learns feature similarities between the TP and ERP to aggregate the TP features into a complete ERP feature map in a pixel-wise manner. Secondly, we propose a collaborative depth distribution classification (CDDC) module that learns the holistic-with-regional histograms capturing the ERP and TP depth distributions. As such, the final depth values can be predicted as a linear combination of histogram bin centers. Lastly, we adaptively combine the depth predictions from ERP and TP to obtain the final depth map. Extensive experiments show that our method predicts more smooth and accurate depth results while achieving favorably better results than the SOTA methods.
updated: Mon May 22 2023 02:14:10 GMT+0000 (UTC)
published: Tue Mar 21 2023 06:26:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト