360°カメラは1回のショットで完全な環境をキャプチャできるため、多くのコンピュータービジョンタスクで360°画像を魅力的にすることができます。ただし、単眼深度の推定は、360°データ、特に2K(2048x1024)以上の高解像度では、新しいビューの合成やバーチャルリアリティアプリケーションにとって重要な課題です。現在のCNNベースの方法は、GPUメモリが限られているため、このような高解像度をサポートしていません。この作業では、接線画像を使用して高解像度360°画像から単眼深度推定のための柔軟なフレームワークを提案します。 360°入力画像を、最新の最も正確な最先端の遠近法単眼深度推定器に適した遠近法ビューを生成する一連の接平面に投影します。グローバルに一貫した視差推定を達成するために、変形可能なマルチスケールアライメントとそれに続くグラデーションドメインブレンディングを使用して、個々の深度推定を再結合します。その結果、既存の方法ではサポートされていない屋外シーンでも、高レベルの詳細を備えた高密度で高解像度の360°深度マップが作成されます。ソースコードとデータはhttps://manurare.github.io/360monodepth/で入手できます。
360° cameras can capture complete environments in a single shot, which makes 360° imagery alluring in many computer vision tasks. However, monocular depth estimation remains a challenge for 360° data, particularly for high resolutions like 2K (2048x1024) and beyond that are important for novel-view synthesis and virtual reality applications. Current CNN-based methods do not support such high resolutions due to limited GPU memory. In this work, we propose a flexible framework for monocular depth estimation from high-resolution 360° images using tangent images. We project the 360° input image onto a set of tangent planes that produce perspective views, which are suitable for the latest, most accurate state-of-the-art perspective monocular depth estimators. To achieve globally consistent disparity estimates, we recombine the individual depth estimates using deformable multi-scale alignment followed by gradient-domain blending. The result is a dense, high-resolution 360° depth map with a high level of detail, also for outdoor scenes which are not supported by existing methods. Our source code and data are available at https://manurare.github.io/360monodepth/.