人間の視覚システムは、両眼ステレオキューと単眼フォーカスキューの両方に依存して、効果的な3D知覚を実現します。コンピュータビジョンでは、2つの問題は伝統的に別々のトラックで解決されます。この論文では、深さ推論のために両方のタイプのキューを同時に使用する統合学習ベースの手法を提示します。具体的には、人間の知覚をエミュレートするための入力として、1組のフォーカルスタックを使用します。まず、深度ガイドライトフィールドレンダリングによって合成された包括的なフォーカルスタックトレーニングデータセットを構築します。次に、3つの個別のネットワークを構築します。単一のフォーカルスタックから深度を抽出するFocus-Net、フォーカルスタックから拡張被写界深度(EDoF)画像を取得するEDoF-Net、ステレオマッチングを実行するStereo-Netです。これらを統合されたBDfF-Netに統合して高品質の深度マップを取得する方法を示します。包括的な実験は、私たちのアプローチが精度と速度の両方で最先端の技術を上回り、人間の視覚システムを効果的にエミュレートすることを示しています。
Human visual system relies on both binocular stereo cues and monocular focusness cues to gain effective 3D perception. In computer vision, the two problems are traditionally solved in separate tracks. In this paper, we present a unified learning-based technique that simultaneously uses both types of cues for depth inference. Specifically, we use a pair of focal stacks as input to emulate human perception. We first construct a comprehensive focal stack training dataset synthesized by depth-guided light field rendering. We then construct three individual networks: a Focus-Net to extract depth from a single focal stack, a EDoF-Net to obtain the extended depth of field (EDoF) image from the focal stack, and a Stereo-Net to conduct stereo matching. We show how to integrate them into a unified BDfF-Net to obtain high-quality depth maps. Comprehensive experiments show that our approach outperforms the state-of-the-art in both accuracy and speed and effectively emulates human vision systems.