ライトフィールド(LF)カメラは、光線の強度と方向の両方を記録し、3Dシーンを4DLF画像にエンコードします。最近、さまざまなLF画像処理タスクのために多くの畳み込みニューラルネットワーク(CNN)が提案されています。ただし、空間情報と角度情報はさまざまな視差と高度に絡み合っているため、CNNがLF画像を効果的に処理することは困難です。本論文では、LF画像処理のためにこれらの結合情報を解きほぐすための一般的なメカニズムを提案する。具体的には、最初にドメイン固有の畳み込みのクラスを設計して、さまざまな次元からLFを解きほぐし、次に、タスク固有のモジュールを設計することによって、これらの解きほぐされた機能を活用します。私たちのもつれを解くメカニズムは、事前にLF構造をうまく組み込むことができ、4DLFデータを効果的に処理できます。提案されたメカニズムに基づいて、空間超解像、角度超解像、および視差推定のための3つのネットワーク(つまり、DistgSSR、DistgASR、およびDistgDisp)を開発します。実験結果は、私たちのネットワークがこれら3つのタスクすべてで最先端のパフォーマンスを達成していることを示しています。これは、解きほぐしメカニズムの有効性、効率、および一般性を示しています。プロジェクトページ:https://yingqianwang.github.io/DistgLF/。
Light field (LF) cameras record both intensity and directions of light rays, and encode 3D scenes into 4D LF images. Recently, many convolutional neural networks (CNNs) have been proposed for various LF image processing tasks. However, it is challenging for CNNs to effectively process LF images since the spatial and angular information are highly inter-twined with varying disparities. In this paper, we propose a generic mechanism to disentangle these coupled information for LF image processing. Specifically, we first design a class of domain-specific convolutions to disentangle LFs from different dimensions, and then leverage these disentangled features by designing task-specific modules. Our disentangling mechanism can well incorporate the LF structure prior and effectively handle 4D LF data. Based on the proposed mechanism, we develop three networks (i.e., DistgSSR, DistgASR and DistgDisp) for spatial super-resolution, angular super-resolution and disparity estimation. Experimental results show that our networks achieve state-of-the-art performance on all these three tasks, which demonstrates the effectiveness, efficiency, and generality of our disentangling mechanism. Project page: https://yingqianwang.github.io/DistgLF/.