画像の可視コンテンツの背後にある色と深さを予測するという課題に取り組む方法を提示します。私たちのアプローチは、単一のRGB入力からLayered Depth Image(LDI)を構築することを目的としています。これは、元のオクルード領域を含むレイヤーにシーンを配置する効率的な表現です。以前の作業とは異なり、レイヤー数の適応スキームを有効にし、部分的に遮蔽されたオブジェクトの幻覚を改善するためにセマンティックエンコーディングを組み込みます。さらに、私たちのアプローチはオブジェクト駆動型であり、特に閉塞された中間オブジェクトの精度を高めます。フレームワークは2つのステップで構成されます。まず、シーンのレイアウトを推定しながら、色と深さの点で各オブジェクトを個別に完成させます。次に、退行したレイヤーに基づいてシーンを再構築し、元の入力の構造に似るように再構成された画像を適用します。学習した表現により、3D写真や縮小された現実などのさまざまなアプリケーションをすべて単一のRGB画像から実現できます。
We present a method that tackles the challenge of predicting color and depth behind the visible content of an image. Our approach aims at building up a Layered Depth Image (LDI) from a single RGB input, which is an efficient representation that arranges the scene in layers, including originally occluded regions. Unlike previous work, we enable an adaptive scheme for the number of layers and incorporate semantic encoding for better hallucination of partly occluded objects. Additionally, our approach is object-driven, which especially boosts the accuracy for the occluded intermediate objects. The framework consists of two steps. First, we individually complete each object in terms of color and depth, while estimating the scene layout. Second, we rebuild the scene based on the regressed layers and enforce the recomposed image to resemble the structure of the original input. The learned representation enables various applications, such as 3D photography and diminished reality, all from a single RGB image.