単一画像ベースのビュー生成(SIVG)は、3D立体コンテンツの作成に重要です。ここでは、入力として異なる空間解像度を処理し、再構成の精度と処理速度の両方を最適化することが望ましいです。最新のアプローチは畳み込みニューラルネットワーク(CNN)に基づいており、有望な結果を生成します。ただし、完全に接続されたレイヤーと事前に訓練されたVGGを使用すると、再構成の精度と処理速度の妥協が余儀なくされます。さらに、このアプローチは特定の空間解像度の使用に限定されます。これらの問題を解決するために、SIVGの完全な畳み込みネットワーク(FCN)の活用を提案します。 SIVGの2つのFCNアーキテクチャを紹介します。 1つ目は、FCNと、DeepView renと呼ばれるビューレンダリングネットワークの組み合わせに基づいています。 2つ目は、DeepView decで示される、輝度信号とクロミナンス信号の分離されたネットワークで構成されています。ソリューションをトレーニングするために、2Mの立体画像の大規模なデータセットを提示します。結果は、両方のアーキテクチャが最新技術よりも精度と速度を向上させることを示しています。 DeepView renは、最先端の競争力のある精度を生み出しますが、処理速度はすべて最速です。これは、最新技術と比較して、速度が5倍速く、メモリ消費が24倍低いことです。 DeepView decの精度ははるかに高くなりますが、速度は2.5倍、メモリ消費は12倍低くなります。客観的研究と主観的研究の両方でアプローチを評価しました。
Single-image-based view generation (SIVG) is important for producing 3D stereoscopic content. Here, handling different spatial resolutions as input and optimizing both reconstruction accuracy and processing speed is desirable. Latest approaches are based on convolutional neural network (CNN), and they generate promising results. However, their use of fully connected layers as well as pre-trained VGG forces a compromise between reconstruction accuracy and processing speed. In addition, this approach is limited to the use of a specific spatial resolution. To remedy these problems, we propose exploiting fully convolutional networks (FCN) for SIVG. We present two FCN architectures for SIVG. The first one is based on combination of an FCN and a view-rendering network called DeepView ren. The second one consists of decoupled networks for luminance and chrominance signals, denoted by DeepView dec. To train our solutions we present a large dataset of 2M stereoscopic images. Results show that both of our architectures improve accuracy and speed over the state of the art. DeepView ren generates competitive accuracy to the state of the art, however, with the fastest processing speed of all. That is x5 times faster speed and x24 times lower memory consumption compared to the state of the art. DeepView dec has much higher accuracy, but with x2.5 times faster speed and x12 times lower memory consumption. We evaluated our approach with both objective and subjective studies.