Deep 3D-Zoom Net:フォトリアリスティック3Dズームの教師なし学習
Deep 3D-Zoom Net: Unsupervised Learning of Photo-Realistic 3D-Zoom
  3Dズーム操作は、画像平面に垂直なZ軸のカメラの正の移動です。対照的に、光学ズームは焦点距離を変更し、デジタルズームは画像の特定の領域を元の画像サイズに拡大するために使用されます。この論文では、与えられた単一の画像から任意のズーム係数を持つ画像を生成できる、教師なし3Dズーム学習問題を最初に定式化しました。カメラの動きをZ軸に制限するための特別な機器が必要なため、自然シーンの3Dズームデータセットを取得するのは難しいタスクであるため、監視なしフレームワークは便利です。さらに、シーン内のオブジェクトはキャプチャ時に移動してはなりません。これは、屋外シーンの大規模なデータセットの構築を妨げます。 Deep 3D-Zoom Netと呼ばれる、3Dズームのグランドトゥルースを必要としない、単一の画像の3Dズームバージョンを任意に生成する方法を学習するための、新しい教師なしフレームワークを提示します。 Deep 3D-Zoom Netには、次の機能が組み込まれています。(i)逆投影再構築損失を介して事前に訓練された視差推定ネットワークから学習を転送します。 (ii)中間視差を推定する必要なく、高周波数の詳細を考慮して、深度画像ベースのレンダリング(DIBR)をモデル化する完全畳み込みネットワークアーキテクチャ。 (iii)不自然にレンダリングされた領域に対する参照なしのペナルティとして機能する識別ネットワークを組み込む。結果を公平に比較するためのベースラインはありませんが、この方法は、大きなカメラのベースラインでの現実的な外観に関して、以前の新しいビュー合成研究よりも優れています。 KITTIおよびCityscapesデータセットでの方法の有効性を検証するために、広範な実験を実施しました。
The 3D-zoom operation is the positive translation of the camera in the Z-axis, perpendicular to the image plane. In contrast, the optical zoom changes the focal length and the digital zoom is used to enlarge a certain region of an image to the original image size. In this paper, we are the first to formulate an unsupervised 3D-zoom learning problem where images with an arbitrary zoom factor can be generated from a given single image. An unsupervised framework is convenient, as it is a challenging task to obtain a 3D-zoom dataset of natural scenes due to the need for special equipment to ensure camera movement is restricted to the Z-axis. In addition, the objects in the scenes should not move when being captured, which hinders the construction of a large dataset of outdoor scenes. We present a novel unsupervised framework to learn how to generate arbitrarily 3D-zoomed versions of a single image, not requiring a 3D-zoom ground truth, called the Deep 3D-Zoom Net. The Deep 3D-Zoom Net incorporates the following features: (i) transfer learning from a pre-trained disparity estimation network via a back re-projection reconstruction loss; (ii) a fully convolutional network architecture that models depth-image-based rendering (DIBR), taking into account high-frequency details without the need for estimating the intermediate disparity; and (iii) incorporating a discriminator network that acts as a no-reference penalty for unnaturally rendered areas. Even though there is no baseline to fairly compare our results, our method outperforms previous novel view synthesis research in terms of realistic appearance on large camera baselines. We performed extensive experiments to verify the effectiveness of our method on the KITTI and Cityscapes datasets.
updated: Wed Oct 02 2019 17:23:17 GMT+0000 (UTC)
published: Fri Sep 20 2019 07:18:39 GMT+0000 (UTC)
