Deep 3D Pan via adaptive "t-shaped" convolutions with global and local adaptive dilations
  ディープラーニングの最近の進歩は、多くの低レベルの視覚タスクで有望な結果を示しています。ただし、単一画像ベースのビュー合成を解決することは未解決の問題です。特に、単一の入力画像を与えられた平行カメラビューでの新しい画像の生成は、2D入力シーンの3D視覚化を可能にするため、非常に興味深いものです。 X軸に沿った任意のカメラ位置で立体視合成を実行するための新しいネットワークアーキテクチャ、またはグローバルおよびローカル適応拡張機能を備えた「t字型」適応カーネルを提案します。提案されているネットワークアーキテクチャであるモンスターネットは、グローバルおよびローカルに適応可能な拡張を備えた新しい「t字型」適応カーネルで考案されています。これにより、グローバルカメラシフトを効率的に組み込み、合成のためにターゲットイメージのピクセルのローカル3Dジオメトリを処理できます2D入力画像が与えられたときに自然に見える3DパンビューのKITTI、CityScapes、およびVICLAB_STEREO屋内データセットで広範な実験を実施し、メソッドの有効性を証明しました。モンスターネットは、RMSE、PSNR、およびSSIMのすべてのメトリックにおいて、最先端の方法であるSOTAよりも大幅に優れています。提案されたモンスターネットは、コヒーレントジオメトリを持つ合成画像でより信頼性の高い画像構造を再構築することができます。さらに、「t字型」カーネルから抽出できる視差情報は、教師なし単眼深度推定タスクのSOTAよりもはるかに信頼性が高く、この方法の有効性が確認されています。
Recent advances in deep learning have shown promising results in many low-level vision tasks. However, solving the single-image-based view synthesis is still an open problem. In particular, the generation of new images at parallel camera views given a single input image is of great interest, as it enables 3D visualization of the 2D input scenery. We propose a novel network architecture to perform stereoscopic view synthesis at arbitrary camera positions along the X-axis, or Deep 3D Pan, with "t-shaped" adaptive kernels equipped with globally and locally adaptive dilations. Our proposed network architecture, the monster-net, is devised with a novel "t-shaped" adaptive kernel with globally and locally adaptive dilation, which can efficiently incorporate global camera shift into and handle local 3D geometries of the target image's pixels for the synthesis of naturally looking 3D panned views when a 2-D input image is given. Extensive experiments were performed on the KITTI, CityScapes and our VICLAB_STEREO indoors dataset to prove the efficacy of our method. Our monster-net significantly outperforms the state-of-the-art method, SOTA, by a large margin in all metrics of RMSE, PSNR, and SSIM. Our proposed monster-net is capable of reconstructing more reliable image structures in synthesized images with coherent geometry. Moreover, the disparity information that can be extracted from the "t-shaped" kernel is much more reliable than that of the SOTA for the unsupervised monocular depth estimation task, confirming the effectiveness of our method.
updated: Mon Oct 21 2019 01:52:19 GMT+0000 (UTC)
published: Wed Oct 02 2019 17:09:58 GMT+0000 (UTC)
