既存の画像ベースのレンダリング方法は、通常、深度ベースの画像ワーピング操作を採用して、新しいビューを合成します。この論文では、従来のワープ操作の本質的な制限は、限定された近傍と距離ベースの補間重みのみであると推論します。この目的のために、軽量ニューラルネットワークを介してコンテキスト情報から比較的大きな近傍のピクセルの補間重みを適応的に学習するコンテンツ認識ワーピングを提案します。この学習可能なワーピング モジュールに基づいて、入力ソース ビューのセットからの新しいビュー合成のための新しいエンド ツー エンドの学習ベースのフレームワークを提案します。当然、オクルージョンの問題を処理し、合成ビューのピクセル間の空間相関をそれぞれキャプチャすることが提案されています。さらに、ネットワークを正則化するための重みと平滑性の損失項も提案します。広いベースラインとマルチビュー データセットを使用したライト フィールド データセットに関する実験結果は、提案された方法が最先端の方法よりも定量的にも視覚的にも大幅に優れていることを示しています。ソース コードは、https://github.com/MantangGuo/CW4VS で公開されます。
Existing image-based rendering methods usually adopt depth-based image warping operation to synthesize novel views. In this paper, we reason the essential limitations of the traditional warping operation to be the limited neighborhood and only distance-based interpolation weights. To this end, we propose content-aware warping, which adaptively learns the interpolation weights for pixels of a relatively large neighborhood from their contextual information via a lightweight neural network. Based on this learnable warping module, we propose a new end-to-end learning-based framework for novel view synthesis from a set of input source views, in which two additional modules, namely confidence-based blending and feature-assistant spatial refinement, are naturally proposed to handle the occlusion issue and capture the spatial correlation among pixels of the synthesized view, respectively. Besides, we also propose a weight-smoothness loss term to regularize the network. Experimental results on light field datasets with wide baselines and multi-view datasets show that the proposed method significantly outperforms state-of-the-art methods both quantitatively and visually. The source code will be publicly available at https://github.com/MantangGuo/CW4VS.