arXiv reaDer
IGNOR:画像誘導ニューラルオブジェクトレンダリング
IGNOR: Image-guided Neural Object Rendering
 画像ベースのレンダリングとGANベースの画像合成の利点を組み合わせた、学習済みの画像ガイド付きレンダリング手法を提案します。この方法の目標は、仮想現実および拡張現実アプリケーション(たとえば、仮想ショールーム、仮想ツアー、観光、歴史的遺物のデジタル検査)のために、再構築されたオブジェクトのフォトリアリスティックな再レンダリングを生成することです。私たちの仕事の中核となるコンポーネントは、ビューに依存するエフェクトの処理です。具体的には、オブジェクト固有のディープニューラルネットワークを直接トレーニングして、オブジェクトのビュー依存の外観を合成します。入力データとして、オブジェクトのRGBビデオを使用しています。このビデオは、マルチビューステレオを介してオブジェクトのプロキシジオメトリを再構築するために使用されます。この3Dプロキシに基づいて、キャプチャされたビューの外観は、従来の画像ベースのレンダリングのように、新しいターゲットビューにワープできます。このワーピングは、スペキュラハイライトなどのビューに依存するエフェクトの場合、拡散サーフェスを想定しています。この目的のために、ビューに依存する効果を予測するディープニューラルネットワーク、EffectsNetを提案します。これらの推定に基づいて、観測画像を拡散画像に変換できます。これらの拡散画像は、他のビューに投影できます。ターゲットビューで、パイプラインは新しいビュー依存のエフェクトを再挿入します。複数の再投影画像を最終出力に合成するために、写真のようにリアルな結果を出力する合成ネットワークを学習します。この画像誘導アプローチを使用すると、ネットワークはオブジェクトの外観を「記憶」するための容量を割り当てる必要がなくなり、代わりにキャプチャした画像の外観を組み合わせる方法を学習します。合成データと実際のデータの両方で、定性的および定量的にアプローチの有効性を実証します。
We propose a learned image-guided rendering technique that combines the benefits of image-based rendering and GAN-based image synthesis. The goal of our method is to generate photo-realistic re-renderings of reconstructed objects for virtual and augmented reality applications (e.g., virtual showrooms, virtual tours \& sightseeing, the digital inspection of historical artifacts). A core component of our work is the handling of view-dependent effects. Specifically, we directly train an object-specific deep neural network to synthesize the view-dependent appearance of an object. As input data we are using an RGB video of the object. This video is used to reconstruct a proxy geometry of the object via multi-view stereo. Based on this 3D proxy, the appearance of a captured view can be warped into a new target view as in classical image-based rendering. This warping assumes diffuse surfaces, in case of view-dependent effects, such as specular highlights, it leads to artifacts. To this end, we propose EffectsNet, a deep neural network that predicts view-dependent effects. Based on these estimations, we are able to convert observed images to diffuse images. These diffuse images can be projected into other views. In the target view, our pipeline reinserts the new view-dependent effects. To composite multiple reprojected images to a final output, we learn a composition network that outputs photo-realistic results. Using this image-guided approach, the network does not have to allocate capacity on ``remembering'' object appearance, instead it learns how to combine the appearance of captured images. We demonstrate the effectiveness of our approach both qualitatively and quantitatively on synthetic as well as on real data.
updated: Wed Jan 15 2020 15:30:46 GMT+0000 (UTC)
published: Mon Nov 26 2018 22:24:25 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト