Few-shot Neural Human Performance Rendering from Sparse RGBD Videos
人間の活動に対する最近のニューラルレンダリングアプローチは、驚くべきビュー合成結果を達成しますが、それでもすべてのキャプチャフレームでの高密度入力ビューまたは高密度トレーニングに依存しているため、展開が困難になり、トレーニングの過負荷が非効率になります。ただし、入力が空間的および時間的にまばらである場合、既存の進歩は不適切です。このギャップを埋めるために、この論文では、スパースRGBD入力のみからの数ショットニューラルヒューマンレンダリングアプローチ(FNHR)を提案します。これは、時間的および空間的冗長性を利用して、人間の活動の写実的なフリービュー出力を生成します。私たちのFNHRは、入力シーケンスのモーションマニホールドを拡張するキーフレームでのみトレーニングされます。 2分岐ニューラルブレンディングを導入して、ニューラルポイントレンダリングと古典的なグラフィックテクスチャリングパイプラインを組み合わせます。これにより、スパースキーフレームで信頼性の高い観測が統合されます。さらに、パッチベースの敵対的トレーニングプロセスを採用して、ローカルの冗長性を利用し、キーフレームへの過剰適合を回避して、詳細なレンダリング結果を生成します。広範な実験は、まばらな設定の下で人間のパフォーマンスに挑戦するための高品質の自由な視点の結果を生成するための私たちのアプローチの有効性を示しています。
Recent neural rendering approaches for human activities achieve remarkable view synthesis results, but still rely on dense input views or dense training with all the capture frames, leading to deployment difficulty and inefficient training overload. However, existing advances will be ill-posed if the input is both spatially and temporally sparse. To fill this gap, in this paper we propose a few-shot neural human rendering approach (FNHR) from only sparse RGBD inputs, which exploits the temporal and spatial redundancy to generate photo-realistic free-view output of human activities. Our FNHR is trained only on the key-frames which expand the motion manifold in the input sequences. We introduce a two-branch neural blending to combine the neural point render and classical graphics texturing pipeline, which integrates reliable observations over sparse key-frames. Furthermore, we adopt a patch-based adversarial training process to make use of the local redundancy and avoids over-fitting to the key-frames, which generates fine-detailed rendering results. Extensive experiments demonstrate the effectiveness of our approach to generate high-quality free view-point results for challenging human performances under the sparse setting.
