拡張現実体験を可能にするためには、人間の写実的なレンダリングとリポーズが重要です。人間と、1つの野生のビデオからの斬新な人間のポーズとビューでレンダリングできるシーンを再構築するための斬新なフレームワークを提案します。移動するカメラでキャプチャされたビデオを前提として、人間のNeRFモデルとシーンのNeRFモデルの2つのNeRFモデルをトレーニングします。これらのモデルをトレーニングするには、既存の方法を使用して、人間とシーンの大まかなジオメトリを推定します。これらの大まかなジオメトリ推定により、観察空間から人間のモデルをトレーニングする標準的なポーズに依存しない空間へのワーピングフィールドを作成できます。この方法では、布のしわや付属品など、被験者固有の詳細を10秒のビデオクリップ、および背景と一緒に、斬新なビューから、斬新なポーズの下で人間の高品質のレンダリングを提供します。
Photorealistic rendering and reposing of humans is important for enabling augmented reality experiences. We propose a novel framework to reconstruct the human and the scene that can be rendered with novel human poses and views from just a single in-the-wild video. Given a video captured by a moving camera, we train two NeRF models: a human NeRF model and a scene NeRF model. To train these models, we rely on existing methods to estimate the rough geometry of the human and the scene. Those rough geometry estimates allow us to create a warping field from the observation space to the canonical pose-independent space, where we train the human model in. Our method is able to learn subject specific details, including cloth wrinkles and accessories, from just a 10 seconds video clip, and to provide high quality renderings of the human under novel poses, from novel views, together with the background.