arXiv reaDer
HumanNeRF:単眼ビデオから動く人々の自由な視点でのレンダリング
HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video
YouTubeのビデオなど、複雑な体の動きを実行する人間の特定の単眼ビデオで機能する、自由視点のレンダリング方法であるHumanNeRFを紹介します。私たちの方法では、任意のフレームでビデオを一時停止し、任意の新しいカメラの視点から、またはその特定のフレームと体のポーズの完全な360度のカメラパスから被写体をレンダリングできます。このタスクは、入力ビデオには存在しない可能性のあるさまざまなカメラアングルから見た、身体の写実的な詳細の合成、および布の折り目や顔の外観などの細かい詳細の合成を必要とするため、特に困難です。私たちの方法は、推定された標準表現を後方ワープを介してビデオのすべてのフレームにマッピングするモーションフィールドと連携して、標準Tポーズの人物の体積表現を最適化します。モーションフィールドは、深いネットワークによって生成される骨格の剛体運動と非剛体運動に分解されます。以前の作業に比べてパフォーマンスが大幅に向上し、制御されていないキャプチャシナリオに挑戦する際に動く人間の単眼ビデオからの自由視点レンダリングの説得力のある例を示します。
We introduce a free-viewpoint rendering method -- HumanNeRF -- that works on a given monocular video of a human performing complex body motions, e.g. a video from YouTube. Our method enables pausing the video at any frame and rendering the subject from arbitrary new camera viewpoints or even a full 360-degree camera path for that particular frame and body pose. This task is particularly challenging, as it requires synthesizing photorealistic details of the body, as seen from various camera angles that may not exist in the input video, as well as synthesizing fine details such as cloth folds and facial appearance. Our method optimizes for a volumetric representation of the person in a canonical T-pose, in concert with a motion field that maps the estimated canonical representation to every frame of the video via backward warps. The motion field is decomposed into skeletal rigid and non-rigid motions, produced by deep networks. We show significant performance improvements over prior work, and compelling examples of free-viewpoint renderings from monocular video of moving humans in challenging uncontrolled capture scenarios.
updated: Tue Jun 14 2022 20:06:42 GMT+0000 (UTC)
published: Tue Jan 11 2022 18:51:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト