arXiv reaDer
モーションリターゲティングのためのフローガイド変換可能なボトルネックネットワーク
Flow Guided Transformable Bottleneck Networks for Motion Retargeting
人間の動きのリターゲティングは、「運転」ビデオまたは一連の画像内の1人の人の動きを別の人に転送することを目的としています。既存の取り組みでは、各対象者からの長いトレーニングビデオを活用して、被験者固有のモーション転送モデルをトレーニングしています。ただし、各モデルは特定の対象主題のビデオしか生成できないため、このような方法のスケーラビリティは制限されており、このようなトレーニングビデオは取得して処理するのに手間がかかります。ターゲットからの1つまたは数枚の画像のみを必要とする数ショットのモーション転送技術が最近かなりの注目を集めています。このタスクに対処する方法では、通常、2Dまたは明示的な3D表現を使用してモーションを転送します。その際、正確な幾何学的モデリングまたはエンドツーエンドの学習表現の柔軟性を犠牲にします。リジッドオブジェクトの新しいビューと操作をレンダリングするTransformableBottleneck Networkに触発されて、画像コンテンツの暗黙的なボリューム表現に基づくアプローチを提案します。これは、ボリュームフローフィールドを使用して空間的に操作できます。複雑な動きをする非常に硬くない被験者の入力画像の適切な領域からのコンテンツを単一の暗黙の体積表現に結合することを可能にするフローフィールドを学習し、さまざまな体のポーズにわたって情報を集約する方法の難しい問題に対処します。これにより、動く人のビデオだけから3D表現を学ぶことができます。 3Dオブジェクトの理解とエンドツーエンドの学習レンダリングの両方を備えたこのまったく新しい表現は、定量的および定性的な評価によって示されるように、最先端の画像生成品質を提供します。
Human motion retargeting aims to transfer the motion of one person in a "driving" video or set of images to another person. Existing efforts leverage a long training video from each target person to train a subject-specific motion transfer model. However, the scalability of such methods is limited, as each model can only generate videos for the given target subject, and such training videos are labor-intensive to acquire and process. Few-shot motion transfer techniques, which only require one or a few images from a target, have recently drawn considerable attention. Methods addressing this task generally use either 2D or explicit 3D representations to transfer motion, and in doing so, sacrifice either accurate geometric modeling or the flexibility of an end-to-end learned representation. Inspired by the Transformable Bottleneck Network, which renders novel views and manipulations of rigid objects, we propose an approach based on an implicit volumetric representation of the image content, which can then be spatially manipulated using volumetric flow fields. We address the challenging question of how to aggregate information across different body poses, learning flow fields that allow for combining content from the appropriate regions of input images of highly non-rigid human subjects performing complex motions into a single implicit volumetric representation. This allows us to learn our 3D representation solely from videos of moving people. Armed with both 3D object understanding and end-to-end learned rendering, this categorically novel representation delivers state-of-the-art image generation quality, as shown by our quantitative and qualitative evaluations.
updated: Mon Jun 14 2021 21:58:30 GMT+0000 (UTC)
published: Mon Jun 14 2021 21:58:30 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト