arXiv reaDer
Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis
ソースからターゲットの人に人間の動きを転送することは、コンピュータビジョンおよびグラフィックスアプリケーションに大きな可能性をもたらします。重要なステップは、外観の特性を維持しながら、連続する将来のモーションを操作することです。前の作業は、細工された3D人間モデルに依存しているか、実際にはスケーラブルではない、対象者ごとに個別のモデルをトレーニングしました。この作業は、より一般的な設定を研究します。 、コラボレーティブ解析フローネットワーク(CPF-Net)と呼ばれる、人物の画像を1つだけ与えられた場合に、ソースビデオから任意の対象人物にモーションを節約的に転送する単一のモデルを学習することを目的としています。対象者に関する情報が不足しているため、指定されたさまざまなポーズで外観を忠実に保存する作業は特に困難です。この問題に対処するために、CPF-Netは、構造化された人間の解析と外観のフローを統合して、特に、CPF-Netは、問題を人間の解析シーケンス生成、前景シーケンス生成、および最終ビデオ生成の段階に分離します。人間の解析生成段階では、ターゲットのポーズと体の構造の両方をキャプチャします。外観フローは、合成されたフレームの詳細を保持するのに役立ちます。人間の構文解析と外観フローの統合は、リアルな外観のビデオフレームの生成を効果的にガイドします。最後に、専用に設計されたフュージョンネットワークが時間的コヒーレンスを保証します。さらに、この研究分野を推進するために、人間のダンスのビデオを大量に収集しています。定量的および定性的な結果は、私たちの方法が以前のアプローチよりも大幅に改善され、入力された人物の画像が与えられた場合に魅力的で写実的なターゲットビデオを生成できることを示しています。すべてのソースコードとデータセットはでリリースされます。
Transferring human motion from a source to a target person poses great potential in computer vision and graphics applications. A crucial step is to manipulate sequential future motion while retaining the appearance characteristic.Previous work has either relied on crafted 3D human models or trained a separate model specifically for each target person, which is not scalable in practice.This work studies a more general setting, in which we aim to learn a single model to parsimoniously transfer motion from a source video to any target person given only one image of the person, named as Collaborative Parsing-Flow Network (CPF-Net). The paucity of information regarding the target person makes the task particularly challenging to faithfully preserve the appearance in varying designated poses.To address this issue, CPF-Net integrates the structured human parsing and appearance flow to guide the realistic foreground synthesis which is merged into the background by a spatio-temporal fusion module.In particular, CPF-Net decouples the problem into stages of human parsing sequence generation, foreground sequence generation and final video generation. The human parsing generation stage captures both the pose and the body structure of the target. The appearance flow is beneficial to keep details in synthesized frames. The integration of human parsing and appearance flow effectively guides the generation of video frames with realistic appearance. Finally, the dedicated designed fusion network ensure the temporal coherence. We further collect a large set of human dancing videos to push forward this research field. Both quantitative and qualitative results show our method substantially improves over previous approaches and is able to generate appealing and photo-realistic target videos given any input person image. All source code and dataset will be released at
updated: Wed Oct 27 2021 03:42:41 GMT+0000 (UTC)
published: Wed Oct 27 2021 03:42:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト