ポーズ駆動型のヒューマン アバターを作成することは、低周波の運転ポーズから高周波の動的な人間の外観へのマッピングをモデル化することです。そのため、忠実度の高い人間の詳細をエンコードできる効果的なポーズ エンコード方法は、ヒューマン アバターのモデリングに不可欠です。 、動的な人間の外観を学習するための最適なポーズ埋め込みをネットワークが発見することを促進する新しいポーズエンコーディング方法である PoseVocab を紹介します。キャラクターのマルチビュー RGB ビデオが与えられると、PoseVocab はトレーニング ポーズに基づいて主要なポーズと潜在的な埋め込みを構築します。ポーズの一般化と時間的な一貫性を実現するために、グローバル ポーズ ベクトルではなく、各ジョイントの so(3) でキーの回転をサンプリングし、サンプリングされた各キーの回転にポーズの埋め込みを割り当てます。これらの関節構造のポーズ埋め込みは、さまざまなキー ポーズの下で動的な外観をエンコードするだけでなく、グローバル ポーズ埋め込みを関節構造のポーズに因数分解して、各関節の動きに関連する外観の変化をより適切に学習します。メモリ効率を維持しながらポーズ埋め込みの表現能力を向上させるために、コンパクトでありながら効果的な 3D 表現である特徴線を導入して、人間の外観のより細かい詳細をモデル化します。さらに、クエリ ポーズと空間位置が与えられると、ポーズの埋め込みを補間し、動的な人間の合成のための条件付きポーズ機能を取得するために、階層的なクエリ戦略が導入されます。全体として、PoseVocab は人間の外観の動的な詳細を効果的にエンコードし、斬新なポーズの下で現実的で一般化されたアニメーションを可能にします。実験は、我々の方法が合成品質の点で質的にも量的にも他の最先端のベースラインよりも優れていることを示しています。コードは https://github.com/lizhe00/PoseVocab で入手できます。
Creating pose-driven human avatars is about modeling the mapping from the low-frequency driving pose to high-frequency dynamic human appearances, so an effective pose encoding method that can encode high-fidelity human details is essential to human avatar modeling.To this end, we present PoseVocab, a novel pose encoding method that encourages the network to discover the optimal pose embeddings for learning the dynamic human appearance. Given multi-view RGB videos of a character, PoseVocab constructs key poses and latent embeddings based on the training poses. To achieve pose generalization and temporal consistency, we sample key rotations in so(3) of each joint rather than the global pose vectors, and assign a pose embedding to each sampled key rotation. These joint-structured pose embeddings not only encode the dynamic appearances under different key poses, but also factorize the global pose embedding into joint-structured ones to better learn the appearance variation related to the motion of each joint. To improve the representation ability of the pose embedding while maintaining memory efficiency, we introduce feature lines, a compact yet effective 3D representation, to model more fine-grained details of human appearances. Furthermore, given a query pose and a spatial position, a hierarchical query strategy is introduced to interpolate pose embeddings and acquire the conditional pose feature for dynamic human synthesis. Overall, PoseVocab effectively encodes the dynamic details of human appearance and enables realistic and generalized animation under novel poses. Experiments show that our method outperforms other state-of-the-art baselines both qualitatively and quantitatively in terms of synthesis quality. Code is available at https://github.com/lizhe00/PoseVocab.