ポーズ駆動型のヒューマン アバターの作成は、低周波の運転ポーズから高周波の動的人間の外観へのマッピングをモデリングすることであるため、人間のアバター モデリングには、高忠実度の人間の詳細をエンコードできる効果的なポーズ エンコード方法が不可欠です。この目的を達成するために、ネットワークが人間の動的な外観を学習するための最適なポーズの埋め込みを発見することを促す、新しいポーズ エンコード方法である PoseVocab を紹介します。キャラクターのマルチビュー RGB ビデオが与えられると、PoseVocab はトレーニング ポーズに基づいてキー ポーズと潜在的な埋め込みを構築します。ポーズの一般化と時間的一貫性を実現するために、グローバル ポーズ ベクトルではなく各ジョイントの so(3) でキー回転をサンプリングし、サンプリングされた各キー回転にポーズ埋め込みを割り当てます。これらのジョイント構造のポーズ埋め込みは、さまざまなキーポーズの下での動的な外観をエンコードするだけでなく、グローバルポーズのジョイント構造への埋め込みを因数分解して、各ジョイントの動きに関連する外観の変化をよりよく学習します。メモリ効率を維持しながらポーズ埋め込みの表現能力を向上させるために、人間の外観のよりきめの細かい詳細をモデル化するための、コンパクトでありながら効果的な 3D 表現である特徴線を導入します。さらに、クエリのポーズと空間位置が与えられると、階層的なクエリ戦略が導入されて、ポーズの埋め込みが補間され、動的人間合成のための条件付きポーズの特徴が取得されます。全体として、PoseVocab は人間の外観の動的な詳細を効果的にエンコードし、斬新なポーズの下でリアルで一般化されたアニメーションを可能にします。実験では、私たちの方法が合成品質の点で定性的および定量的に他の最先端のベースラインよりも優れていることが示されています。コードは https://github.com/lizhe00/PoseVocab で入手できます。
Creating pose-driven human avatars is about modeling the mapping from the low-frequency driving pose to high-frequency dynamic human appearances, so an effective pose encoding method that can encode high-fidelity human details is essential to human avatar modeling. To this end, we present PoseVocab, a novel pose encoding method that encourages the network to discover the optimal pose embeddings for learning the dynamic human appearance. Given multi-view RGB videos of a character, PoseVocab constructs key poses and latent embeddings based on the training poses. To achieve pose generalization and temporal consistency, we sample key rotations in so(3) of each joint rather than the global pose vectors, and assign a pose embedding to each sampled key rotation. These joint-structured pose embeddings not only encode the dynamic appearances under different key poses, but also factorize the global pose embedding into joint-structured ones to better learn the appearance variation related to the motion of each joint. To improve the representation ability of the pose embedding while maintaining memory efficiency, we introduce feature lines, a compact yet effective 3D representation, to model more fine-grained details of human appearances. Furthermore, given a query pose and a spatial position, a hierarchical query strategy is introduced to interpolate pose embeddings and acquire the conditional pose feature for dynamic human synthesis. Overall, PoseVocab effectively encodes the dynamic details of human appearance and enables realistic and generalized animation under novel poses. Experiments show that our method outperforms other state-of-the-art baselines both qualitatively and quantitatively in terms of synthesis quality. Code is available at https://github.com/lizhe00/PoseVocab.