コラボレーションとコミュニケーションのための複合現実アプリケーションで人々を表現するには、現実的で忠実なアバターポーズを生成する必要があります。ただし、ヘッドマウントデバイス(HMD)からこのタスクに適用できる信号ストリームは、通常、頭のポーズと手のポーズの推定に制限されます。これらの信号は価値がありますが、人体の不完全な表現であるため、忠実な全身アバターを生成することは困難です。スパース観測から3D人体のフローベース生成モデルを開発することでこの課題に対処します。ここでは、3D人間のポーズの条件付き分布だけでなく、観測から生成可能な潜在空間への確率的マッピングも学習します。関節の不確実性の推定値とともにもっともらしいポーズ。私たちのアプローチは強力な予測モデルであるだけでなく、優れた初期潜在コードが主要な役割を果たすさまざまな最適化設定の前に効率的なポーズとして機能できることを示します。
To represent people in mixed reality applications for collaboration and communication, we need to generate realistic and faithful avatar poses. However, the signal streams that can be applied for this task from head-mounted devices (HMDs) are typically limited to head pose and hand pose estimates. While these signals are valuable, they are an incomplete representation of the human body, making it challenging to generate a faithful full-body avatar. We address this challenge by developing a flow-based generative model of the 3D human body from sparse observations, wherein we learn not only a conditional distribution of 3D human pose, but also a probabilistic mapping from observations to the latent space from which we can generate a plausible pose along with uncertainty estimates for the joints. We show that our approach is not only a strong predictive model, but can also act as an efficient pose prior in different optimization settings where a good initial latent code plays a major role.