人体分析のための深層生成モデリングは、多くの興味深いアプリケーションの新たな問題です。ただし、このようなアプローチで学習された潜在的な空間は通常、解釈できないため、柔軟性が低下します。この作業では、人体分析のための深い生成モデルを提示します。このモデルでは、体のポーズと視覚的な外観が解かれます。このようにもつれを解くことにより、ポーズと外観を独立して操作できるため、そのようなタスクの特別なトレーニングなしでポーズ転送などのアプリケーションが可能になります。提案されているモデルであるConditional-DGPoseとSemi-DGPoseには、異なる特性があります。最初に、ボディポーズラベルは、完全に監督されたトレーニングセットからコンディショナーとして取得されます。 2番目の方法では、構造化された半教師付きアプローチにより、モデル自体でポーズ推定を実行でき、ラベル付きデータの必要性が緩和されます。したがって、Semi-DGPoseは、画像内の人々の共同理解と生成を目的としています。解釈可能な潜在表現に画像をマッピングできるだけでなく、これらの表現を画像空間にマッピングすることもできます。モデルを関連するベースラインであるClothNet-BodyおよびPose Guided Person Generationネットワークと比較し、Human3.6M、ChictopiaPlus、およびDeepFashionベンチマークでそれらのメリットを実証します。
Deep generative modelling for human body analysis is an emerging problem with many interesting applications. However, the latent space learned by such approaches is typically not interpretable, resulting in less flexibility. In this work, we present deep generative models for human body analysis in which the body pose and the visual appearance are disentangled. Such a disentanglement allows independent manipulation of pose and appearance, and hence enables applications such as pose-transfer without specific training for such a task. Our proposed models, the Conditional-DGPose and the Semi-DGPose, have different characteristics. In the first, body pose labels are taken as conditioners, from a fully-supervised training set. In the second, our structured semi-supervised approach allows for pose estimation to be performed by the model itself and relaxes the need for labelled data. Therefore, the Semi-DGPose aims for the joint understanding and generation of people in images. It is not only capable of mapping images to interpretable latent representations but also able to map these representations back to the image space. We compare our models with relevant baselines, the ClothNet-Body and the Pose Guided Person Generation networks, demonstrating their merits on the Human3.6M, ChictopiaPlus and DeepFashion benchmarks.