MUGLを紹介します。これは、大規模で多様な世代の1人および複数人のポーズベースの移動を伴うアクションシーケンスの新しい深部神経モデルです。当社の制御可能なアプローチにより、100を超えるカテゴリにわたって、アクションカテゴリごとにカスタマイズ可能な可変長世代が可能になります。カテゴリ内/カテゴリ間の多様性を有効にするために、条件付きガウス混合変分オートエンコーダを使用して潜在的な生成空間をモデル化します。移動を伴うアクションの現実的な生成を可能にするために、アクションシーケンスのローカルポーズとグローバル軌道コンポーネントを分離します。可変長シーケンスの生成を可能にするために、期間を意識した機能表現を組み込んでいます。ビデオから供給された3DポーズシーケンスとNTU-RGBD-120の3DKinectベースのシーケンスを使用したハイブリッドポーズシーケンス表現を使用します。発電品質の原則的な比較を可能にするために、評価時に適切に修正された強力なベースラインを採用しています。ベースラインに比べて小さくて単純ですが、MUGLはより高品質の世代を提供し、実用的で制御可能な大規模な人間の行動の生成への道を開きます。
We introduce MUGL, a novel deep neural model for large-scale, diverse generation of single and multi-person pose-based action sequences with locomotion. Our controllable approach enables variable-length generations customizable by action category, across more than 100 categories. To enable intra/inter-category diversity, we model the latent generative space using a Conditional Gaussian Mixture Variational Autoencoder. To enable realistic generation of actions involving locomotion, we decouple local pose and global trajectory components of the action sequence. We incorporate duration-aware feature representations to enable variable-length sequence generation. We use a hybrid pose sequence representation with 3D pose sequences sourced from videos and 3D Kinect-based sequences of NTU-RGBD-120. To enable principled comparison of generation quality, we employ suitably modified strong baselines during evaluation. Although smaller and simpler compared to baselines, MUGL provides better quality generations, paving the way for practical and controllable large-scale human action generation.