この作業では、テクスチャ記述から人間の動きを生成するためのベクトル量子化変分オートエンコーダー (VQ-VAE) とジェネレーティブ トレーニング済みトランスフォーマー (GPT) に基づく、シンプルで必須の条件付き生成フレームワークを調査します。一般的に使用されるトレーニング レシピ (EMA およびコード リセット) を使用した単純な CNN ベースの VQ-VAE により、高品質の離散表現を取得できることを示します。 GPT の場合、トレーニングとテストの不一致を軽減するために、トレーニング中に単純な破損戦略を組み込みます。そのシンプルさにもかかわらず、私たちの T2M-GPT は、最近の拡散ベースのアプローチを含む競合するアプローチよりも優れたパフォーマンスを示しています。たとえば、現在最大のデータセットである HumanML3D では、テキストと生成されたモーション (R-Precision) の間の一貫性に関して同等のパフォーマンスを達成していますが、FID 0.116 は 0.630 の MotionDiffuse を大幅に上回っています。さらに、HumanML3D の分析を行い、データセットのサイズがアプローチの限界であることを確認しました。私たちの仕事は、VQ-VAE が依然として人間のモーション生成に対する競争力のあるアプローチであることを示唆しています。
In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.