人間のモーションシーケンスのアクション条件付き生成の問題に対処します。既存の作業は、観測された過去の動きに基づいて調整された予測モデル、またはアクション ラベルと期間のみに基づいて調整された生成モデルの 2 つのカテゴリに分類されます。対照的に、なしを含む任意の長さの観測に条件付けられたモーションを生成します。この一般化された問題を解決するために、PoseGPT を提案します。これは、人間の動きを量子化された潜在的なシーケンスに内部的に圧縮する自己回帰トランスフォーマー ベースのアプローチです。自動エンコーダーは、最初に人間の動きを離散空間の潜在的なインデックス シーケンスにマッピングし、その逆も同様です。 Generative Pretrained Transformer (GPT) に触発されて、その空間での次のインデックス予測のために GPT のようなモデルをトレーニングすることを提案します。これにより、PoseGPT は、過去の動きの条件付けの有無にかかわらず、可能な未来の分布を出力できます。潜在空間の離散的で圧縮された性質により、GPT のようなモデルは、入力信号の低レベルの冗長性を取り除くため、長距離信号に焦点を当てることができます。離散インデックスを予測すると、離散ターゲットの平均はターゲット自体ではないため、連続値を回帰する際の典型的な失敗例である、平均ポーズの予測の一般的な落とし穴も軽減されます。実験結果は、提案されたアプローチが、標準的だが小規模なデータセットである HumanAct12、最近の大規模な MoCap データセットである BABEL、および人間とオブジェクトの相互作用データセットである GRAB で最先端の結果を達成することを示しています。 .
We address the problem of action-conditioned generation of human motion sequences. Existing work falls into two categories: forecast models conditioned on observed past motions, or generative models conditioned on action labels and duration only. In contrast, we generate motion conditioned on observations of arbitrary length, including none. To solve this generalized problem, we propose PoseGPT, an auto-regressive transformer-based approach which internally compresses human motion into quantized latent sequences. An auto-encoder first maps human motion to latent index sequences in a discrete space, and vice-versa. Inspired by the Generative Pretrained Transformer (GPT), we propose to train a GPT-like model for next-index prediction in that space; this allows PoseGPT to output distributions on possible futures, with or without conditioning on past motion. The discrete and compressed nature of the latent space allows the GPT-like model to focus on long-range signal, as it removes low-level redundancy in the input signal. Predicting discrete indices also alleviates the common pitfall of predicting averaged poses, a typical failure case when regressing continuous values, as the average of discrete targets is not a target itself. Our experimental results show that our proposed approach achieves state-of-the-art results on HumanAct12, a standard but small scale dataset, as well as on BABEL, a recent large scale MoCap dataset, and on GRAB, a human-object interactions dataset.