確率的人間動作予測は、過去の人間の動作軌跡に基づいて、今後考えられる複数のポーズ シーケンスを予測することを目的としています。これまでの研究では、多様な動きのサンプルを生成することに重点が置かれており、直前の観察から一貫性のない異常な予測が生じていました。この問題に対処するために、この研究では、人体の運動学的構造と世界的に時間的に一貫した動きの性質の両方を考慮する、拡散ベースの確率的人間の動き予測フレームワークである DiffMotion を提案します。具体的には、DiffMotion は 2 つのモジュールで構成されます。1) 破損したモーションから初期モーションの再構築を生成するためのトランスフォーマー ベースのネットワーク、2) 過去の観察に基づいて生成されたモーションを反復的に改良するための多段階グラフ畳み込みネットワーク。提案された直接ターゲット予測目標と分散スケジューラによって促進されるこの方法は、適切なレベルの多様性を備えた、正確で現実的かつ一貫した動きを予測できます。ベンチマーク データセットに関する結果は、DiffMotion が精度と忠実度の点で以前の方法を大幅に上回り、優れた堅牢性を実証していることを示しています。
Stochastic human motion prediction aims to predict multiple possible upcoming pose sequences based on past human motion trajectories. Prior works focused heavily on generating diverse motion samples, leading to inconsistent, abnormal predictions from the immediate past observations. To address this issue, in this work, we propose DiffMotion, a diffusion-based stochastic human motion prediction framework that considers both the kinematic structure of the human body and the globally temporally consistent nature of motion. Specifically, DiffMotion consists of two modules: 1) a transformer-based network for generating an initial motion reconstruction from corrupted motion, and 2) a multi-stage graph convolutional network to iteratively refine the generated motion based on past observations. Facilitated by the proposed direct target prediction objective and the variance scheduler, our method is capable of predicting accurate, realistic and consistent motion with an appropriate level of diversity. Our results on benchmark datasets demonstrate that DiffMotion outperforms previous methods by large margins in terms of accuracy and fidelity while demonstrating superior robustness.