この論文では、多様な人間の動きの補間結果を生成するための深い生成モデルベースの方法を提示します。エンコーダーとデコーダーの両方にリカレントニューラルネットワーク(RNN)構造を活用することにより、条件付き変分オートエンコーダー(CVAE)を使用して、特定の開始モーションと終了モーションのペアを条件とする人間のモーションを学習します。さらに、サンプルの多様性をさらに促進するために、正則化損失を導入します。トレーニングが完了すると、学習した潜在空間から繰り返しサンプリングすることで、複数のもっともらしいコヒーレントモーションを生成できます。公開されているデータセットでの実験は、サンプルの妥当性と多様性の観点から、私たちの方法の有効性を示しています。
In this paper, we present a deep generative model based method to generate diverse human motion interpolation results. We resort to the Conditional Variational Auto-Encoder (CVAE) to learn human motion conditioned on a pair of given start and end motions, by leveraging the Recurrent Neural Network (RNN) structure for both the encoder and the decoder. Additionally, we introduce a regularization loss to further promote sample diversity. Once trained, our method is able to generate multiple plausible coherent motions by repetitively sampling from the learned latent space. Experiments on the publicly available dataset demonstrate the effectiveness of our method, in terms of sample plausibility and diversity.