この論文では、音楽を条件とした3Dダンス生成のためのトランスベースの学習フレームワークを提示します。私たちはネットワークアーキテクチャを注意深く設計し、定性的に満足のいく結果を得るための鍵を経験的に研究します。重要なコンポーネントには、音楽とダンスの動きの相関関係をよく学習するディープクロスモーダルトランスフォーマーが含まれます。そして、長距離の非凍結運動を生み出すのに不可欠なfuture-N監視メカニズムへの完全な注意。さらに、AISTマルチビューダンスビデオから再構築した、AIST ++と呼ばれる3Dモーションと音楽のペアの新しいデータセットを提案します。このデータセットには、1408シーケンスの3Dダンスモーションの110万フレームが含まれており、10のジャンルのダンスの振り付けをカバーし、マルチビューカメラパラメータが付属しています。私たちの知る限り、これはこの種の最大のデータセットです。 AIST ++での豊富な実験は、私たちの方法が定性的および定量的の両方で最先端の方法よりもはるかに優れた結果を生み出すことを示しています。
In this paper, we present a transformer-based learning framework for 3D dance generation conditioned on music. We carefully design our network architecture and empirically study the keys for obtaining qualitatively pleasing results. The critical components include a deep cross-modal transformer, which well learns the correlation between the music and dance motion; and the full-attention with future-N supervision mechanism which is essential in producing long-range non-freezing motion. In addition, we propose a new dataset of paired 3D motion and music called AIST++, which we reconstruct from the AIST multi-view dance videos. This dataset contains 1.1M frames of 3D dance motion in 1408 sequences, covering 10 genres of dance choreographies and accompanied with multi-view camera parameters. To our knowledge it is the largest dataset of this kind. Rich experiments on AIST++ demonstrate our method produces much better results than the state-of-the-art methods both qualitatively and quantitatively.