arXiv reaDer
テキスト記述からの構成アニメーションの合成
Synthesis of Compositional Animations from Textual Descriptions
「映画の脚本から3Dキャラクターをアニメートしたり、ロボットに何をしてほしいかを伝えるだけでロボットを動かすにはどうすればよいでしょうか?」 「構造化されていない複雑な文を作成し、それからもっともらしい動きを生成するにはどうすればよいでしょうか?」この分野はまだ揺籃期にあるため、これらは長期的に答える必要のある質問です。これらの問題に触発されて、複雑な入力文を処理する構成アクションを生成するための新しい手法を紹介します。出力は、入力文のアクションを表す3Dポーズシーケンスです。自然言語の文と与えられた動きに対応する3Dポーズシーケンスの間のより細かい関節レベルのマッピングを探索するために、階層的な2ストリームシーケンシャルモデルを提案します。上半身と下半身の動きにそれぞれ1つずつ、2つの多様な動きの表現を学習します。私たちのモデルは、単一のアクションを説明する短い文だけでなく、複数の連続した重ねられたアクションを説明する長い構成文のもっともらしいポーズシーケンスを生成できます。提案されたモデルを、人間が注釈を付けた文を含む3Dポーズデータを含む公開されているKITモーション言語データセットで評価します。実験結果は、私たちのモデルが客観的評価におけるテキストベースのモーション合成の最先端を50%のマージンで進歩させることを示しています。ユーザー調査に基づく定性的評価は、合成されたモーションが、短い文と構成文の両方のグラウンドトゥルースモーションキャプチャに最も近いと認識されていることを示しています。
"How can we animate 3D-characters from a movie script or move robots by simply telling them what we would like them to do?" "How unstructured and complex can we make a sentence and still generate plausible movements from it?" These are questions that need to be answered in the long-run, as the field is still in its infancy. Inspired by these problems, we present a new technique for generating compositional actions, which handles complex input sentences. Our output is a 3D pose sequence depicting the actions in the input sentence. We propose a hierarchical two-stream sequential model to explore a finer joint-level mapping between natural language sentences and 3D pose sequences corresponding to the given motion. We learn two manifold representations of the motion -- one each for the upper body and the lower body movements. Our model can generate plausible pose sequences for short sentences describing single actions as well as long compositional sentences describing multiple sequential and superimposed actions. We evaluate our proposed model on the publicly available KIT Motion-Language Dataset containing 3D pose data with human-annotated sentences. Experimental results show that our model advances the state-of-the-art on text-based motion synthesis in objective evaluations by a margin of 50%. Qualitative evaluations based on a user study indicate that our synthesized motions are perceived to be the closest to the ground-truth motion captures for both short and compositional sentences.
updated: Sun Aug 01 2021 09:10:48 GMT+0000 (UTC)
published: Fri Mar 26 2021 18:23:29 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト