arXiv reaDer
Language2Pose: Natural Language Grounded Pose Forecasting
 自然言語の文章からアニメーションを生成することは、映画のスクリプトの視覚化、仮想の人間のアニメーション、ロボットの運動計画など、多くの分野で応用されています。これらの文は、さまざまな種類のアクション、これらのアクションの速度と方向、および場合によってはターゲットの宛先を記述できます。この言語からポーズへのアプリケーションのコアモデリングの課題は、言語概念をモーションアニメーションにマッピングする方法です。この論文では、Joint Language to Pose(またはJL2P)と呼ばれるニューラルアーキテクチャを導入することにより、このマルチモーダル問題に対処します。これは、言語とポーズの共同埋め込みを学習します。この共同埋め込みスペースは、長くて難しいシーケンスに移行する前に、短くて簡単なシーケンスを最初に強調するカリキュラム学習アプローチを使用して、エンドツーエンドで学習されます。 3Dポーズデータと人間の注釈付き文の公開コーパスで提案モデルを評価します。客観的な指標と人間の判断評価の両方により、提案されたアプローチはより正確なアニメーションを生成でき、他のデータ駆動型アプローチよりも視覚的に人間により代表的であると見なされます。
Generating animations from natural language sentences finds its applications in a a number of domains such as movie script visualization, virtual human animation and, robot motion planning. These sentences can describe different kinds of actions, speeds and direction of these actions, and possibly a target destination. The core modeling challenge in this language-to-pose application is how to map linguistic concepts to motion animations. In this paper, we address this multimodal problem by introducing a neural architecture called Joint Language to Pose (or JL2P), which learns a joint embedding of language and pose. This joint embedding space is learned end-to-end using a curriculum learning approach which emphasizes shorter and easier sequences first before moving to longer and harder ones. We evaluate our proposed model on a publicly available corpus of 3D pose data and human-annotated sentences. Both objective metrics and human judgment evaluation confirm that our proposed approach is able to generate more accurate animations and are deemed visually more representative by humans than other data driven approaches.
updated: Wed Nov 27 2019 19:06:42 GMT+0000 (UTC)
published: Tue Jul 02 2019 00:38:44 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト