arXiv reaDer
TM2T:3D人間の動きとテキストの相互生成のための確率的でトークン化されたモデリング
TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of 3D Human Motions and Texts
視覚と言語の強い結びつき、2つの親密な人間の感知とコミュニケーションのモダリティに触発されて、私たちの論文は、テキストからの3D人間の全身運動の生成と、それぞれtext2motionとmotion2textの省略形であるその相互タスクを探求することを目的としています。 。既存の課題に取り組み、特に同じテキストから複数の異なるモーションを生成できるようにし、些細な静止ポーズシーケンスの望ましくない生成を回避するために、離散的でコンパクトなモーション表現であるモーショントークンの使用を提案します。これは、モーションとテキスト信号の両方をモーショントークンとテキストトークンとしてそれぞれ考慮する場合に、1つのレベルの遊び場を提供します。さらに、motion2textモジュールは、text2motionトレーニングパイプラインの逆整列プロセスに統合されています。このプロセスでは、入力テキストからの合成テキストの大幅な逸脱は、大きなトレーニング損失によってペナルティが課せられます。経験的に、これはパフォーマンスを効果的に改善することが示されています。最後に、モーションとテキストの2つのモダリティ間のマッピングは、機械翻訳(NMT)のニューラルモデルをコンテキストに適合させることによって容易になります。離散モーショントークン上の分布のこの自己回帰モデリングは、入力テキストからの可変長のポーズシーケンスの非決定論的生成をさらに可能にします。私たちのアプローチは柔軟性があり、text2motionタスクとmotion2textタスクの両方に使用できます。 2つのベンチマークデータセットの経験的評価は、さまざまな最先端の方法よりも、両方のタスクでのアプローチの優れたパフォーマンスを示しています。プロジェクトページ:https://ericguo5513.github.io/TM2T/
Inspired by the strong ties between vision and language, the two intimate human sensing and communication modalities, our paper aims to explore the generation of 3D human full-body motions from texts, as well as its reciprocal task, shorthanded for text2motion and motion2text, respectively. To tackle the existing challenges, especially to enable the generation of multiple distinct motions from the same text, and to avoid the undesirable production of trivial motionless pose sequences, we propose the use of motion token, a discrete and compact motion representation. This provides one level playing ground when considering both motions and text signals, as the motion and text tokens, respectively. Moreover, our motion2text module is integrated into the inverse alignment process of our text2motion training pipeline, where a significant deviation of synthesized text from the input text would be penalized by a large training loss; empirically this is shown to effectively improve performance. Finally, the mappings in-between the two modalities of motions and texts are facilitated by adapting the neural model for machine translation (NMT) to our context. This autoregressive modeling of the distribution over discrete motion tokens further enables non-deterministic production of pose sequences, of variable lengths, from an input text. Our approach is flexible, could be used for both text2motion and motion2text tasks. Empirical evaluations on two benchmark datasets demonstrate the superior performance of our approach on both tasks over a variety of state-of-the-art methods. Project page: https://ericguo5513.github.io/TM2T/
updated: Mon Jul 04 2022 19:52:18 GMT+0000 (UTC)
published: Mon Jul 04 2022 19:52:18 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト