arXiv reaDer
MotionCLIP:人間のモーション生成をCLIPスペースに公開する
MotionCLIP: Exposing Human Motion Generation to CLIP Space
MotionCLIPを紹介します。これは、解きほぐされ、適切に動作し、高度にセマンティックなテキスト記述をサポートする潜在的な埋め込みを特徴とする3Dヒューマンモーションオートエンコーダです。 MotionCLIPは、その潜在的なスペースをContrastive Language-Image Pre-training(CLIP)モデルの潜在的なスペースと位置合わせすることにより、独自のパワーを獲得します。人間のモーションマニフォールドをCLIP空間に位置合わせすると、CLIPの非常に豊富なセマンティック知識がマニフォールドに暗黙的に注入されます。特に、意味的に類似したモーションを互いに近くに配置し、CLIP空間構造から継承される解きほぐしを行うことで、継続性を高めます。 MotionCLIPは、CLIP空間でのテキストラベルの位置に合わせてモーションを再構築するようにトレーニングされた、トランスベースのモーションオートエンコーダで構成されています。さらに、CLIP独自の視覚的理解を活用し、自己監視方式でレンダリングされたフレームにモーションを位置合わせすることで、さらに強力な信号を注入します。 CLIPはモーションドメインを見たことがありませんが、MotionCLIPは前例のないテキストからモーションへの機能を提供し、ドメイン外のアクション、もつれのない編集、抽象的な言語仕様を可能にすることを示します。たとえば、テキストプロンプト「ソファ」は、言語の類似性のために座る動作にデコードされ、プロンプト「スパイダーマン」は、トレーニング中には見られないウェブスイングのようなソリューションになります。さらに、導入された潜在空間をモーション補間、編集、認識にどのように活用できるかを示します。
We introduce MotionCLIP, a 3D human motion auto-encoder featuring a latent embedding that is disentangled, well behaved, and supports highly semantic textual descriptions. MotionCLIP gains its unique power by aligning its latent space with that of the Contrastive Language-Image Pre-training (CLIP) model. Aligning the human motion manifold to CLIP space implicitly infuses the extremely rich semantic knowledge of CLIP into the manifold. In particular, it helps continuity by placing semantically similar motions close to one another, and disentanglement, which is inherited from the CLIP-space structure. MotionCLIP comprises a transformer-based motion auto-encoder, trained to reconstruct motion while being aligned to its text label's position in CLIP-space. We further leverage CLIP's unique visual understanding and inject an even stronger signal through aligning motion to rendered frames in a self-supervised manner. We show that although CLIP has never seen the motion domain, MotionCLIP offers unprecedented text-to-motion abilities, allowing out-of-domain actions, disentangled editing, and abstract language specification. For example, the text prompt "couch" is decoded into a sitting down motion, due to lingual similarity, and the prompt "Spiderman" results in a web-swinging-like solution that is far from seen during training. In addition, we show how the introduced latent space can be leveraged for motion interpolation, editing and recognition.
updated: Tue Mar 15 2022 16:56:22 GMT+0000 (UTC)
published: Tue Mar 15 2022 16:56:22 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト