arXiv reaDer
Action-GPT: 改善された一般化されたアクション生成のための大規模言語モデルの活用
Action-GPT: Leveraging Large-scale Language Models for Improved and Generalized Action Generation
大規模言語モデル (LLM) をテキストベースのアクション生成モデルに組み込むためのプラグアンドプレイ フレームワークである Action-GPT を紹介します。現在のモーション キャプチャ データセットのアクション フレーズには、最小限の要点情報が含まれています。 LLM のプロンプトを慎重に作成することにより、アクションの詳細で詳細な説明を生成します。元のアクション フレーズの代わりにこれらの詳細な説明を利用すると、テキストとモーション スペースの配置が改善されることがわかりました。確率論的 (VAE ベースなど) および決定論的 (MotionCLIP など) のテキストからモーションへのモデルと互換性のある一般的なアプローチを導入します。さらに、このアプローチにより、複数のテキスト記述を利用できるようになります。私たちの実験は、(i) 合成されたモーションの品質における顕著な質的および量的改善、(ii) 複数の LLM 生成された記述を利用する利点、(iii) プロンプト機能の適合性、および (iv) のゼロショット生成機能を示しています。提案されたアプローチ。プロジェクトページ: https://actiongpt.github.io
We introduce Action-GPT, a plug-and-play framework for incorporating Large Language Models (LLMs) into text-based action generation models. Action phrases in current motion capture datasets contain minimal and to-the-point information. By carefully crafting prompts for LLMs, we generate richer and fine-grained descriptions of the action. We show that utilizing these detailed descriptions instead of the original action phrases leads to better alignment of text and motion spaces. We introduce a generic approach compatible with stochastic (e.g. VAE-based) and deterministic (e.g. MotionCLIP) text-to-motion models. In addition, the approach enables multiple text descriptions to be utilized. Our experiments show (i) noticeable qualitative and quantitative improvement in the quality of synthesized motions, (ii) benefits of utilizing multiple LLM-generated descriptions, (iii) suitability of the prompt function, and (iv) zero-shot generation capabilities of the proposed approach. Project page: https://actiongpt.github.io
updated: Tue Mar 07 2023 06:14:56 GMT+0000 (UTC)
published: Mon Nov 28 2022 17:57:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト