arXiv reaDer
混合信号:モーションプリミティブの混合による手話の生成
Mixed SIGNals: Sign Language Production via a Mixture of Motion Primitives
話し言葉を音声レベルで表現するのが一般的な方法です。ただし、手話の場合、これはモーションを構成要素のモーションプリミティブに分割することを意味します。アバターベースの手話制作(SLP)は、伝統的にこれを実行し、手の動き、形、顔の表情のシーケンスからアニメーションを構築してきました。ただし、SLPに対する最近の深層学習ベースのソリューションでは、完全な骨格構造を推定する単一のネットワークを使用して問題に取り組んでいます。 SLPタスクを2つの異なる共同トレーニングされたサブタスクに分割することを提案します。最初の翻訳サブタスクは、光沢のある監督の下で、話し言葉から潜在的な手話表現に翻訳します。続いて、アニメーションサブタスクは、学習した時空間表現によく似た表現力豊かな手話シーケンスを生成することを目的としています。翻訳サブタスクにプログレッシブトランスフォーマーを使用して、手話アニメーション用の新しいモーションプリミティブの混合(MoMP)アーキテクチャを提案します。トレーニング中に一連の個別のモーションプリミティブが学習され、推論時に一時的に組み合わせて、連続的な手話シーケンスをアニメーション化できます。挑戦的なRWTH-PHOENIX-Weather-2014T(PHOENIX14T)データセットを評価し、広範なアブレーション研究を提示し、MoMPがユーザー評価のベースラインを上回っていることを示しています。競合する結果よりも11%向上し、最先端の逆翻訳パフォーマンスを実現します。重要なのは、初めて、グロスからサインまでよりも、話し言葉からサインまでの完全な翻訳パイプラインのパフォーマンスが高いことを示すことです。
It is common practice to represent spoken languages at their phonetic level. However, for sign languages, this implies breaking motion into its constituent motion primitives. Avatar based Sign Language Production (SLP) has traditionally done just this, building up animation from sequences of hand motions, shapes and facial expressions. However, more recent deep learning based solutions to SLP have tackled the problem using a single network that estimates the full skeletal structure. We propose splitting the SLP task into two distinct jointly-trained sub-tasks. The first translation sub-task translates from spoken language to a latent sign language representation, with gloss supervision. Subsequently, the animation sub-task aims to produce expressive sign language sequences that closely resemble the learnt spatio-temporal representation. Using a progressive transformer for the translation sub-task, we propose a novel Mixture of Motion Primitives (MoMP) architecture for sign language animation. A set of distinct motion primitives are learnt during training, that can be temporally combined at inference to animate continuous sign language sequences. We evaluate on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T) dataset, presenting extensive ablation studies and showing that MoMP outperforms baselines in user evaluations. We achieve state-of-the-art back translation performance with an 11% improvement over competing results. Importantly, and for the first time, we showcase stronger performance for a full translation pipeline going from spoken language to sign, than from gloss to sign.
updated: Mon Jul 26 2021 09:13:33 GMT+0000 (UTC)
published: Fri Jul 23 2021 15:53:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト