arXiv reaDer
ダイナミックラムダを使用したポーズガイド手話ビデオGAN
Pose-Guided Sign Language Video GAN with Dynamic Lambda
GANを使用して手話ビデオを合成するための新しいアプローチを提案します。 Stollらの以前の作業を拡張します。 Soft-Gated Warping-GAN fromの人間のセマンティックパーサーを使用して、地域レベルの空間レイアウトによってガイドされるフォトリアリスティックなビデオを作成します。ターゲットポーズを合成すると、独立した対照的な署名者のパフォーマンスが向上します。したがって、200を超える署名者を含む非常に異種のMS-ASLデータセットを使用してシステムを評価した結果、SSIMは0.893になりました。さらに、トレーニングを再アクティブ化し、定量的により良い結果をもたらすジェネレーターに定期的な重み付けアプローチを導入します。
We propose a novel approach for the synthesis of sign language videos using GANs. We extend the previous work of Stoll et al. by using the human semantic parser of the Soft-Gated Warping-GAN from to produce photorealistic videos guided by region-level spatial layouts. Synthesizing target poses improves performance on independent and contrasting signers. Therefore, we have evaluated our system with the highly heterogeneous MS-ASL dataset with over 200 signers resulting in a SSIM of 0.893. Furthermore, we introduce a periodic weighting approach to the generator that reactivates the training and leads to quantitatively better results.
updated: Thu May 06 2021 15:12:09 GMT+0000 (UTC)
published: Thu May 06 2021 15:12:09 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト