arXiv reaDer
誰もが今すぐ署名:話し言葉を写真のリアルな手話ビデオに翻訳
Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign Language Video
ろうコミュニティに真に理解され受け入れられるためには、自動手話制作(SLP)システムが写実的な署名者を生成する必要があります。グラフィカルアバターに基づく以前のアプローチは人気がないことが証明されていますが、スケルトンポーズシーケンスを生成する最近のニューラルSLP作業は、聴覚障害者には理解できないことが示されています。この論文では、音声言語から直接フォトリアリスティックな連続手話ビデオを生成する最初のSLPモデルであるSignGANを提案します。話し言葉から骨格ポーズへの翻訳を処理するために、混合密度ネットワーク(MDN)定式化を備えたトランスアーキテクチャを採用しています。次に、ポーズ条件付きの人間合成モデルを導入して、骨格のポーズシーケンスから写実的な手話ビデオを生成します。これにより、書かれたテキストから直接翻訳されたサインビデオの写実的な制作が可能になります。さらに、合成された手の画像の品質を大幅に向上させ、モーションブラーによって引き起こされる問題を回避するためにキーポイント空間で動作する、新しいキーポイントベースの損失関数を提案します。さらに、制御可能なビデオ生成の方法を紹介し、大規模で多様な手話データセットのトレーニングを可能にし、推論時の署名者の外観を制御する機能を提供します。放送映像から抽出された8つの異なる手話通訳者のデータセットを使用して、SignGANが定量的指標と人間の知覚研究のすべてのベースライン方法を大幅に上回っていることを示します。
To be truly understandable and accepted by Deaf communities, an automatic Sign Language Production (SLP) system must generate a photo-realistic signer. Prior approaches based on graphical avatars have proven unpopular, whereas recent neural SLP works that produce skeleton pose sequences have been shown to be not understandable to Deaf viewers. In this paper, we propose SignGAN, the first SLP model to produce photo-realistic continuous sign language videos directly from spoken language. We employ a transformer architecture with a Mixture Density Network (MDN) formulation to handle the translation from spoken language to skeletal pose. A pose-conditioned human synthesis model is then introduced to generate a photo-realistic sign language video from the skeletal pose sequence. This allows the photo-realistic production of sign videos directly translated from written text. We further propose a novel keypoint-based loss function, which significantly improves the quality of synthesized hand images, operating in the keypoint space to avoid issues caused by motion blur. In addition, we introduce a method for controllable video generation, enabling training on large, diverse sign language datasets and providing the ability to control the signer appearance at inference. Using a dataset of eight different sign language interpreters extracted from broadcast footage, we show that SignGAN significantly outperforms all baseline methods for quantitative metrics and human perceptual studies.
updated: Thu Nov 26 2020 19:00:34 GMT+0000 (UTC)
published: Thu Nov 19 2020 14:31:06 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト