過去 10 年間、手話制作 (SLP) の分野には、継続的なアメリカ手話 (ASL) 制作のための深層学習に基づく大規模な事前トレーニング済みモデルが不足していました。この制限により、ASL に依存するすべての障害のある個人のコミュニケーションが妨げられます。この問題に対処するために、私たちは公開されている最大の ASL データセットの 1 つである How2Sign の二次開発と利用に着手しました。その重要性にもかかわらず、手話分野のこれまでの研究者は、アメリカ手話言語制作 (ASLP) に複雑な要素が含まれているため、このコーパスを効果的に利用していませんでした。大規模な ASLP を実施するために、関連分野の最新の研究に基づいて、スケルトンのポーズから人間の手話話者を生成できる二重条件拡散事前学習モデルである SignDiff を提案します。 SignDiff には、密集した人間の姿勢推定作業に似た、FR-Net と呼ばれる新しいフレーム強化ネットワークがあり、テキスト語彙記号と手話の密集姿勢フレーム間の対応を強化し、拡散モデルにおける複数の指の発生を減らします。さらに、私たちの ASLP メソッドは、手話の骨格姿勢の精度と品質を向上させ、大規模データでトレーニングするモデルの能力を強化するために、2 つの新しい改良されたモジュールと新しい損失関数を提案します。 ASL プロダクションの最初のベースラインを提案し、How2Sign 開発/テスト セットの BLEU-4 で 17.19 および 12.85 のスコアを報告します。また、PHOENIX14T と呼ばれる以前の主流のデータセットでモデルを評価し、主な実験で SOTA の結果が得られました。さらに、当社の画質は、SSIM 指標でこれまでのすべての結果を 10 パーセントポイントはるかに上回っています。最後に、ディスカッションのためにアブレーション研究と定性的評価を実施しました。
The field of Sign Language Production (SLP) lacked a large-scale, pre-trained model based on deep learning for continuous American Sign Language (ASL) production in the past decade. This limitation hampers communication for all individuals with disabilities relying on ASL. To address this issue, we undertook the secondary development and utilization of How2Sign, one of the largest publicly available ASL datasets. Despite its significance, prior researchers in the field of sign language have not effectively employed this corpus due to the intricacies involved in American Sign Language Production (ASLP). To conduct large-scale ASLP, we propose SignDiff based on the latest work in related fields, which is a dual-condition diffusion pre-training model that can generate human sign language speakers from a skeleton pose. SignDiff has a novel Frame Reinforcement Network called FR-Net, similar to dense human pose estimation work, which enhances the correspondence between text lexical symbols and sign language dense pose frames reduce the occurrence of multiple fingers in the diffusion model. In addition, our ASLP method proposes two new improved modules and a new loss function to improve the accuracy and quality of sign language skeletal posture and enhance the ability of the model to train on large-scale data. We propose the first baseline for ASL production and report the scores of 17.19 and 12.85 on BLEU-4 on the How2Sign dev/test sets. We also evaluated our model on the previous mainstream dataset called PHOENIX14T, and the main experiments achieved the results of SOTA. In addition, our image quality far exceeds all previous results by 10 percentage points on the SSIM indicator. Finally, we conducted ablation studies and qualitative evaluations for discussion.