arXiv reaDer
STMC-Transformerによる手話翻訳の改善
Better Sign Language Translation with STMC-Transformer
手話翻訳(SLT)は、最初に手話認識(SLR)システムを使用して、ビデオから手話の光沢を抽出します。次に、翻訳システムは、手話のグロスから話し言葉の翻訳を生成します。このホワイトペーパーでは、翻訳システムに焦点を当て、PHOENIX-Weatherのグロスからテキストへの翻訳とビデオからテキストへの翻訳で現在の最先端技術をそれぞれ5および7BLEU以上改善するSTMC-Transformerを紹介します。 2014Tデータセット。 ASLG-PC12コーパスでは、16BLEUを超える増加が報告されています。また、光沢の監視に依存する現在の方法の問題についても説明します。 STMC-Transformerのビデオからテキストへの翻訳は、GTグロスの翻訳よりも優れています。これは、GTグロス翻訳がSLTパフォーマンスの上限として機能し、グロスが手話の非効率的な表現であることを明らかにするという以前の主張と矛盾します。したがって、将来のSLT研究のために、認識モデルと翻訳モデルのエンドツーエンドのトレーニングを行うか、別の手話注釈スキームを使用することをお勧めします。
Sign Language Translation (SLT) first uses a Sign Language Recognition (SLR) system to extract sign language glosses from videos. Then, a translation system generates spoken language translations from the sign language glosses. This paper focuses on the translation system and introduces the STMC-Transformer which improves on the current state-of-the-art by over 5 and 7 BLEU respectively on gloss-to-text and video-to-text translation of the PHOENIX-Weather 2014T dataset. On the ASLG-PC12 corpus, we report an increase of over 16 BLEU. We also demonstrate the problem in current methods that rely on gloss supervision. The video-to-text translation of our STMC-Transformer outperforms translation of GT glosses. This contradicts previous claims that GT gloss translation acts as an upper bound for SLT performance and reveals that glosses are an inefficient representation of sign language. For future SLT research, we therefore suggest an end-to-end training of the recognition and translation models, or using a different sign language annotation scheme.
updated: Tue Nov 03 2020 00:59:54 GMT+0000 (UTC)
published: Wed Apr 01 2020 17:20:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト