このペーパーでは、WMT 2022 での手話翻訳に関する最初の共有タスクへの Microsoft の提出について説明します。WMT は、スイス ドイツ語手話の手話から音声言語への翻訳に取り組む公開コンペティションです。データが不足していることと、ターゲット側で前例のない 20,000 語を超える語彙サイズがあるため、このタスクは非常に困難です。さらに、データは実際の放送ニュースから取得され、ネイティブ署名を含み、長いビデオのシナリオをカバーします。アクション認識の最近の進歩に動機付けられて、事前トレーニング済みの I3D モデルから特徴を抽出し、標準のトランスフォーマー ネットワークを適用することにより、全身情報を組み込みます。システムの精度は、ターゲット テキストに慎重なデータ クリーニングを適用することによってさらに改善されます。テスト セットと開発セットでそれぞれ 0.6 と 0.78 の BLEU スコアを取得しました。これは、共有タスクの参加者の中で最高のスコアです。人による評価でも提出物が1位になります。 BLEUスコアは、読唇モデルから抽出された特徴を適用することにより、開発セットで1.08にさらに改善されています。
This paper describes Microsoft's submission to the first shared task on sign language translation at WMT 2022, a public competition tackling sign language to spoken language translation for Swiss German sign language. The task is very challenging due to data scarcity and an unprecedented vocabulary size of more than 20k words on the target side. Moreover, the data is taken from real broadcast news, includes native signing and covers scenarios of long videos. Motivated by recent advances in action recognition, we incorporate full body information by extracting features from a pre-trained I3D model and applying a standard transformer network. The accuracy of the system is further improved by applying careful data cleaning on the target text. We obtain BLEU scores of 0.6 and 0.78 on the test and dev set respectively, which is the best score among the participants of the shared task. Also in the human evaluation the submission reaches the first place. The BLEU score is further improved to 1.08 on the dev set by applying features extracted from a lip reading model.