arXiv reaDer
手話ビデオの字幕の整列
Aligning Subtitles in Sign Language Videos
この作業の目標は、手話ビデオの非同期字幕を一時的に整列させることです。特に、(i)継続的な署名のビデオ、および(ii)オーディオコンテンツに対応する字幕を含む、手話で解釈されたTV放送データに焦点を当てています。そのような弱く整列されたデータを利用する以前の研究は、キーワードと記号の対応を見つけることだけを考慮しましたが、私たちは継続的な署名で完全な字幕テキストをローカライズすることを目指しています。このタスクに合わせて調整されたTransformerアーキテクチャを提案します。これは、17.7時間のビデオにまたがる15K以上の字幕をカバーする手動で注釈が付けられた配置でトレーニングします。一連の注意層を介して相互作用する2つの信号をエンコードするために、標識認識のために学習されたBERT字幕埋め込みとCNNビデオ表現を使用します。私たちのモデルは、フレームレベルの予測を出力します。つまり、クエリされた字幕に属しているかどうかに関係なく、ビデオフレームごとに予測します。広範な評価を通じて、学習に字幕テキストの埋め込みを使用しない既存の配置ベースラインに比べて大幅な改善が見られます。当社の自動位置合わせモデルは、継続的に同期されたビデオテキストデータを提供することにより、手話の機械翻訳を進める可能性を開きます。
The goal of this work is to temporally align asynchronous subtitles in sign language videos. In particular, we focus on sign-language interpreted TV broadcast data comprising (i) a video of continuous signing, and (ii) subtitles corresponding to the audio content. Previous work exploiting such weakly-aligned data only considered finding keyword-sign correspondences, whereas we aim to localise a complete subtitle text in continuous signing. We propose a Transformer architecture tailored for this task, which we train on manually annotated alignments covering over 15K subtitles that span 17.7 hours of video. We use BERT subtitle embeddings and CNN video representations learned for sign recognition to encode the two signals, which interact through a series of attention layers. Our model outputs frame-level predictions, i.e., for each video frame, whether it belongs to the queried subtitle or not. Through extensive evaluations, we show substantial improvements over existing alignment baselines that do not make use of subtitle text embeddings for learning. Our automatic alignment model opens up possibilities for advancing machine translation of sign languages via providing continuously synchronized video-text data.
updated: Thu May 06 2021 17:59:36 GMT+0000 (UTC)
published: Thu May 06 2021 17:59:36 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト