arXiv reaDer
手話辞書による手話スポッティングのスケールアップ
Scaling up sign spotting through sign language dictionaries
この作業の焦点は手話の発見です-孤立した手話のビデオを考えると、私たちの仕事は、それが継続的な、関節のある手話ビデオで署名されているかどうか、そしてどこで署名されているかを特定することです。このサインスポッティングタスクを達成するために、次の方法で複数のタイプの利用可能な監視を使用してモデルをトレーニングします。(1)口の合図を使用してまばらにラベル付けされた既存の映像を監視する。 (2)追加の弱い監督を提供する関連する字幕(署名されたコンテンツのすぐに利用可能な翻訳)を読む。 (3)視覚的な手話辞書で単語(共同で表現されたラベル付きの例は利用できません)を検索して、新しい手話のスポッティングを可能にします。これらの3つのタスクは、ノイズコントラスト推定とマルチインスタンス学習の原則を使用して、統合された学習フレームワークに統合されます。ローショットサインスポッティングベンチマークでのアプローチの有効性を検証します。さらに、このタスクの研究を容易にするために、孤立した手話の機械可読な英国手話(BSL)辞書データセットBSLDictを提供します。データセット、モデル、コードは、プロジェクトページで入手できます。
The focus of this work is sign spotting - given a video of an isolated sign, our task is to identify whether and where it has been signed in a continuous, co-articulated sign language video. To achieve this sign spotting task, we train a model using multiple types of available supervision by: (1) watching existing footage which is sparsely labelled using mouthing cues; (2) reading associated subtitles (readily available translations of the signed content) which provide additional weak-supervision; (3) looking up words (for which no co-articulated labelled examples are available) in visual sign language dictionaries to enable novel sign spotting. These three tasks are integrated into a unified learning framework using the principles of Noise Contrastive Estimation and Multiple Instance Learning. We validate the effectiveness of our approach on low-shot sign spotting benchmarks. In addition, we contribute a machine-readable British Sign Language (BSL) dictionary dataset of isolated signs, BSLDict, to facilitate study of this task. The dataset, models and code are available at our project page.
updated: Mon May 09 2022 10:00:03 GMT+0000 (UTC)
published: Mon May 09 2022 10:00:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト