arXiv reaDer
読唇術の MOOCs に向けて: 人工トーキング ヘッドを使用して人間の読唇術を大規模に訓練する
Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale
何らかの形の難聴を持つ多くの人々は、読唇術を日常のコミュニケーションの主要なモードと考えています。ただし、読唇術のスキルを習得または向上させるためのリソースを見つけるのは難しい場合があります。これは、同僚や言語療法士との直接的なやり取りが制限されているため、COVID19 のパンデミックでさらに悪化しています。今日、Coursera や Udemy などのオンライン MOOCs プラットフォームは、さまざまな種類のスキル開発にとって最も効果的なトレーニング形式になっています。しかし、そのようなリソースの作成は、雇用された俳優を記録するために何ヶ月もの手作業を必要とする大規模なプロセスであるため、オンラインの読唇術リソースは不足しています.手動のパイプラインがあるため、このようなプラットフォームでは、語彙、サポートされる言語、アクセント、スピーカーが制限され、使用コストが高くなります。この作業では、実際の人間の会話ビデオを合成的に生成されたビデオに置き換える可能性を調査します。合成データは、より大きな語彙、アクセントのバリエーション、さらには現地語や多くの話者を簡単に組み込むことができます。最先端のトーキング ヘッド ビデオ ジェネレーター ネットワーク、テキスト読み上げモデル、およびコンピューター ビジョン技術を使用して、このようなプラットフォームを開発するためのエンドツーエンドの自動パイプラインを提案します。次に、既存の読唇プラットフォームに対して設計されたプラットフォームの品質を検証するために、慎重に考え抜かれた読唇演習を使用して広範な人間による評価を行います。私たちの研究は、難聴を持つ何百万人もの人々に影響を与えることができる大規模な読唇術 MOOC プラットフォームの開発における私たちのアプローチの可能性を具体的に示しています。
Many people with some form of hearing loss consider lipreading as their primary mode of day-to-day communication. However, finding resources to learn or improve one's lipreading skills can be challenging. This is further exacerbated in the COVID19 pandemic due to restrictions on direct interactions with peers and speech therapists. Today, online MOOCs platforms like Coursera and Udemy have become the most effective form of training for many types of skill development. However, online lipreading resources are scarce as creating such resources is an extensive process needing months of manual effort to record hired actors. Because of the manual pipeline, such platforms are also limited in vocabulary, supported languages, accents, and speakers and have a high usage cost. In this work, we investigate the possibility of replacing real human talking videos with synthetically generated videos. Synthetic data can easily incorporate larger vocabularies, variations in accent, and even local languages and many speakers. We propose an end-to-end automated pipeline to develop such a platform using state-of-the-art talking head video generator networks, text-to-speech models, and computer vision techniques. We then perform an extensive human evaluation using carefully thought out lipreading exercises to validate the quality of our designed platform against the existing lipreading platforms. Our studies concretely point toward the potential of our approach in developing a large-scale lipreading MOOC platform that can impact millions of people with hearing loss.
updated: Tue Oct 04 2022 18:25:40 GMT+0000 (UTC)
published: Sun Aug 21 2022 03:43:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト