arXiv reaDer
読唇術の MOOC に向けて: 人工トーキング ヘッドを使用して大規模な読唇術で人間をトレーニングする
Towards MOOCs for Lip Reading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale
何らかの形の難聴を持つ多くの人々は、読唇術を日常のコミュニケーションの主要なモードと考えています。ただし、読唇術のスキルを習得または向上させるためのリソースを見つけるのは難しい場合があります。これは、同僚や言語療法士との直接的なやり取りが制限されているため、COVID19 のパンデミックでさらに悪化しています。今日、Coursera や Udemy などのオンライン MOOCs プラットフォームは、さまざまな種類のスキル開発にとって最も効果的なトレーニング形式になっています。しかし、そのようなリソースの作成は、雇用された俳優を記録するために何ヶ月もの手作業を必要とする大規模なプロセスであるため、オンラインの読唇術リソースは不足しています.手動のパイプラインがあるため、このようなプラットフォームでは、語彙、サポートされる言語、アクセント、およびスピーカーが制限され、使用コストが高くなります。この作業では、実際の人間の会話ビデオを合成的に生成されたビデオに置き換える可能性を調査します。合成データを使用すると、より大きな語彙、アクセントのバリエーション、さらには現地語、さらには多くの話者を簡単に組み込むことができます。最先端のトーキングヘディングビデオジェネレーターネットワーク、テキスト読み上げモデル、およびコンピュータービジョン技術を使用して、このようなプラットフォームを開発するためのエンドツーエンドの自動化されたパイプラインを提案します。次に、既存の読唇プラットフォームに対して設計されたプラットフォームの品質を検証するために、慎重に考え抜かれた読唇演習を使用して広範な人間による評価を行います。私たちの研究は、難聴を持つ何百万人もの人々に影響を与える可能性のある大規模な読唇術 MOOCs プラットフォームの開発に対する私たちのアプローチの可能性を具体的に示しています。
Many people with some form of hearing loss consider lipreading as their primary mode of day-to-day communication. However, finding resources to learn or improve one's lipreading skills can be challenging. This is further exacerbated in COVID19 pandemic due to restrictions on direct interactions with peers and speech therapists. Today, online MOOCs platforms like Coursera and Udemy have become the most effective form of training for many kinds of skill development. However, online lipreading resources are scarce as creating such resources is an extensive process needing months of manual effort to record hired actors. Because of the manual pipeline, such platforms are also limited in the vocabulary, supported languages, accents, and speakers, and have a high usage cost. In this work, we investigate the possibility of replacing real human talking videos with synthetically generated videos. Synthetic data can be used to easily incorporate larger vocabularies, variations in accent, and even local languages, and many speakers. We propose an end-to-end automated pipeline to develop such a platform using state-of-the-art talking heading video generator networks, text-to-speech models, and computer vision techniques. We then perform an extensive human evaluation using carefully thought out lipreading exercises to validate the quality of our designed platform against the existing lipreading platforms. Our studies concretely point towards the potential of our approach for the development of a large-scale lipreading MOOCs platform that can impact millions of people with hearing loss.
updated: Sun Aug 21 2022 03:43:19 GMT+0000 (UTC)
published: Sun Aug 21 2022 03:43:19 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト