arXiv reaDer
深唇読唇術の進歩と課題
Advances and Challenges in Deep Lip Reading
ディープラーニング技術と大規模なデータセットに後押しされて、近年、自動唇読み取りのパラダイムシフトが目撃されています。視覚音声認識(VSR)の主な目的は音声音声認識システムの精度の向上でしたが、生体認証などの他の潜在的なアプリケーションやVSRシステムの約束された利益は、読唇術技術の開発に多大な努力を払ってきました。このホワイトペーパーでは、データの課題、タスク固有の複雑さ、および対応するソリューションに焦点を当てた、最先端のディープラーニングベースのVSR調査の包括的な調査を提供します。これらの方向への進歩は、理論から実践へのサイレントスピーチインターフェースの変換を促進します。また、VSRパイプラインのメインモジュールと影響力のあるデータセットについても説明します。最後に、いくつかの典型的なVSRアプリケーションの懸念事項と実際のシナリオへの障害、および将来の研究の方向性を紹介します。
Driven by deep learning techniques and large-scale datasets, recent years have witnessed a paradigm shift in automatic lip reading. While the main thrust of Visual Speech Recognition (VSR) was improving accuracy of Audio Speech Recognition systems, other potential applications, such as biometric identification, and the promised gains of VSR systems, have motivated extensive efforts on developing the lip reading technology. This paper provides a comprehensive survey of the state-of-the-art deep learning based VSR research with a focus on data challenges, task-specific complications, and the corresponding solutions. Advancements in these directions will expedite the transformation of silent speech interface from theory to practice. We also discuss the main modules of a VSR pipeline and the influential datasets. Finally, we introduce some typical VSR application concerns and impediments to real-world scenarios as well as future research directions.
updated: Fri Oct 15 2021 06:18:26 GMT+0000 (UTC)
published: Fri Oct 15 2021 06:18:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト