スピーチの視覚的領域を指す視覚的スピーチは、公安、医療、軍事防衛、映画エンターテインメントなどの幅広い用途のためにますます注目を集めています。強力なAI戦略として、深層学習技術は視覚音声学習の開発を広範囲に促進してきました。過去5年間で、この分野のさまざまな問題、特に自動視覚音声認識と生成に対処するために、多数の深層学習ベースの方法が提案されてきました。視覚音声に関する将来の研究を推進するために、この論文は、視覚音声分析に関する深層学習法の最近の進歩の包括的なレビューを提示することを目的としています。基本的な問題、課題、ベンチマークデータセット、既存の方法の分類法、最先端のパフォーマンスなど、視覚的なスピーチのさまざまな側面について説明します。さらに、現在の研究のギャップを特定し、刺激的な将来の研究の方向性についても話し合います。
Visual speech, referring to the visual domain of speech, has attracted increasing attention due to its wide applications, such as public security, medical treatment, military defense, and film entertainment. As a powerful AI strategy, deep learning techniques have extensively promoted the development of visual speech learning. Over the past five years, numerous deep learning based methods have been proposed to address various problems in this area, especially automatic visual speech recognition and generation. To push forward future research on visual speech, this paper aims to present a comprehensive review of recent progress in deep learning methods on visual speech analysis. We cover different aspects of visual speech, including fundamental problems, challenges, benchmark datasets, a taxonomy of existing methods, and state-of-the-art performance. Besides, we also identify gaps in current research and discuss inspiring future research directions.