Towards Pose-invariant Lip-Reading
 強力な深層学習アーキテクチャのおかげで、最近、読唇モデルが大幅に改善されました。ただし、ほとんどの作品は口の正面または正面近くのビューに焦点を当てています。その結果、口を正面から見ると唇を読むパフォーマンスが著しく低下します。この作業では、費用と手間がかかる非正面データを収集して注釈を付ける代わりに、合成データでポーズ不変な唇読みモデルをトレーニングするためのフレームワークを提示します。提案されたモデルは、正面および正面に近い口のビューで優れたパフォーマンスを維持しながら、非正面ビューでの以前のアプローチよりも大幅に優れています。具体的には、3D Morphable Model(3DMM)を使用して、任意のポーズで合成顔データを生成することにより、既存の大規模だがほとんど正面のデータセットであるLRWを増強することを提案します。新しく導出されたデータセットは、読唇用の最先端のニューラルネットワークのトレーニングに使用されます。 LRS2データセットで孤立単語認識のクロスデータベース実験を実施し、2.55%の絶対的な改善を報告しました。提案されたアプローチの利点は、ベースラインに対して最大20.64%の絶対的な改善が達成される極端なポーズでより明確になります。
Lip-reading models have been significantly improved recently thanks to powerful deep learning architectures. However, most works focused on frontal or near frontal views of the mouth. As a consequence, lip-reading performance seriously deteriorates in non-frontal mouth views. In this work, we present a framework for training pose-invariant lip-reading models on synthetic data instead of collecting and annotating non-frontal data which is costly and tedious. The proposed model significantly outperforms previous approaches on non-frontal views while retaining the superior performance on frontal and near frontal mouth views. Specifically, we propose to use a 3D Morphable Model (3DMM) to augment LRW, an existing large-scale but mostly frontal dataset, by generating synthetic facial data in arbitrary poses. The newly derived dataset, is used to train a state-of-the-art neural network for lip-reading. We conducted a cross-database experiment for isolated word recognition on the LRS2 dataset, and reported an absolute improvement of 2.55%. The benefit of the proposed approach becomes clearer in extreme poses where an absolute improvement of up to 20.64% over the baseline is achieved.
updated: Thu Nov 14 2019 13:57:33 GMT+0000 (UTC)
published: Thu Nov 14 2019 13:57:33 GMT+0000 (UTC)
