オーディオおよびオーディオビジュアル音声認識の分野での進歩にもかかわらず、一部の音素の視覚的なあいまいさのために、視覚音声認識システムはまだ十分に検討されていません。この作品では、3つの貢献を組み合わせた新しい読唇モデルを提案します。まず、モデルのフロントエンドは、入力ビジュアルフレームから有益なデータを抽出するのに役立つ時空間アテンションメカニズムを採用しています。次に、モデルのバックエンドは、シーケンスレベルおよびフレームレベルのナレッジ蒸留(KD)技術を利用して、ビジュアルモデルのトレーニング中にオーディオデータを活用できるようにします。第三に、顔のランドマーク検出ベースの唇の位置合わせを含むデータ前処理パイプラインが採用されています。 LRW読唇データセットのベンチマークでは、顕著な精度の向上が示されています。時空間的注意、知識蒸留、および唇の整列の寄与は、それぞれ88.43%、88.64%、および88.37%を達成しました。
Despite the advancement in the domain of audio and audio-visual speech recognition, visual speech recognition systems are still quite under-explored due to the visual ambiguity of some phonemes. In this work, we propose a new lip-reading model that combines three contributions. First, the model front-end adopts a spatio-temporal attention mechanism to help extract the informative data from the input visual frames. Second, the model back-end utilizes a sequence-level and frame-level Knowledge Distillation (KD) techniques that allow leveraging audio data during the visual model training. Third, a data preprocessing pipeline is adopted that includes facial landmarks detection-based lip-alignment. On LRW lip-reading dataset benchmark, a noticeable accuracy improvement is demonstrated; the spatio-temporal attention, Knowledge Distillation, and lip-alignment contributions achieved 88.43%, 88.64%, and 88.37% respectively.