最近、顔の幻覚タスクに多くのブレークスルーがありました。ただし、固有の一貫性の問題により、画像と比較してビデオではタスクがかなり困難なままです。ビデオ顔幻覚における特別な時間的次元の存在により、シーケンス全体を通して顔の動きを学習することは自明ではなくなります。これらの細かい時空間モーションの詳細を学習するために、新しいクロスモーダル オーディオ ビジュアル ビデオ 顔幻覚生成敵対ネットワーク (VFH-GAN) を提案します。このアーキテクチャは、顔の構造の動きと関連する音声信号との間のセマンティックな相関関係を利用します。現在のビデオ ベースのアプローチにおけるもう 1 つの主要な問題は、口や唇などの主要な顔領域の周りにぼやけが存在することです。ここでは、他の領域と比較して空間変位がはるかに大きくなります。提案されたアプローチは、これらの顔領域の細かい粒子の動きを学習するために、読唇術の損失を明示的に定義します。トレーニング中、GAN は低周波数から高周波数まで適合する可能性があるため、合成が難しい周波数を見逃す可能性があります。したがって、顕著な周波数特性をネットワークに追加するには、周波数ベースの損失関数を追加します。最先端技術との視覚的および定量的な比較は、パフォーマンスと有効性の大幅な改善を示しています。
Recently, there has been numerous breakthroughs in face hallucination tasks. However, the task remains rather challenging in videos in comparison to the images due to inherent consistency issues. The presence of extra temporal dimension in video face hallucination makes it non-trivial to learn the facial motion through out the sequence. In order to learn these fine spatio-temporal motion details, we propose a novel cross-modal audio-visual Video Face Hallucination Generative Adversarial Network (VFH-GAN). The architecture exploits the semantic correlation of between the movement of the facial structure and the associated speech signal. Another major issue in present video based approaches is the presence of blurriness around the key facial regions such as mouth and lips - where spatial displacement is much higher in comparison to other areas. The proposed approach explicitly defines a lip reading loss to learn the fine grain motion in these facial areas. During training, GANs have potential to fit frequencies from low to high, which leads to miss the hard to synthesize frequencies. Therefore, to add salient frequency features to the network we add a frequency based loss function. The visual and the quantitative comparison with state-of-the-art shows a significant improvement in performance and efficacy.