arXiv reaDer
話者固有の唇から音声への生成の学習
Learning Speaker-specific Lip-to-Speech Generation
唇の動きを理解し、それからスピーチを推測することは、一般の人にとって悪名高いほど難しいことです。正確な読唇術のタスクは、話者のさまざまな手がかりとその文脈的または環境的設定から助けを得ます。すべての話者は異なるアクセントと話し方を持っており、それは彼らの視覚的および発話的特徴から推測することができます。この作品は、制約のない大きな語彙における個々の話者のスピーチと唇の動きのシーケンスとの間の相関/マッピングを理解することを目的としています。オートエンコーダ設定でトランスフォーマーの前のフレームシーケンスをモデル化し、オーディオとビデオの両方の時間的特性を活用する共同埋め込みを学習しました。入力リップの動きと同期して音声を生成するようにデコーダーをガイドするディープメトリック学習を使用して、時間同期を学習します。したがって、予測事後予測は、話者の話し方で生成された音声を提供します。グリッドとLip2Wav化学講義データセットでモデルをトレーニングし、制約のない自然環境での唇の動きからの単一話者の自然な音声生成タスクを評価しました。人間による評価を伴うさまざまな定性的および定量的メトリックを使用した広範な評価は、私たちの方法が、ほぼすべての評価メトリックにわたって、Lip2Wav Chemistryデータセット(制約のない設定での大きな語彙)を十分に上回り、最先端のGRIDデータセット。
Understanding the lip movement and inferring the speech from it is notoriously difficult for the common person. The task of accurate lip-reading gets help from various cues of the speaker and its contextual or environmental setting. Every speaker has a different accent and speaking style, which can be inferred from their visual and speech features. This work aims to understand the correlation/mapping between speech and the sequence of lip movement of individual speakers in an unconstrained and large vocabulary. We model the frame sequence as a prior to the transformer in an auto-encoder setting and learned a joint embedding that exploits temporal properties of both audio and video. We learn temporal synchronization using deep metric learning, which guides the decoder to generate speech in sync with input lip movements. The predictive posterior thus gives us the generated speech in speaker speaking style. We have trained our model on the Grid and Lip2Wav Chemistry lecture dataset to evaluate single speaker natural speech generation tasks from lip movement in an unconstrained natural setting. Extensive evaluation using various qualitative and quantitative metrics with human evaluation also shows that our method outperforms the Lip2Wav Chemistry dataset(large vocabulary in an unconstrained setting) by a good margin across almost all evaluation metrics and marginally outperforms the state-of-the-art on GRID dataset.
updated: Sat Jun 04 2022 19:40:02 GMT+0000 (UTC)
published: Sat Jun 04 2022 19:40:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト