このホワイトペーパーでは、音声と歌声の2つのシナリオで、低遅延で最先端の結果を生成する音声分離の視聴覚アプローチを紹介します。このモデルは、2段階のネットワークに基づいています。モーションキューは、顔のランドマークを処理する軽量のグラフ畳み込みネットワークを使用して取得されます。次に、オーディオ機能とモーション機能の両方がオーディオビジュアルトランスフォーマーに送られ、分離されたターゲットソースのかなり良い推定値が生成されます。第2段階では、主要な音声が音声のみのネットワークで強化されます。さまざまなアブレーション研究と最先端の方法との比較を紹介します。最後に、歌声の分離のタスクで音声分離のために訓練されたモデルの転送可能性を調査します。デモ、コード、ウェイトはhttps://ipcv.github.io/VoViT/で入手できます。
This paper presents an audio-visual approach for voice separation which produces state-of-the-art results at a low latency in two scenarios: speech and singing voice. The model is based on a two-stage network. Motion cues are obtained with a lightweight graph convolutional network that processes face landmarks. Then, both audio and motion features are fed to an audio-visual transformer which produces a fairly good estimation of the isolated target source. In a second stage, the predominant voice is enhanced with an audio-only network. We present different ablation studies and comparison to state-of-the-art methods. Finally, we explore the transferability of models trained for speech separation in the task of singing voice separation. The demos, code, and weights are available in https://ipcv.github.io/VoViT/