arXiv reaDer
野生の視聴覚同期
Audio-Visual Synchronisation in the wild
この論文では、「インザワイルド」(つまり、音声以外の一般的なクラス)のビデオに適用されるオーディオビジュアル同期の問題について考察します。新しいタスクとして、視聴覚相関の高いテストセット、つまりVGG-SoundSyncを特定してキュレートします。トレーニング中のメモリ要件を大幅に削減しながら、任意の長さのオーディオおよびビジュアル信号をモデル化するために特別に設計されたトランスベースのアーキテクチャバリアントの数を比較します。さらに、キュレートされたデータセットに対して詳細な分析を行い、オープンドメインのオーディオビジュアル同期の評価指標を定義します。標準的な読唇術のベンチマークであるLRS2とLRS3にこの方法を適用し、さまざまな側面でアブレーションを行います。最後に、新しいVGG-Sound Syncビデオデータセットの160を超える多様なクラスを使用して、一般的なオーディオビジュアル同期の最初のベンチマークを設定しました。すべての場合において、提案されたモデルは、以前の最先端技術を大幅に上回っています。
In this paper, we consider the problem of audio-visual synchronisation applied to videos `in-the-wild' (ie of general classes beyond speech). As a new task, we identify and curate a test set with high audio-visual correlation, namely VGG-Sound Sync. We compare a number of transformer-based architectural variants specifically designed to model audio and visual signals of arbitrary length, while significantly reducing memory requirements during training. We further conduct an in-depth analysis on the curated dataset and define an evaluation metric for open domain audio-visual synchronisation. We apply our method on standard lip reading speech benchmarks, LRS2 and LRS3, with ablations on various aspects. Finally, we set the first benchmark for general audio-visual synchronisation with over 160 diverse classes in the new VGG-Sound Sync video dataset. In all cases, our proposed model outperforms the previous state-of-the-art by a significant margin.
updated: Wed Dec 08 2021 17:50:26 GMT+0000 (UTC)
published: Wed Dec 08 2021 17:50:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト