arXiv reaDer
ModEFormer: トランスフォーマーを使用したオーディオ ビデオ同期のためのモダリティ保持埋め込み
ModEFormer: Modality-Preserving Embedding for Audio-Video Synchronization using Transformers
オーディオとビデオの同期の欠如は、テレビ放送やビデオ会議中によくある問題であり、満足のいく視聴体験をもたらしません。広く受け入れられているパラダイムは、オーディオが進んでいるか遅れているかを識別するエラー検出メカニズムを作成することです。モダリティ固有のトランスフォーマーを使用して、オーディオとビデオの埋め込みを個別に抽出する ModEFormer を提案します。他のトランスフォーマーベースのアプローチとは異なり、ModEFormer は入力ストリームのモダリティを保持するため、より大きなバッチ サイズとより多くの負のオーディオ サンプルを使用して対照的な学習を行うことができます。さらに、負のサンプルの数とバッチ内の一意のサンプルの数の間のトレードオフを提案して、以前の方法のパフォーマンスを大幅に上回ります。実験結果は、ModEFormer が最先端のパフォーマンス (LRS2 で 94.5%、LRS3 で 90.9%) を達成することを示しています。最後に、テスト クリップのオフセット検出に ModEFormer を使用する方法を示します。
Lack of audio-video synchronization is a common problem during television broadcasts and video conferencing, leading to an unsatisfactory viewing experience. A widely accepted paradigm is to create an error detection mechanism that identifies the cases when audio is leading or lagging. We propose ModEFormer, which independently extracts audio and video embeddings using modality-specific transformers. Different from the other transformer-based approaches, ModEFormer preserves the modality of the input streams which allows us to use a larger batch size with more negative audio samples for contrastive learning. Further, we propose a trade-off between the number of negative samples and number of unique samples in a batch to significantly exceed the performance of previous methods. Experimental results show that ModEFormer achieves state-of-the-art performance, 94.5% for LRS2 and 90.9% for LRS3. Finally, we demonstrate how ModEFormer can be used for offset detection for test clips.
updated: Tue Mar 21 2023 02:37:46 GMT+0000 (UTC)
published: Tue Mar 21 2023 02:37:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト