arXiv reaDer
三峰性一貫性による言語ガイド付きオーディオビジュアルソース分離
Language-Guided Audio-Visual Source Separation via Trimodal Consistency
ラベル付けされていないビデオとオーディオのペアのみをトレーニング データとして使用して、自然言語クエリに基づいてビデオで音源分離を実行することを学習するための自己教師ありアプローチを提案します。このタスクの重要な課題は、トレーニング中に注釈にアクセスすることなく、音を発するオブジェクトの言語的説明をその視覚的特徴および対応するオーディオ波形のコンポーネントに関連付けることを学習することです。この課題を克服するために、既製のビジョン言語基盤モデルを適応させて、2 つの新しい損失関数を介して疑似ターゲット監視を提供し、オーディオ、ビジュアル、および自然言語モダリティ間のより強力な連携を促進します。推論中に、私たちのアプローチは、テキスト、ビデオ、およびオーディオ入力、またはテキストとオーディオ入力のみを指定して、音を分離できます。 MUSIC、SOLOS、AudioSet を含む 3 つのオーディオビジュアル分離データセットに対する自己教師ありアプローチの有効性を実証します。トレーニング中にオブジェクト検出器やテキスト ラベルを使用しないにもかかわらず、最先端の強力な教師ありアプローチよりも優れています。
We propose a self-supervised approach for learning to perform audio source separation in videos based on natural language queries, using only unlabeled video and audio pairs as training data. A key challenge in this task is learning to associate the linguistic description of a sound-emitting object to its visual features and the corresponding components of the audio waveform, all without access to annotations during training. To overcome this challenge, we adapt off-the-shelf vision-language foundation models to provide pseudo-target supervision via two novel loss functions and encourage a stronger alignment between the audio, visual and natural language modalities. During inference, our approach can separate sounds given text, video and audio input, or given text and audio input alone. We demonstrate the effectiveness of our self-supervised approach on three audio-visual separation datasets, including MUSIC, SOLOS and AudioSet, where we outperform state-of-the-art strongly supervised approaches despite not using object detectors or text labels during training.
updated: Tue Mar 28 2023 22:45:40 GMT+0000 (UTC)
published: Tue Mar 28 2023 22:45:40 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト