arXiv reaDer
V2A-Mapper: 基本モデルを接続することによる、ビジョンからオーディオへの生成のための軽量ソリューション
V2A-Mapper: A Lightweight Solution for Vision-to-Audio Generation by Connecting Foundation Models
一連の基礎モデル (FM) 上に人工知能 (AI) システムを構築することは、AI 研究における新しいパラダイムになりつつあります。膨大な量のデータから学習した彼らの表現能力と生成能力は、一から追加のトレーニングを行わなくても、簡単に適応して幅広い下流タスクに移すことができます。ただし、オーディオ モダリティが関係する場合、クロスモーダル生成で FM を活用することについては、依然として研究が進んでいません。一方、視覚入力から意味的に関連したサウンドを自動的に生成することは、クロスモーダル生成研究における重要な問題です。このビジョンからオーディオへの (V2A) 生成の問題を解決するために、既存の方法では、適度なサイズのデータ​​セットを使用して複雑なシステムをゼロから設計および構築する傾向があります。このペーパーでは、基礎モデル、特に CLIP、CLAP、および AudioLDM を活用することで、この問題に対する軽量のソリューションを提案します。まず、視覚的な CLIP モデルと聴覚的な CLAP モデルの間の領域ギャップを調査します。次に、CLIP 空間と CLAP 空間の間の視覚入力を変換することでドメインのギャップを埋める、シンプルだが効果的なマッパー メカニズム (V2A-Mapper) を提案します。変換された CLAP エンベディングを条件として、事前トレーニングされたオーディオ生成 FM AudioLDM が採用され、高忠実度で視覚的に整合したサウンドが生成されます。以前のアプローチと比較して、私たちの方法では V2A-Mapper の簡単なトレーニングのみが必要です。さらに、V2A マッパーの選択に関して広範な実験を分析および実施し、生成マッパーは忠実性と変動性 (FD) で優れているのに対し、回帰マッパーは関連性 (CS) でわずかに優れていることを示しています。 2 つの V2A データセットに対する客観的評価と主観的評価の両方で、現在の最先端のアプローチと比較して、提案された方法の優位性が実証されています。86% 少ないパラメーターでトレーニングされたにもかかわらず、FD と CS でそれぞれ 53% と 19% の改善が達成されました。
Building artificial intelligence (AI) systems on top of a set of foundation models (FMs) is becoming a new paradigm in AI research. Their representative and generative abilities learnt from vast amounts of data can be easily adapted and transferred to a wide range of downstream tasks without extra training from scratch. However, leveraging FMs in cross-modal generation remains under-researched when audio modality is involved. On the other hand, automatically generating semantically-relevant sound from visual input is an important problem in cross-modal generation studies. To solve this vision-to-audio (V2A) generation problem, existing methods tend to design and build complex systems from scratch using modestly sized datasets. In this paper, we propose a lightweight solution to this problem by leveraging foundation models, specifically CLIP, CLAP, and AudioLDM. We first investigate the domain gap between the latent space of the visual CLIP and the auditory CLAP models. Then we propose a simple yet effective mapper mechanism (V2A-Mapper) to bridge the domain gap by translating the visual input between CLIP and CLAP spaces. Conditioned on the translated CLAP embedding, pretrained audio generative FM AudioLDM is adopted to produce high-fidelity and visually-aligned sound. Compared to previous approaches, our method only requires a quick training of the V2A-Mapper. We further analyze and conduct extensive experiments on the choice of the V2A-Mapper and show that a generative mapper is better at fidelity and variability (FD) while a regression mapper is slightly better at relevance (CS). Both objective and subjective evaluation on two V2A datasets demonstrate the superiority of our proposed method compared to current state-of-the-art approaches - trained with 86% fewer parameters but achieving 53% and 19% improvement in FD and CS, respectively.
updated: Mon Aug 21 2023 07:51:00 GMT+0000 (UTC)
published: Fri Aug 18 2023 04:49:38 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト