Text-to-audio (TTA) 生成は、テキストの説明を基に一般的な音声を合成することを目的とした最近の一般的な問題です。これまでの手法では、潜在拡散モデルを利用して、テキスト埋め込みを条件として潜在空間への音声埋め込みを学習していました。ただし、ビデオ内のオーディオとビジュアル コンテンツ間の同期が無視され、ビデオ フレームからオーディオの不一致が生成される傾向がありました。この研究では、潜在拡散モデル、つまり DiffAVA に基づいた視覚的位置合わせを備えた、斬新でパーソナライズされたテキストからサウンドへの生成アプローチを提案します。これは、凍結されたモダリティ固有のエンコーダーを使用して軽量の視覚的テキスト位置合わせモジュールを簡単に微調整して、視覚的な情報を更新できます。条件として、テキストの埋め込みを整列させます。具体的には、当社の DiffAVA は、マルチヘッド アテンション トランスフォーマーを利用してビデオ特徴から時間情報を集約し、デュアル マルチモーダル残差ネットワークを利用して時間的な視覚表現とテキスト埋め込みを融合します。次に、視覚的に調整されたテキストの埋め込みと音声の特徴を一致させるために、対照的な学習目標が適用されます。 AudioCaps データセットの実験結果は、提案された DiffAVA が視覚的に調整されたテキストからオーディオへの生成において競争力のあるパフォーマンスを達成できることを示しています。
Text-to-audio (TTA) generation is a recent popular problem that aims to synthesize general audio given text descriptions. Previous methods utilized latent diffusion models to learn audio embedding in a latent space with text embedding as the condition. However, they ignored the synchronization between audio and visual content in the video, and tended to generate audio mismatching from video frames. In this work, we propose a novel and personalized text-to-sound generation approach with visual alignment based on latent diffusion models, namely DiffAVA, that can simply fine-tune lightweight visual-text alignment modules with frozen modality-specific encoders to update visual-aligned text embeddings as the condition. Specifically, our DiffAVA leverages a multi-head attention transformer to aggregate temporal information from video features, and a dual multi-modal residual network to fuse temporal visual representations with text embeddings. Then, a contrastive learning objective is applied to match visual-aligned text embeddings with audio features. Experimental results on the AudioCaps dataset demonstrate that the proposed DiffAVA can achieve competitive performance on visual-aligned text-to-audio generation.