arXiv reaDer
VarietySound: 教師なし情報のもつれの解消による音色制御可能なビデオからサウンドへの生成
VarietySound: Timbre-Controllable Video to Sound Generation via Unsupervised Information Disentanglement
ビデオからサウンドへの生成は、ビデオ入力からリアルで自然なサウンドを生成することを目的としています。しかし、従来の映像音声生成方式では、生成される音色の制御や特殊化が行われておらず、ランダムまたは平均的な音色しか生成できなかったため、これらの方式では目的の音色が得られないことがあるという問題がありました。この論文では、ビデオ入力とリファレンスオーディオサンプルを与えられた特定の音色でサウンドを生成するタスクを提示します。このタスクを解決するために、各ターゲット サウンド オーディオを時間情報、音響情報、および背景情報の 3 つのコンポーネントに分解します。最初に 3 つのエンコーダーを使用して、これらのコンポーネントをそれぞれエンコードします。1) 一時的なエンコーダーで一時的な情報をエンコードします。 2) 音色情報をエンコードするための音響エンコーダ。これは、元のオーディオを入力として受け取り、一時的な破損操作によってその一時的な情報を破棄します。 3) バックグラウンド エンコーダーは、元のオーディオのバックグラウンド部分を入力として使用して、残差またはバックグラウンド サウンドをエンコードします。生成された結果の品質と時間の整合性を向上させるために、敵対的トレーニングにメル弁別器と時間弁別器も採用しています。 VAS データセットに関する実験結果は、この方法が、ビデオ内のイベントとの同期が良好で、参照オーディオとの音色の類似性が高い高品質のオーディオ サンプルを生成できることを示しています。
Video to sound generation aims to generate realistic and natural sound given a video input. However, previous video-to-sound generation methods can only generate a random or average timbre without any controls or specializations of the generated sound timbre, leading to the problem that people cannot obtain the desired timbre under these methods sometimes. In this paper, we pose the task of generating sound with a specific timbre given a video input and a reference audio sample. To solve this task, we disentangle each target sound audio into three components: temporal information, acoustic information, and background information. We first use three encoders to encode these components respectively: 1) a temporal encoder to encode temporal information, which is fed with video frames since the input video shares the same temporal information as the original audio; 2) an acoustic encoder to encode timbre information, which takes the original audio as input and discards its temporal information by a temporal-corrupting operation; and 3) a background encoder to encode the residual or background sound, which uses the background part of the original audio as input. To make the generated result achieve better quality and temporal alignment, we also adopt a mel discriminator and a temporal discriminator for the adversarial training. Our experimental results on the VAS dataset demonstrate that our method can generate high-quality audio samples with good synchronization with events in video and high timbre similarity with the reference audio.
updated: Sat Nov 19 2022 11:12:01 GMT+0000 (UTC)
published: Sat Nov 19 2022 11:12:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト