インタラクティブインテリジェンスを開発するには、マルチモダリティの認識が不可欠です。この作業では、付随するビデオに対応する欠落しているオーディオセグメントを合成する、視覚情報を注入したオーディオインペインティングの新しいタスクを検討します。成功したインペインタの2つの重要な側面を特定します。(1)生の音声ではなくスペクトログラムを操作することが望ましい。ディープセマンティックイメージの修復の最近の進歩は、従来のオーディオ修復の制限を超えるために活用できます。 (2)視覚的に示された音声を合成するには、音声とビデオの同期を使用して視覚と音声のジョイントフィーチャスペースを学習する必要があります。大規模な研究を促進するために、MUSICデータセットを強化することにより、MUSIC-Extra-Solo(MUSICES)という新しいマルチモダリティ楽器演奏データセットを収集します。広範な実験により、私たちのフレームワークは、視覚的コンテキストの有無にかかわらず、リアルで変化するオーディオセグメントを修復できることが実証されています。さらに重要なことは、私たちの合成されたオーディオセグメントは、対応するビデオと一貫性があり、提案されたVision-Infused Audio Inpainter(VIAI)の有効性を示しています。コード、モデル、データセット、ビデオ結果はhttps://hangz-nju-cuhk.github.io/projects/AudioInpaintingで入手できます
Multi-modality perception is essential to develop interactive intelligence. In this work, we consider a new task of visual information-infused audio inpainting, \ie synthesizing missing audio segments that correspond to their accompanying videos. We identify two key aspects for a successful inpainter: (1) It is desirable to operate on spectrograms instead of raw audios. Recent advances in deep semantic image inpainting could be leveraged to go beyond the limitations of traditional audio inpainting. (2) To synthesize visually indicated audio, a visual-audio joint feature space needs to be learned with synchronization of audio and video. To facilitate a large-scale study, we collect a new multi-modality instrument-playing dataset called MUSIC-Extra-Solo (MUSICES) by enriching MUSIC dataset. Extensive experiments demonstrate that our framework is capable of inpainting realistic and varying audio segments with or without visual contexts. More importantly, our synthesized audio segments are coherent with their video counterparts, showing the effectiveness of our proposed Vision-Infused Audio Inpainter (VIAI). Code, models, dataset and video results are available at https://hangz-nju-cuhk.github.io/projects/AudioInpainting