仮想現実 (VR) および拡張現実 (AR) アプリケーション用のエンドツーエンドのバイノーラル オーディオ レンダリング アプローチ (Listen2Scene) を紹介します。実環境の 3D モデルの音響効果を生成するために、新しいニューラル ネットワーク ベースのバイノーラル サウンド伝搬方法を提案します。クリーン オーディオまたはドライ オーディオは、生成された音響効果と畳み込み、実際の環境に対応するオーディオをレンダリングできます。 3D シーンのマテリアルとトポロジー情報の両方を使用し、シーン潜在ベクトルを生成するグラフ ニューラル ネットワークを提案します。さらに、条件付き敵対的生成ネットワーク (CGAN) を使用して、シーンの潜在ベクトルから音響効果を生成します。私たちのネットワークは、再構築された 3D メッシュ モデルの穴やその他のアーティファクトを処理できます。効率的なコスト関数をジェネレーター ネットワークに提示して、空間オーディオ効果を組み込みます。ソースとリスナーの位置が与えられると、学習ベースのバイノーラル サウンド伝播アプローチは、NVIDIA GeForce RTX 2080 Ti GPU で 0.1 ミリ秒で音響効果を生成でき、複数のソースを簡単に処理できます。インタラクティブな幾何学的音響伝播アルゴリズムを使用して生成されたバイノーラル音響効果を使用して、アプローチの精度を評価し、実際の音響効果をキャプチャしました。また、知覚評価を実行し、以前の学習ベースの音伝播アルゴリズムを使用してレンダリングされたオーディオと比較して、このアプローチによってレンダリングされたオーディオがより妥当であることを観察しました。
We present an end-to-end binaural audio rendering approach (Listen2Scene) for virtual reality (VR) and augmented reality (AR) applications. We propose a novel neural-network-based binaural sound propagation method to generate acoustic effects for 3D models of real environments. Any clean audio or dry audio can be convolved with the generated acoustic effects to render audio corresponding to the real environment. We propose a graph neural network that uses both the material and the topology information of the 3D scenes and generates a scene latent vector. Moreover, we use a conditional generative adversarial network (CGAN) to generate acoustic effects from the scene latent vector. Our network is able to handle holes or other artifacts in the reconstructed 3D mesh model. We present an efficient cost function to the generator network to incorporate spatial audio effects. Given the source and the listener position, our learning-based binaural sound propagation approach can generate an acoustic effect in 0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle multiple sources. We have evaluated the accuracy of our approach with binaural acoustic effects generated using an interactive geometric sound propagation algorithm and captured real acoustic effects. We also performed a perceptual evaluation and observed that the audio rendered by our approach is more plausible as compared to audio rendered using prior learning-based sound propagation algorithms.