arXiv reaDer
Points2Sound:3Dポイントクラウドシーンを使用したモノラルからバイノーラルオーディオまで
Points2Sound: From mono to binaural audio using 3D point cloud scenes
拡張現実(AR)および仮想現実(VR)アプリケーションの人々に意味のある没入型の体験をもたらすには、視覚的な対応物と一致するバイノーラルサウンドが不可欠です。最近の作品は、2D視覚情報をガイダンスとして使用してモノラルからバイノーラルオーディオを生成する可能性を示しています。 3D視覚情報を使用すると、VR / ARアプリケーションの仮想オーディオシーンをより正確に表現できる場合があります。この論文では、3Dポイントクラウドシーンを使用してモノラルオーディオからバイノーラルバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案します。具体的には、Points2Soundは、点群シーンから視覚的特徴を抽出し、波形ドメインで動作するオーディオネットワークを調整して、バイノーラルバージョンを合成するビジョンネットワークで構成されます。定量的評価と知覚的評価の両方が、最近の2Dモノからバイノーラルモデルに基づいて、提案されたモデルが参照ケースよりも優先されることを示しています。
Binaural sound that matches the visual counterpart is crucial to bring meaningful and immersive experiences to people in augmented reality (AR) and virtual reality (VR) applications. Recent works have shown the possibility to generate binaural audio from mono using 2D visual information as guidance. Using 3D visual information may allow for a more accurate representation of a virtual audio scene for VR/AR applications. This paper proposes Points2Sound, a multi-modal deep learning model which generates a binaural version from mono audio using 3D point cloud scenes. Specifically, Points2Sound consist of a vision network which extracts visual features from the point cloud scene to condition an audio network, which operates in the waveform domain, to synthesize the binaural version. Both quantitative and perceptual evaluations indicate that our proposed model is preferred over a reference case, based on a recent 2D mono-to-binaural model.
updated: Mon Apr 26 2021 10:44:01 GMT+0000 (UTC)
published: Mon Apr 26 2021 10:44:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト