物体は、さまざまな摂動、環境条件、リスナーに対する姿勢の下で独特の音を出します。これまでの研究では、シミュレーションで衝撃音と音の伝播をモデル化していましたが、視聴覚学習やシミュレーションと現実のギャップの校正のための、現実の物体の衝撃音場の標準的なデータセットが不足しています。我々は、制御された条件下で記録された実際の物体衝撃音の大規模データセットである RealImpact を紹介します。 RealImpact には、50 の日常的な物体の衝突音の 150,000 件の録音が含まれており、衝突位置、マイクの位置、接触力プロファイル、材質ラベル、RGBD 画像などの詳細な注釈が付けられています。私たちは、現実世界と一致する物体衝突音を推定するための現在のシミュレーション方法への参照としてデータセットを使用する予備的な試みを行います。さらに、聴取者の位置分類と視覚的音響マッチングを含む 2 つのベンチマーク タスクの評価を通じて、音響および視聴覚学習のテストベッドとしてのデータセットの有用性を実証します。
Objects make unique sounds under different perturbations, environment conditions, and poses relative to the listener. While prior works have modeled impact sounds and sound propagation in simulation, we lack a standard dataset of impact sound fields of real objects for audio-visual learning and calibration of the sim-to-real gap. We present RealImpact, a large-scale dataset of real object impact sounds recorded under controlled conditions. RealImpact contains 150,000 recordings of impact sounds of 50 everyday objects with detailed annotations, including their impact locations, microphone locations, contact force profiles, material labels, and RGBD images. We make preliminary attempts to use our dataset as a reference to current simulation methods for estimating object impact sounds that match the real world. Moreover, we demonstrate the usefulness of our dataset as a testbed for acoustic and audio-visual learning via the evaluation of two benchmark tasks, including listener location classification and visual acoustic matching.