ニューラル フィールドの進歩により、静的および動的シーンの形状と外観を忠実にキャプチャできるようになりました。ただし、その機能は、アルゴリズム上の課題と大規模な実世界のデータセットの欠如により、ピクセルやメッシュなどの表現によって提供される機能よりも遅れています。私たちは、テーブルスケールのシーンに関する同期されたマルチモーダルなビジュアル、オーディオ、およびテキスト情報を備えた現実世界の 360 度ダイナミックビジュアルオーディオデータセットである DiVA-360 を使用して、データセットの制限に対処します。これには、120 FPS の 53 台の RGB カメラと 6 つのマイクを使用した新しいハードウェア システムを使用してキャプチャされた、11 カテゴリにわたる 46 の動的シーン、30 の静的シーン、および 95 の静的オブジェクトが含まれており、合計 860 万の画像フレームと 1360 秒の動的データが含まれています。すべてのシーンの詳細なテキスト説明、前景と背景のセグメンテーション マスク、静的オブジェクトのカテゴリ固有の 3D ポーズの位置合わせ、および比較のためのメトリクスを提供します。データ、ハードウェア、ソフトウェア、コードは https://diva360.github.io/ で入手できます。
Advances in neural fields are enabling high-fidelity capture of the shape and appearance of static and dynamic scenes. However, their capabilities lag behind those offered by representations such as pixels or meshes due to algorithmic challenges and the lack of large-scale real-world datasets. We address the dataset limitation with DiVA-360, a real-world 360 dynamic visual-audio dataset with synchronized multimodal visual, audio, and textual information about table-scale scenes. It contains 46 dynamic scenes, 30 static scenes, and 95 static objects spanning 11 categories captured using a new hardware system using 53 RGB cameras at 120 FPS and 6 microphones for a total of 8.6M image frames and 1360 s of dynamic data. We provide detailed text descriptions for all scenes, foreground-background segmentation masks, category-specific 3D pose alignment for static objects, as well as metrics for comparison. Our data, hardware and software, and code are available at https://diva360.github.io/.