arXiv reaDer
画像から深さへ:エコーを使用した深さ予測の改善
Beyond Image to Depth: Improving Depth Prediction using Echoes
マルチモーダルオーディオビジュアルデータを使用して深度を推定する問題に対処します。コウモリやイルカなどの動物がエコーロケーションで物体の距離を推測する能力に触発されて、最近のいくつかの方法では、深さの推定にエコーを利用しています。 RGB画像、バイノーラルエコー、シーン内のさまざまなオブジェクトの推定材料特性を利用した、エンドツーエンドの深層学習ベースのパイプラインを提案します。さまざまなシーン要素の画像、エコー、深度の関係は、これらの要素のプロパティに大きく影響され、この情報を活用するように設計された方法は、オーディオビジュアル入力からの深度推定を大幅に改善できると主張します。オーディオ(エコー)と視覚モダリティを組み合わせてシーンの深さを予測しながら、材料特性を明示的に組み込む新しいマルチモーダル融合手法を提案します。レプリカデータセットでの実験により、提案された方法が最先端の視聴覚深度予測方法と比較してRMSEで28%の改善を得ることが経験的に示されています。より大きなデータセットでの私たちの方法の有効性を実証するために、Matterport3Dでの競争力のあるパフォーマンスを報告し、エコーを使用したマルチモーダル深度予測ベンチマークとして初めて使用することを提案します。また、徹底的なアブレーション実験と定性的結果を用いて提案手法を分析します。コードとモデルはhttps://krantiparida.github.io/projects/bimgdepth.htmlで入手できます。
We address the problem of estimating depth with multi modal audio visual data. Inspired by the ability of animals, such as bats and dolphins, to infer distance of objects with echolocation, some recent methods have utilized echoes for depth estimation. We propose an end-to-end deep learning based pipeline utilizing RGB images, binaural echoes and estimated material properties of various objects within a scene. We argue that the relation between image, echoes and depth, for different scene elements, is greatly influenced by the properties of those elements, and a method designed to leverage this information can lead to significantly improve depth estimation from audio visual inputs. We propose a novel multi modal fusion technique, which incorporates the material properties explicitly while combining audio (echoes) and visual modalities to predict the scene depth. We show empirically, with experiments on Replica dataset, that the proposed method obtains 28% improvement in RMSE compared to the state-of-the-art audio-visual depth prediction method. To demonstrate the effectiveness of our method on larger dataset, we report competitive performance on Matterport3D, proposing to use it as a multimodal depth prediction benchmark with echoes for the first time. We also analyse the proposed method with exhaustive ablation experiments and qualitative results. The code and models are available at https://krantiparida.github.io/projects/bimgdepth.html
updated: Mon Mar 15 2021 15:45:24 GMT+0000 (UTC)
published: Mon Mar 15 2021 15:45:24 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト