arXiv reaDer
StreetSurf: マルチビューの暗黙的サーフェス再構築をストリート ビューに拡張
StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views
我々は、StreetSurf と呼ばれる新しいマルチビュー暗黙的表面再構成技術を紹介します。これは、必ずしも LiDAR データを必要とせずに、Waymo 認識シーケンスなどの広く使用されている自動運転データセット内のストリートビュー画像に容易に適用できます。ニューラル レンダリングの研究が急速に拡大するにつれ、ストリート ビューへの統合に関心が集まり始めています。ストリートビューに対する既存のアプローチは、シーンジオメトリの探索をほとんど行わずに新しいビューの合成に主に焦点を当てているか、再構築を調査する際に高密度のLiDARデータに大きく依存しています。どちらも、特に LiDAR データのない設定下では、マルチビューの暗黙的な表面再構成を調査していません。私たちの方法は、従来のオブジェクト中心の神経表面再構成技術を拡張して、非オブジェクト中心の細長いカメラ軌道で撮影された無制限のストリートビューによってもたらされる独特の課題に対処します。境界のない空間を、直方体の境界を揃えて近距離、遠景、空の 3 つの部分に区切り、直方体/超直方体のハッシュ グリッドと道路表面の初期化スキームを適応させて、より精緻でもつれのない表現を実現します。テクスチャのない領域と不十分な視野角から生じる幾何学的誤差にさらに対処するために、汎用の単眼モデルを使用して推定される幾何学的事前分布を採用します。効率的できめの細かいマルチステージ レイ マーチング戦略の実装と組み合わせることで、ストリート ビュー シーケンスごとに単一の RTX3090 GPU を使用して、わずか 1 ~ 2 時間のトレーニング時間内で、ジオメトリと外観の両方で最先端の再構成品質を達成します。さらに、再構成されたインプリシット サーフェスには、レイ トレーシングや LiDAR シミュレーションなどのさまざまな下流タスクに対する豊富な可能性があることを実証します。
We present a novel multi-view implicit surface reconstruction technique, termed StreetSurf, that is readily applicable to street view images in widely-used autonomous driving datasets, such as Waymo-perception sequences, without necessarily requiring LiDAR data. As neural rendering research expands rapidly, its integration into street views has started to draw interests. Existing approaches on street views either mainly focus on novel view synthesis with little exploration of the scene geometry, or rely heavily on dense LiDAR data when investigating reconstruction. Neither of them investigates multi-view implicit surface reconstruction, especially under settings without LiDAR data. Our method extends prior object-centric neural surface reconstruction techniques to address the unique challenges posed by the unbounded street views that are captured with non-object-centric, long and narrow camera trajectories. We delimit the unbounded space into three parts, close-range, distant-view and sky, with aligned cuboid boundaries, and adapt cuboid/hyper-cuboid hash-grids along with road-surface initialization scheme for finer and disentangled representation. To further address the geometric errors arising from textureless regions and insufficient viewing angles, we adopt geometric priors that are estimated using general purpose monocular models. Coupled with our implementation of efficient and fine-grained multi-stage ray marching strategy, we achieve state of the art reconstruction quality in both geometry and appearance within only one to two hours of training time with a single RTX3090 GPU for each street view sequence. Furthermore, we demonstrate that the reconstructed implicit surfaces have rich potential for various downstream tasks, including ray tracing and LiDAR simulation.
updated: Thu Jun 08 2023 07:19:27 GMT+0000 (UTC)
published: Thu Jun 08 2023 07:19:27 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト