Neural Radiance Field(NeRF)は、通常は単一のスケールで、3Dオブジェクトと制御されたシーンのモデリングで卓越したパフォーマンスを実現しました。この作業では、都市の概要をキャプチャする衛星レベルから、建築の複雑な詳細を示す地上レベルの画像まで、さまざまなビューでNeRFを都市スケールに移行する最初の試みを行います。シーンまでのカメラ距離が広いため、さまざまなレベルの詳細と空間カバレッジを備えたマルチスケールデータが生成されます。これは、バニラNeRFに大きな課題を投げかけ、妥協した結果にバイアスをかけます。これらの問題に対処するために、NeRFモデルとトレーニングセットを同期的に拡張する進歩的な学習パラダイムであるCityNeRFを紹介します。遠方のビューを浅いベースブロックに適合させることから始めて、トレーニングが進むにつれて、ますます近づくビューの新たな詳細に対応するために新しいブロックが追加されます。この戦略は、位置エンコーディングで高周波チャネルを効果的にアクティブ化し、トレーニングが進むにつれてより複雑な詳細を展開します。大幅に変化するビューを持つ多様な都市規模のシーンのモデリングにおけるCityNeRFの優位性と、さまざまな詳細レベルでのビューのレンダリングのサポートを示します。
Neural Radiance Field (NeRF) has achieved outstanding performance in modeling 3D objects and controlled scenes, usually under a single scale. In this work, we make the first attempt to bring NeRF to city-scale, with views ranging from satellite-level that captures the overview of a city, to ground-level imagery showing complex details of an architecture. The wide span of camera distance to the scene yields multi-scale data with different levels of detail and spatial coverage, which casts great challenges to vanilla NeRF and biases it towards compromised results. To address these issues, we introduce CityNeRF, a progressive learning paradigm that grows the NeRF model and training set synchronously. Starting from fitting distant views with a shallow base block, as training progresses, new blocks are appended to accommodate the emerging details in the increasingly closer views. The strategy effectively activates high-frequency channels in the positional encoding and unfolds more complex details as the training proceeds. We demonstrate the superiority of CityNeRF in modeling diverse city-scale scenes with drastically varying views, and its support for rendering views in different levels of detail.