ビデオから新しい照明条件下でシーンを現実的かつ自由視点でレンダリングできるモデルを構築する方法を示します。私たちの手法 -- UrbanIR: 都市シーンの逆レンダリング -- は、ビデオから逆グラフィックス表現を計算します。 UrbanIR は、未知の照明を使用した境界のない屋外シーンの 1 つのビデオから、形状、アルベド、可視性、太陽と空の照明を共同で推測します。 UrbanIR は、車に取り付けられたカメラからのビデオを使用します (典型的な NeRF スタイルの推定では同じ地点の多くのビューが使用されるのとは対照的です)。その結果、標準的な方法ではジオメトリの推定値が不十分になり (屋根など)、多数の「浮き」が発生します。逆グラフィックス推論でのエラーにより、強力なレンダリングアーティファクトが発生する可能性があります。 UrbanIR は、新しい損失を使用して、これらおよびその他のエラーの原因を制御します。 UrbanIR は、新しい損失を使用して、元のシーンのシャドウ ボリュームを非常に適切に推定します。結果として得られる表現により、制御可能な編集が容易になり、再照明されたシーンや挿入されたオブジェクトのフォトリアリスティックな自由視点レンダリングが実現します。定性的評価では、最先端技術に比べて大幅な改善が見られます。
We show how to build a model that allows realistic, free-viewpoint renderings of a scene under novel lighting conditions from video. Our method -- UrbanIR: Urban Scene Inverse Rendering -- computes an inverse graphics representation from the video. UrbanIR jointly infers shape, albedo, visibility, and sun and sky illumination from a single video of unbounded outdoor scenes with unknown lighting. UrbanIR uses videos from cameras mounted on cars (in contrast to many views of the same points in typical NeRF-style estimation). As a result, standard methods produce poor geometry estimates (for example, roofs), and there are numerous ''floaters''. Errors in inverse graphics inference can result in strong rendering artifacts. UrbanIR uses novel losses to control these and other sources of error. UrbanIR uses a novel loss to make very good estimates of shadow volumes in the original scene. The resulting representations facilitate controllable editing, delivering photorealistic free-viewpoint renderings of relit scenes and inserted objects. Qualitative evaluation demonstrates strong improvements over the state-of-the-art.