まったく未知のキャプチャ条件下でのオブジェクトの逆レンダリングは、コンピュータビジョンとグラフィックスの基本的な課題です。 NeRFなどのニューラルアプローチは、新しいビュー合成でフォトリアリスティックな結果を達成しましたが、既知のカメラポーズが必要です。未知のカメラポーズでこの問題を解決するには、形状、輝き、ポーズを共同で最適化する必要があるため、非常に困難です。この問題は、入力画像がさまざまな背景や照明で野生でキャプチャされた場合に悪化します。標準的なポーズ推定技術は、画像間の推定された対応が非常に少ないため、実際のこのような画像コレクションでは失敗します。さらに、NeRFは、放射率(反射率と照明の積)で動作するため、どの照明下でもシーンを再照明することはできません。形状、BRDF、および画像ごとのカメラのポーズと照明を推定するための共同最適化フレームワークを提案します。私たちの方法は、オブジェクトの実際のオンライン画像コレクションで機能し、AR/VRなどのいくつかのユースケース向けに再照明可能な3Dアセットを生成します。私たちの知る限り、私たちの方法は、最小限のユーザー操作でこの厳しく制約のないタスクに取り組む最初の方法です。プロジェクトページ:https://markboss.me/publication/2022-samurai/ビデオ:https://youtu.be/LlYuGDjXp-8
Inverse rendering of an object under entirely unknown capture conditions is a fundamental challenge in computer vision and graphics. Neural approaches such as NeRF have achieved photorealistic results on novel view synthesis, but they require known camera poses. Solving this problem with unknown camera poses is highly challenging as it requires joint optimization over shape, radiance, and pose. This problem is exacerbated when the input images are captured in the wild with varying backgrounds and illuminations. Standard pose estimation techniques fail in such image collections in the wild due to very few estimated correspondences across images. Furthermore, NeRF cannot relight a scene under any illumination, as it operates on radiance (the product of reflectance and illumination). We propose a joint optimization framework to estimate the shape, BRDF, and per-image camera pose and illumination. Our method works on in-the-wild online image collections of an object and produces relightable 3D assets for several use-cases such as AR/VR. To our knowledge, our method is the first to tackle this severely unconstrained task with minimal user interaction. Project page: https://markboss.me/publication/2022-samurai/ Video: https://youtu.be/LlYuGDjXp-8