arXiv reaDer
ニューラル ラディアンス フィールド コードブック
Neural Radiance Field Codebooks
世界の合成表現は、高レベルのシーンの理解と下流のタスクへの効率的な転送を可能にするための有望なステップです。複雑なシーンやタスクのそのような表現を学習することは、未解決の課題のままです。この目標に向けて、ニューラル ラディアンス フィールド コードブック (NRC) を導入します。これは、新しいビューの再構築を通じてオブジェクト中心の表現を学習するためのスケーラブルな方法です。 NRC は、ボリューム レンダラーによってデコードされたオブジェクト コードの辞書を使用して、新しいビューからシーンを再構築することを学習します。これにより、下流のタスクに転送可能な、シーン全体で繰り返される視覚的および幾何学的パターンの発見が可能になります。 NRC 表現が THOR のオブジェクト ナビゲーションにうまく移行し、2D および 3D 表現の学習方法を 3.1% の成功率で上回ることを示します。私たちのアプローチが、以前の方法よりも優れた、より複雑な合成 (THOR) および実際のシーン (NYU Depth) の教師なしセグメンテーションを実行できることを示します (29% の相対的改善)。最後に、NRC が THOR で 5.5% の精度で深度順序付けのタスクを改善することを示します。
Compositional representations of the world are a promising step towards enabling high-level scene understanding and efficient transfer to downstream tasks. Learning such representations for complex scenes and tasks remains an open challenge. Towards this goal, we introduce Neural Radiance Field Codebooks (NRC), a scalable method for learning object-centric representations through novel view reconstruction. NRC learns to reconstruct scenes from novel views using a dictionary of object codes which are decoded through a volumetric renderer. This enables the discovery of reoccurring visual and geometric patterns across scenes which are transferable to downstream tasks. We show that NRC representations transfer well to object navigation in THOR, outperforming 2D and 3D representation learning methods by 3.1% success rate. We demonstrate that our approach is able to perform unsupervised segmentation for more complex synthetic (THOR) and real scenes (NYU Depth) better than prior methods (29% relative improvement). Finally, we show that NRC improves on the task of depth ordering by 5.5% accuracy in THOR.
updated: Tue Jan 10 2023 18:03:48 GMT+0000 (UTC)
published: Tue Jan 10 2023 18:03:48 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト