単眼ビデオを考えると、静的環境を回復しながら動的オブジェクトをセグメント化および分離することは、機械知能で広く研究されている問題です。既存のソリューションは通常、イメージドメインでこの問題に取り組み、パフォーマンスと環境の理解を制限します。 Decoupled Dynamic Neural Radiance Field(D ^ 2NeRF)を紹介します。これは、単眼ビデオを撮影し、静止した背景から影を含む移動オブジェクトを分離する3Dシーン表現を学習する自己監視アプローチです。私たちの方法は、移動するオブジェクトと静的な背景を2つの別々のニューラル放射フィールドで表し、1つだけで時間的な変化を許容します。このアプローチの素朴な実装は、前者の表現が本質的により一般的であり、過剰適合しやすいため、動的コンポーネントが静的コンポーネントを引き継ぐことにつながります。この目的のために、現象の正しい分離を促進するための新しい損失を提案します。さらに、動的に移動する影を検出して分離するためのシャドウフィールドネットワークを提案します。さまざまな動的オブジェクトと影を含む新しいデータセットを紹介し、動的および静的3Dオブジェクトの分離、オクルージョンと影の除去、および移動オブジェクトの画像セグメンテーションにおいて、この方法が最先端のアプローチよりも優れたパフォーマンスを実現できることを示します。
Given a monocular video, segmenting and decoupling dynamic objects while recovering the static environment is a widely studied problem in machine intelligence. Existing solutions usually approach this problem in the image domain, limiting their performance and understanding of the environment. We introduce Decoupled Dynamic Neural Radiance Field (D^2NeRF), a self-supervised approach that takes a monocular video and learns a 3D scene representation which decouples moving objects, including their shadows, from the static background. Our method represents the moving objects and the static background by two separate neural radiance fields with only one allowing for temporal changes. A naive implementation of this approach leads to the dynamic component taking over the static one as the representation of the former is inherently more general and prone to overfitting. To this end, we propose a novel loss to promote correct separation of phenomena. We further propose a shadow field network to detect and decouple dynamically moving shadows. We introduce a new dataset containing various dynamic objects and shadows and demonstrate that our method can achieve better performance than state-of-the-art approaches in decoupling dynamic and static 3D objects, occlusion and shadow removal, and image segmentation for moving objects.