arXiv reaDer
屋内3Dシーンのシンプルで効果的な合成
Simple and Effective Synthesis of Indoor 3D Scenes
1つまたは複数の画像から没入型3D屋内シーンを合成する問題を研究します。私たちの目的は、3Dの一貫性を維持しながら、入力画像をはるかに超えて外挿する視点を含む、斬新な視点から高解像度の画像とビデオを生成することです。既存のアプローチは非常に複雑で、多くの個別にトレーニングされたステージとコンポーネントがあります。単純な代替案を提案します。不完全な点群の再投影から完全な高解像度RGB-D画像に直接マッピングする画像間GANです。 Matterport3DおよびRealEstate10Kデータセットでは、人間が評価した場合、およびFIDスコアで、私たちのアプローチは以前の作業を大幅に上回っています。さらに、私たちのモデルが生成データ拡張に役立つことを示します。私たちのモデルによって空間的に摂動された軌道で訓練された視覚と言語のナビゲーション(VLN)エージェントは、R2Rベンチマークの最先端のベースラインよりも成功率を最大1.5%向上させます。私たちのコードは、生成データの拡張と、ダウンストリームのロボット工学および具体化されたAIタスクへのアプリケーションを容易にするために利用できるようになります。
We study the problem of synthesizing immersive 3D indoor scenes from one or more images. Our aim is to generate high-resolution images and videos from novel viewpoints, including viewpoints that extrapolate far beyond the input images while maintaining 3D consistency. Existing approaches are highly complex, with many separately trained stages and components. We propose a simple alternative: an image-to-image GAN that maps directly from reprojections of incomplete point clouds to full high-resolution RGB-D images. On the Matterport3D and RealEstate10K datasets, our approach significantly outperforms prior work when evaluated by humans, as well as on FID scores. Further, we show that our model is useful for generative data augmentation. A vision-and-language navigation (VLN) agent trained with trajectories spatially-perturbed by our model improves success rate by up to 1.5% over a state of the art baseline on the R2R benchmark. Our code will be made available to facilitate generative data augmentation and applications to downstream robotics and embodied AI tasks.
updated: Wed Apr 06 2022 17:54:46 GMT+0000 (UTC)
published: Wed Apr 06 2022 17:54:46 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト