arXiv reaDer
スパースビューから服を着た人間の暗黙の3D表現を学習する
Learning Implicit 3D Representations of Dressed Humans from Sparse Views
最近、データ駆動型のシングルビュー再構成法は、3D服を着た人間のモデリングにおいて大きな進歩を示しています。ただし、このような方法は、単一ビュー入力に固有の深さのあいまいさとオクルージョンに大きく悩まされます。このホワイトペーパーでは、追加のビューを使用して単一ビューの入力を持ち上げることでこのような問題に対処し、複数のビューからの情報を適切に活用するための最良の戦略を調査します。スパースカメラビューから服を着た人間の暗黙の3D表現を学習するエンドツーエンドのアプローチを提案します。具体的には、2つの主要なコンポーネントを紹介します。1つは、いくつかの視点から視覚情報を集約することを学習する注意ベースの融合レイヤーです。 2つ目は、マルチビューコンテキストでローカル3Dパターンをエンコードするメカニズムです。実験では、提案されたアプローチが、定量的および定性的に標準データの最先端を上回っていることを示しています。さらに、マルチカメラプラットフォームで取得した実際のデータにこの方法を適用し、劇的に少ないビューでマルチビューステレオに匹敵する結果を得ることができることを示します。
Recently, data-driven single-view reconstruction methods have shown great progress in modeling 3D dressed humans. However, such methods suffer heavily from depth ambiguities and occlusions inherent to single view inputs. In this paper, we address such issues by lifting the single-view input with additional views and investigate the best strategy to suitably exploit information from multiple views. We propose an end-to-end approach that learns an implicit 3D representation of dressed humans from sparse camera views. Specifically, we introduce two key components: first an attention-based fusion layer that learns to aggregate visual information from several viewpoints; second a mechanism that encodes local 3D patterns under the multi-view context. In the experiments, we show the proposed approach outperforms the state of the art on standard data both quantitatively and qualitatively. Additionally, we apply our method on real data acquired with a multi-camera platform and demonstrate our approach can obtain results comparable to multi-view stereo with dramatically less views.
updated: Fri Apr 16 2021 10:20:26 GMT+0000 (UTC)
published: Fri Apr 16 2021 10:20:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト