Pixel-aligned Implicit Function(PIFu)を導入します。これは、2D画像のピクセルを対応する3Dオブジェクトのグローバルコンテキストにローカルに整列させる非常に効果的な暗黙的な表現です。 PIFuを使用して、1つの画像、およびオプションで複数の入力画像から3D表面とテクスチャの両方を推測できる、非常に詳細な衣服をデジタル化するためのエンドツーエンドの深層学習方法を提案します。ヘアスタイル、衣服などの非常に複雑な形状、およびそれらのバリエーションや変形は、統一された方法でデジタル化できます。 3Dディープラーニングに使用される既存の表現と比較して、PIFuは、人の背中などのほとんど見えない領域を含む高解像度のサーフェスを生成できます。特に、ボクセル表現とは異なり、メモリ効率が高く、任意のトポロジを処理でき、結果の表面は入力画像と空間的に整列します。さらに、以前の手法は単一の画像または複数のビューを処理するように設計されていましたが、PIFuは任意の数のビューに自然に拡張されます。 DeepFashionデータセットからの現実世界の画像の高解像度で堅牢な再構築を示します。DeepFashionデータセットには、さまざまな挑戦的な衣服の種類が含まれています。私たちの方法は、公共のベンチマークで最先端のパフォーマンスを達成し、単一の画像から衣服を着た人間のデジタル化の以前の作業よりも優れています。
We introduce Pixel-aligned Implicit Function (PIFu), a highly effective implicit representation that locally aligns pixels of 2D images with the global context of their corresponding 3D object. Using PIFu, we propose an end-to-end deep learning method for digitizing highly detailed clothed humans that can infer both 3D surface and texture from a single image, and optionally, multiple input images. Highly intricate shapes, such as hairstyles, clothing, as well as their variations and deformations can be digitized in a unified way. Compared to existing representations used for 3D deep learning, PIFu can produce high-resolution surfaces including largely unseen regions such as the back of a person. In particular, it is memory efficient unlike the voxel representation, can handle arbitrary topology, and the resulting surface is spatially aligned with the input image. Furthermore, while previous techniques are designed to process either a single image or multiple views, PIFu extends naturally to arbitrary number of views. We demonstrate high-resolution and robust reconstructions on real world images from the DeepFashion dataset, which contains a variety of challenging clothing types. Our method achieves state-of-the-art performance on a public benchmark and outperforms the prior work for clothed human digitization from a single image.