arXiv reaDer
PhotoApp: Photorealistic Appearance Editing of Head Portraits
人間は顔の不一致に非常に敏感であるため、ポートレートの写実的な編集は困難な作業です。ポートレート画像のカメラ視点とシーン照明を高品質で直感的に編集するためのアプローチを紹介します。これには、画像内の人物の全反射率フィールドをキャプチャして制御する方法が必要です。ほとんどの編集アプローチは、ライトステージやカメラステージなどのセットアップでキャプチャされたトレーニングデータを使用した教師あり学習に依存しています。このようなデータセットは、取得するのに費用がかかり、すぐに利用できず、野生のポートレート画像の豊富なバリエーションをすべてキャプチャするわけではありません。さらに、ほとんどの監視対象アプローチは再照明のみに焦点を当てており、カメラの視点を編集することはできません。したがって、それらは反射率フィールドのサブセットのみをキャプチャして制御します。最近、StyleGANの生成モデル空間で操作することにより、ポートレート編集が実証されました。このようなアプローチは直接の監督を必要としませんが、監督されたアプローチと比較した場合、品質が大幅に低下します。この論文では、限られた教師ありトレーニングデータから学習する方法を提示します。トレーニング画像には、髪の毛や背景の変化が少なく、目を閉じた状態で中立的な表情をしている人のみが含まれています。各人物は、一度に150のライト条件で、8つのカメラポーズで撮影されます。画像空間で直接トレーニングする代わりに、StyleGANの潜在空間での変換を学習する教師あり問題を設計します。これは、教師あり学習と生成的敵対的モデリングの最高のものを組み合わせたものです。 StyleGANの事前設定により、さまざまな表現、ヘアスタイル、背景への一般化が可能であることを示します。これにより、野生の画像に対して高品質の写実的な結果が得られ、既存の方法を大幅に上回ります。私たちのアプローチは、イルミネーションとポーズを同時に編集でき、インタラクティブなレートで実行されます。
Photorealistic editing of portraits is a challenging task as humans are very sensitive to inconsistencies in faces. We present an approach for high-quality intuitive editing of the camera viewpoint and scene illumination in a portrait image. This requires our method to capture and control the full reflectance field of the person in the image. Most editing approaches rely on supervised learning using training data captured with setups such as light and camera stages. Such datasets are expensive to acquire, not readily available and do not capture all the rich variations of in-the-wild portrait images. In addition, most supervised approaches only focus on relighting, and do not allow camera viewpoint editing. Thus, they only capture and control a subset of the reflectance field. Recently, portrait editing has been demonstrated by operating in the generative model space of StyleGAN. While such approaches do not require direct supervision, there is a significant loss of quality when compared to the supervised approaches. In this paper, we present a method which learns from limited supervised training data. The training images only include people in a fixed neutral expression with eyes closed, without much hair or background variations. Each person is captured under 150 one-light-at-a-time conditions and under 8 camera poses. Instead of training directly in the image space, we design a supervised problem which learns transformations in the latent space of StyleGAN. This combines the best of supervised learning and generative adversarial modeling. We show that the StyleGAN prior allows for generalisation to different expressions, hairstyles and backgrounds. This produces high-quality photorealistic results for in-the-wild images and significantly outperforms existing methods. Our approach can edit the illumination and pose simultaneously, and runs at interactive rates.
updated: Thu May 13 2021 17:59:43 GMT+0000 (UTC)
published: Sat Mar 13 2021 08:59:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)アソシエイト