arXiv reaDer
HairFIT:フローベースのヘアアラインメントとセマンティック領域を意識したインペインティングによるポーズ不変のヘアスタイル転送
HairFIT: Pose-Invariant Hairstyle Transfer via Flow-based Hair Alignment and Semantic-Region-Aware Inpainting
ヘアスタイルの転送は、ソースのヘアスタイルをターゲットのヘアスタイルに変更するタスクです。最近のヘアスタイル転送モデルは、ヘアスタイルの繊細な機能を反映できますが、それでも2つの大きな制限があります。まず、既存の方法では、ソース画像とターゲット画像のポーズが異なる場合(たとえば、視線方向や顔のサイズ)、ヘアスタイルを転送できません。これは、現実の世界で一般的です。また、以前のモデルでは、元の髪の毛によって遮られたソース画像に自明ではない量の領域がある場合、非現実的な画像が生成されます。長い髪を短い髪に変更するときは、長い髪で遮られた肩や背景を修復する必要があります。これらの問題に対処するために、ポーズ不変のヘアスタイル転送のための新しいフレームワーク、HairFITを提案します。私たちのモデルは、1)フローベースのヘアアラインメントと2)ヘアシンセシスの2つのステージで構成されています。ヘアアラインメントの段階では、キーポイントベースのオプティカルフロー推定器を利用して、ターゲットのヘアスタイルをソースのポーズにアラインメントします。次に、セマンティック領域を意識したInpainting Mask(SIM)推定器に基づいて、ヘア合成段階で最終的なヘアスタイル転送画像を生成します。私たちのSIM推定器は、ソース画像内の遮蔽された領域を異なるセマンティック領域に分割して、修復中のそれらの明確な特徴を反映します。モデルの有効性を実証するために、マルチビューデータセット、K-hairstyle、VoxCelebを使用して定量的および定性的な評価を行います。この結果は、HairFITが、これまで達成されたことのない、さまざまなポーズの画像間でヘアスタイルをうまく転送することにより、最先端のパフォーマンスを達成していることを示しています。
Hairstyle transfer is the task of modifying a source hairstyle to a target one. Although recent hairstyle transfer models can reflect the delicate features of hairstyles, they still have two major limitations. First, the existing methods fail to transfer hairstyles when a source and a target image have different poses (e.g., viewing direction or face size), which is prevalent in the real world. Also, the previous models generate unrealistic images when there is a non-trivial amount of regions in the source image occluded by its original hair. When modifying long hair to short hair, shoulders or backgrounds occluded by the long hair need to be inpainted. To address these issues, we propose a novel framework for pose-invariant hairstyle transfer, HairFIT. Our model consists of two stages: 1) flow-based hair alignment and 2) hair synthesis. In the hair alignment stage, we leverage a keypoint-based optical flow estimator to align a target hairstyle with a source pose. Then, we generate a final hairstyle-transferred image in the hair synthesis stage based on Semantic-region-aware Inpainting Mask (SIM) estimator. Our SIM estimator divides the occluded regions in the source image into different semantic regions to reflect their distinct features during the inpainting. To demonstrate the effectiveness of our model, we conduct quantitative and qualitative evaluations using multi-view datasets, K-hairstyle and VoxCeleb. The results indicate that HairFIT achieves a state-of-the-art performance by successfully transferring hairstyles between images of different poses, which has never been achieved before.
updated: Fri Jun 17 2022 06:55:20 GMT+0000 (UTC)
published: Fri Jun 17 2022 06:55:20 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト