ポートレート生成を介してテキスト属性を視覚的に説明するための新しいアプローチ、MUSEを提案します。 MUSEは、被写体の写真から抽出された顔の特徴に加えて、テキストで記述された一連の属性を入力として受け取ります。被験者のプロフィール、感情、ストーリー、環境からのインスピレーションを表す11の属性タイプを提案します。テキスト属性を受け入れるように画像から画像への生成モデルを拡張することにより、新しいスタック型ニューラルネットワークアーキテクチャを提案します。実験によると、私たちのアプローチは、テキスト属性を使用せずにいくつかの最先端の方法を大幅に上回り、開始スコアスコアは6%増加し、フレシェ開始距離(FID)スコアは11%減少しました。また、生成されたポートレートが対象の属性を保持しているかどうかを評価するための新しい属性再構成メトリックを提案します。実験によると、私たちのアプローチは78%のテキスト属性を正確に示すことができ、MUSEがより創造的で表現力豊かな方法で主題を捉えるのにも役立ちます。
We propose a novel approach, MUSE, to illustrate textual attributes visually via portrait generation. MUSE takes a set of attributes written in text, in addition to facial features extracted from a photo of the subject as input. We propose 11 attribute types to represent inspirations from a subject's profile, emotion, story, and environment. We propose a novel stacked neural network architecture by extending an image-to-image generative model to accept textual attributes. Experiments show that our approach significantly outperforms several state-of-the-art methods without using textual attributes, with Inception Score score increased by 6% and Fréchet Inception Distance (FID) score decreased by 11%, respectively. We also propose a new attribute reconstruction metric to evaluate whether the generated portraits preserve the subject's attributes. Experiments show that our approach can accurately illustrate 78% textual attributes, which also help MUSE capture the subject in a more creative and expressive way.