大規模なテキストと画像のペアで事前トレーニングされた大規模なテキストから画像へのモデルは、最近画像合成において優れたパフォーマンスを示しています。ただし、画像はプレーン テキストよりも直感的な視覚概念を提供できます。 「希望するビジュアルコンセプトを、ポートレートなどの既存の画像にどのように統合できるのでしょうか?」と疑問に思う人もいるかもしれません。現在の方法では、コンテンツを保存したり、視覚的な概念を効果的に変換したりする機能が欠けているため、この需要を満たすには不十分です。これに触発されて、ソース画像のコンテンツを保存し、単一の参照画像に基づいて視覚概念を翻訳する機能を備えた、ビジュアル コンセプト トランスレーター (VCT) という新しいフレームワークを提案します。提案された VCT には、コンテンツと概念を抽出するコンテンツ概念反転 (CCI) プロセスと、抽出された情報を収集してターゲット画像を取得するコンテンツ概念融合 (CCF) プロセスが含まれています。提案された VCT は、参照画像が 1 つだけあれば、幅広い一般的な画像間の変換タスクを完了し、優れた結果を得ることができます。提案された方法の優位性と有効性を証明するために、広範な実験が行われます。コードは https://github.com/CrystalNeuro/visual-concept-translator で入手できます。
Large-scale text-to-image models pre-trained on massive text-image pairs show excellent performance in image synthesis recently. However, image can provide more intuitive visual concepts than plain text. People may ask: how can we integrate the desired visual concept into an existing image, such as our portrait? Current methods are inadequate in meeting this demand as they lack the ability to preserve content or translate visual concepts effectively. Inspired by this, we propose a novel framework named visual concept translator (VCT) with the ability to preserve content in the source image and translate the visual concepts guided by a single reference image. The proposed VCT contains a content-concept inversion (CCI) process to extract contents and concepts, and a content-concept fusion (CCF) process to gather the extracted information to obtain the target image. Given only one reference image, the proposed VCT can complete a wide range of general image-to-image translation tasks with excellent results. Extensive experiments are conducted to prove the superiority and effectiveness of the proposed methods. Codes are available at https://github.com/CrystalNeuro/visual-concept-translator.