arXiv reaDer
生成モデル事前とのゼロショット画像調和
Zero-Shot Image Harmonization with Generative Model Prior
最近の画像調和手法は有望な結果を示しています。ただし、これらの作業は多数の合成画像に大きく依存しているため、トレーニング段階ではコストがかかり、未見の画像に一般化できないことがよくあります。この論文では、人間の行動から教訓を引き出し、ゼロショット画像調和手法を考案します。具体的には、調和処理では、主に人間が調和のとれた画像に関する長期の事前情報を利用し、その事前情報に近い合成画像を作成します。これを模倣するために、自然画像の事前学習済みの生成モデルを利用します。調和の方向性の指針として、画像環境を適切に説明するために最適化された注意制約テキストを提案します。前景のコンテンツ構造を保持するために、さらにいくつかの設計が導入されています。結果として得られるフレームワークは人間の行動と非常に一致しており、面倒なトレーニングを行わなくても調和のとれた結果を達成できます。広範な実験により、私たちのアプローチの有効性が実証され、いくつかの興味深い応用例も検討されました。
Recent image harmonization methods have demonstrated promising results. However, due to their heavy reliance on a large number of composite images, these works are expensive in the training phase and often fail to generalize to unseen images. In this paper, we draw lessons from human behavior and come up with a zero-shot image harmonization method. Specifically, in the harmonization process, a human mainly utilizes his long-term prior on harmonious images and makes a composite image close to that prior. To imitate that, we resort to pretrained generative models for the prior of natural images. For the guidance of the harmonization direction, we propose an Attention-Constraint Text which is optimized to well illustrate the image environments. Some further designs are introduced for preserving the foreground content structure. The resulting framework, highly consistent with human behavior, can achieve harmonious results without burdensome training. Extensive experiments have demonstrated the effectiveness of our approach, and we have also explored some interesting applications.
updated: Mon Jul 17 2023 00:56:21 GMT+0000 (UTC)
published: Mon Jul 17 2023 00:56:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト