言語ガイド付き画像修復は、テキストのガイダンスの下で画像の欠陥領域を埋めることを目的としていますが、欠陥のない領域は変更されません。しかしながら、既存のモデルの符号化プロセスは、欠陥領域の受容的な広がりまたは非欠陥領域の情報損失のいずれかに悩まされ、視覚的に魅力のない修復結果を生じさせる。上記の問題に対処するために、この論文は、多視点シーケンスツーシーケンス(MP-S2S)を備えた欠陥のないVQGAN(DF-VQGAN)を組み込むことによってNÜWA-LIPを提案します。特に、DF-VQGANは、受容拡散を制御するための相対推定を導入し、情報を保護するために対称接続を採用しています。 MP-S2Sは、低レベルのピクセルと高レベルのトークンの両方を含む、補完的な観点からの視覚情報をさらに強化します。実験によると、DF-VQGANはVQGANよりも堅牢性が高いことが示されています。モデルの修復性能を評価するために、3つのオープンドメインベンチマークを作成しました。NÜWA-LIPは、最近の強力なベースラインよりも優れています。
Language guided image inpainting aims to fill in the defective regions of an image under the guidance of text while keeping non-defective regions unchanged. However, the encoding process of existing models suffers from either receptive spreading of defective regions or information loss of non-defective regions, giving rise to visually unappealing inpainting results. To address the above issues, this paper proposes NÜWA-LIP by incorporating defect-free VQGAN (DF-VQGAN) with multi-perspective sequence to sequence (MP-S2S). In particular, DF-VQGAN introduces relative estimation to control receptive spreading and adopts symmetrical connections to protect information. MP-S2S further enhances visual information from complementary perspectives, including both low-level pixels and high-level tokens. Experiments show that DF-VQGAN performs more robustness than VQGAN. To evaluate the inpainting performance of our model, we built up 3 open-domain benchmarks, where NÜWA-LIP is also superior to recent strong baselines.