最近の画像修復方法は大きな進歩を遂げましたが、複雑な画像の大きな穴を処理するときに、もっともらしい画像構造を生成するのに苦労することがよくあります。これは、画像の長距離依存性と高レベルのセマンティクスの両方をキャプチャできる効果的なネットワーク構造が不足していることが一因です。カスケード変調GAN(CM-GAN)を提案します。これは、穴のある入力画像からマルチスケールの特徴表現を抽出するフーリエ畳み込みブロックを備えたエンコーダーと、新しいカスケードグローバル空間変調を備えたデュアルストリームデコーダーで構成される新しいネットワーク設計です。各スケールレベルでブロックします。各デコーダーブロックでは、最初にグローバル変調を適用して、粗くセマンティックを意識した構造合成を実行し、次に空間変調を適用して、空間適応方式で特徴マップをさらに調整します。さらに、ネットワークが穴の内部で新しいオブジェクトを幻覚化するのを防ぎ、実際のシナリオでのオブジェクト削除タスクのニーズを満たすために、オブジェクト認識トレーニングスキームを設計します。私たちの方法が定量的および定性的評価の両方で既存の方法を大幅に上回っていることを示すために、広範な実験が行われています。プロジェクトページを参照してください:https://github.com/htzheng/CM-GAN-Inpainting。
Recent image inpainting methods have made great progress but often struggle to generate plausible image structures when dealing with large holes in complex images. This is partially due to the lack of effective network structures that can capture both the long-range dependency and high-level semantics of an image. We propose cascaded modulation GAN (CM-GAN), a new network design consisting of an encoder with Fourier convolution blocks that extract multi-scale feature representations from the input image with holes and a dual-stream decoder with a novel cascaded global-spatial modulation block at each scale level. In each decoder block, global modulation is first applied to perform coarse and semantic-aware structure synthesis, followed by spatial modulation to further adjust the feature map in a spatially adaptive fashion. In addition, we design an object-aware training scheme to prevent the network from hallucinating new objects inside holes, fulfilling the needs of object removal tasks in real-world scenarios. Extensive experiments are conducted to show that our method significantly outperforms existing methods in both quantitative and qualitative evaluation. Please refer to the project page: https://github.com/htzheng/CM-GAN-Inpainting.