画像補完は、マスクされた画像の欠落領域をもっともらしいコンテンツで埋めることを目的とするタスクです。しかし、既存の画像補完方法は、適切な視覚的インスタンスを幻覚させる代わりに、周囲のテクスチャで欠落領域を埋める傾向があります。シーンのコンテキスト。この作業では、Refill と呼ばれる新しい画像補完モデルを提案します。これは、元のコンテキストとうまく調和し、したがって保存される、欠落しているインスタンスを幻覚させるものです。 Refill はまず、型、可視インスタンスの場所、欠落している領域の場所を考慮するトランスフォーマー アーキテクチャを採用します。次に、Refill は欠落している領域内で欠落している前景と背景のセマンティック セグメンテーション マスクを完成させ、シームレスな境界で欠落しているコンテンツを生成するためのピクセル レベルのセマンティックおよび構造ガイダンスを提供します。最後に、完成したセグメンテーション マスクを使用して Refill の画像合成ブロックを調整し、写実的なコンテンツを生成して不足している領域を埋めます。実験結果は、さまざまな自然画像に対する最先端の画像補完アプローチに対する Refill の優位性を示しています。
Image completion is a task that aims to fill in the missing region of a masked image with plausible contents.However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed Refill, that hallucinates the missing instance that harmonizes well with - and thus preserves - the original context. Refill first adopts a transformer architecture that considers the types, locations of the visible instances, and the location of the missing region. Then, Refill completes the missing foreground and background semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance to generate missing contents with seamless boundaries. Finally, we condition the image synthesis blocks of Refill using the completed segmentation mask to generate photo-realistic contents to fill out the missing region. Experimental results show the superiority of Refill over state-of-the-art image completion approaches on various natural images.