画像の修復は劣決定逆問題であり、自然に多様なコンテンツが欠落または破損した領域を現実的に埋めることができます。畳み込みニューラル ネットワーク (CNN) を使用した一般的なアプローチでは、視覚的に快適なコンテンツを合成できますが、CNN はグローバルな特徴をキャプチャするための認識フィールドが限られているという問題があります。画像レベルの注意により、トランスフォーマーは、長距離の依存関係をモデル化し、ピクセル シーケンス分布の自己回帰モデリングを使用して多様なコンテンツを生成することを可能にします。ただし、破損した画像領域は任意の方向からのコンテキストを持つ任意の形状を持つ可能性があるため、自己回帰トランスフォーマーの一方向の注意は最適ではありません。画像修復用の新しい双方向自己回帰トランスフォーマー (BAT) を導入する革新的な画像修復フレームワークである BAT-Fill を提案します。 BAT はトランスフォーマーを利用して自己回帰分布を学習するため、当然ながら欠落コンテンツの多様な生成が可能になります。さらに、BERT のようなマスクされた言語モデルが組み込まれているため、欠落している領域のコンテキスト情報を双方向にモデル化して、画像の完成度を高めることができます。複数のデータセットに対する広範な実験は、BAT-Fill が定性的および定量的に画像修復において優れた多様性と忠実度を達成することを示しています。
Image inpainting is an underdetermined inverse problem, which naturally allows diverse contents to fill up the missing or corrupted regions realistically. Prevalent approaches using convolutional neural networks (CNNs) can synthesize visually pleasant contents, but CNNs suffer from limited perception fields for capturing global features. With image-level attention, transformers enable to model long-range dependencies and generate diverse contents with autoregressive modeling of pixel-sequence distributions. However, the unidirectional attention in autoregressive transformers is suboptimal as corrupted image regions may have arbitrary shapes with contexts from any direction. We propose BAT-Fill, an innovative image inpainting framework that introduces a novel bidirectional autoregressive transformer (BAT) for image inpainting. BAT utilizes the transformers to learn autoregressive distributions, which naturally allows the diverse generation of missing contents. In addition, it incorporates the masked language model like BERT, which enables bidirectionally modeling of contextual information of missing regions for better image completion. Extensive experiments over multiple datasets show that BAT-Fill achieves superior diversity and fidelity in image inpainting qualitatively and quantitatively.