この論文では、一般化された画像アウトペインティング問題のために、U-Transformer と呼ばれる新しい変換器ベースの敵対的生成ニューラル ネットワークを開発します。水平外挿を行う現在のほとんどの画像アウトペインティング方法とは異なり、私たちの一般化された画像アウトペインティングは、複雑な風景、建物、およびアート画像であっても、もっともらしい構造と詳細を備えた特定の画像の周囲の視覚的コンテキストを推定できます。具体的には、一般的な Swin Transformer ブロックに組み込まれたエンコーダーからデコーダーへの構造としてジェネレーターを設計します。そのため、私たちの新しいニューラル ネットワークは、一般化された画像のアウトペインティングにとって非常に重要な画像の長期的な依存関係にうまく対処できます。さらに、画像の自己再構成と未知部分の予測をスムーズかつ現実的に強化するために、U 字型構造とマルチビューの時間空間予測 (TSP) モジュールを提案します。テスト段階で TSP モジュールの予測ステップを調整することで、入力サブイメージを指定して任意のアウトペインティング サイズを生成できます。提案された方法が、最先端の画像アウトペインティングアプローチに対して一般化された画像アウトペインティングの視覚的に魅力的な結果を生成できることを実験的に示します。
In this paper, we develop a novel transformer-based generative adversarial neural network called U-Transformer for generalised image outpainting problem. Different from most present image outpainting methods conducting horizontal extrapolation, our generalised image outpainting could extrapolate visual context all-side around a given image with plausible structure and details even for complicated scenery, building, and art images. Specifically, we design a generator as an encoder-to-decoder structure embedded with the popular Swin Transformer blocks. As such, our novel neural network can better cope with image long-range dependencies which are crucially important for generalised image outpainting. We propose additionally a U-shaped structure and multi-view Temporal Spatial Predictor (TSP) module to reinforce image self-reconstruction as well as unknown-part prediction smoothly and realistically. By adjusting the predicting step in the TSP module in the testing stage, we can generate arbitrary outpainting size given the input sub-image. We experimentally demonstrate that our proposed method could produce visually appealing results for generalized image outpainting against the state-of-the-art image outpainting approaches.