現在のほとんどの画像の外挿は水平方向の外挿を行いますが、特定の画像の周囲の視覚的コンテキストを外挿する一般化された画像の外挿の問題を研究します。この目的のために、複雑な風景画像に対しても妥当な構造と詳細で画像の境界を拡張できるU-Transformerと呼ばれる新しいトランスベースの生成的敵対的ネットワークを開発します。具体的には、人気のあるSwinTransformerブロックが埋め込まれたエンコーダー間構造としてジェネレーターを設計します。このように、私たちの新しいフレームワークは、一般化された画像のアウトペインティングにとって非常に重要な画像の長距離依存性にうまく対処できます。さらに、U字型の構造とマルチビューの時間空間予測ネットワークを提案して、画像の自己再構成と未知の部分の予測をスムーズかつ現実的に強化します。我々は、提案された方法が、最先端の画像アウトペインティングアプローチに対して、一般化されたイメージアウトペインティングに対して視覚的に魅力的な結果を生み出すことができることを実験的に実証します。
While most present image outpainting conducts horizontal extrapolation, we study the generalised image outpainting problem that extrapolates visual context all-side around a given image. To this end, we develop a novel transformer-based generative adversarial network called U-Transformer able to extend image borders with plausible structure and details even for complicated scenery images. Specifically, we design a generator as an encoder-to-decoder structure embedded with the popular Swin Transformer blocks. As such, our novel framework can better cope with image long-range dependencies which are crucially important for generalised image outpainting. We propose additionally a U-shaped structure and multi-view Temporal Spatial Predictor network to reinforce image self-reconstruction as well as unknown-part prediction smoothly and realistically. We experimentally demonstrate that our proposed method could produce visually appealing results for generalized image outpainting against the state-of-the-art image outpainting approaches.