ユニバーサルテクスチャ合成用の新しいU-Attentionビジョントランスフォーマーを紹介します。アテンションメカニズムによって可能になる自然な長距離依存関係を利用して、単一の推論でそれらの構造を保持しながら、多様なテクスチャを合成するアプローチを可能にします。グローバル構造に対応し、粗いストリームから細かいストリーム、粗いストリームまでさまざまなスケールでパッチマッピングを実行する多段砂時計バックボーンを提案します。さまざまなスケールで情報を伝播および融合するスキップ接続および畳み込み設計によってさらに完成されたU-Attentionアーキテクチャは、ミクロ構造、メソ構造、およびマクロ構造への注意を統合し、連続する段階で合成結果を段階的に改善します。私たちの方法は、微調整なしで目に見えないテクスチャに一般化しながら、確率的テクスチャと構造化テクスチャの両方で以前の作業よりも強力な2倍の合成を達成することを示します。アブレーション研究は、私たちのアーキテクチャの各コンポーネントの有効性を示しています。
We present a novel U-Attention vision Transformer for universal texture synthesis. We exploit the natural long-range dependencies enabled by the attention mechanism to allow our approach to synthesize diverse textures while preserving their structures in a single inference. We propose a multi-stage hourglass backbone that attends to the global structure and performs patch mapping at varying scales in a coarse-to-fine-to-coarse stream. Further completed by skip connection and convolution designs that propagate and fuse information at different scales, our U-Attention architecture unifies attention to microstructures, mesostructures and macrostructures, and progressively refines synthesis results at successive stages. We show that our method achieves stronger 2× synthesis than previous work on both stochastic and structured textures while generalizing to unseen textures without fine-tuning. Ablation studies demonstrate the effectiveness of each component of our architecture.