ユニバーサルテクスチャ合成用の新しいU-Attentionビジョントランスフォーマーを紹介します。アテンションメカニズムによって可能になる自然な長距離依存関係を利用して、単一の推論でそれらの構造を保持しながら、多様なテクスチャを合成するアプローチを可能にします。グローバル構造に対応し、粗いストリームから細かいストリーム、粗いストリームまでさまざまなスケールでパッチマッピングを実行する階層型砂時計バックボーンを提案します。さまざまなスケールで情報を伝播および融合するスキップ接続および畳み込み設計によって完成された、階層型U-Attentionアーキテクチャは、マクロ構造からミクロの詳細までの機能への注意を統合し、連続する段階で合成結果を段階的に改善します。私たちの方法は、微調整せずに見えないテクスチャに一般化しながら、確率的テクスチャと構造化テクスチャの両方で以前の作業よりも強力な2倍の合成を実現します。アブレーション研究は、私たちのアーキテクチャの各コンポーネントの有効性を示しています。
We present a novel U-Attention vision Transformer for universal texture synthesis. We exploit the natural long-range dependencies enabled by the attention mechanism to allow our approach to synthesize diverse textures while preserving their structures in a single inference. We propose a hierarchical hourglass backbone that attends to the global structure and performs patch mapping at varying scales in a coarse-to-fine-to-coarse stream. Completed by skip connection and convolution designs that propagate and fuse information at different scales, our hierarchical U-Attention architecture unifies attention to features from macro structures to micro details, and progressively refines synthesis results at successive stages. Our method achieves stronger 2× synthesis than previous work on both stochastic and structured textures while generalizing to unseen textures without fine-tuning. Ablation studies demonstrate the effectiveness of each component of our architecture.