最近のスタイル転送モデルは、有望な芸術的結果を提供しています。ただし、写真を参照スタイルとして指定すると、既存の方法は、実際の写真では発生しないはずの空間的な歪みや非現実的なアーティファクトによって制限されます。ネットワークアーキテクチャに理論的に適切な修正を導入し、フォトリアリズムを大幅に強化し、スタイルを忠実に転送します。この方法の重要な要素は、深いネットワークに自然に適合するウェーブレット変換です。様式化中にフィーチャが構造情報とVGGフィーチャ空間の統計的特性を保持できるようにする、ホワイトニングおよびカラー変換(WCT $ ^ 2 $)に基づくウェーブレット補正転送を提案します。これは、4.7秒で$ 1024 \ times1024 $解像度の画像を定型化できる最初で唯一のエンドツーエンドモデルであり、後処理なしで心地よく写真のようにリアルな品質を提供します。最後になりましたが、私たちのモデルは、時間的な制約のない安定したビデオのスタイルを提供します。コード、生成された画像、事前にトレーニングされたモデルはすべてhttps://github.com/ClovaAI/WCT2で入手できます。
Recent style transfer models have provided promising artistic results. However, given a photograph as a reference style, existing methods are limited by spatial distortions or unrealistic artifacts, which should not happen in real photographs. We introduce a theoretically sound correction to the network architecture that remarkably enhances photorealism and faithfully transfers the style. The key ingredient of our method is wavelet transforms that naturally fits in deep networks. We propose a wavelet corrected transfer based on whitening and coloring transforms (WCT$^2$) that allows features to preserve their structural information and statistical properties of VGG feature space during stylization. This is the first and the only end-to-end model that can stylize a $1024\times1024$ resolution image in 4.7 seconds, giving a pleasing and photorealistic quality without any post-processing. Last but not least, our model provides a stable video stylization without temporal constraints. Our code, generated images, and pre-trained models are all available at https://github.com/ClovaAI/WCT2.