AdaAttN: Revisit Attention Mechanism in Arbitrary Neural Style Transfer
高速な任意のニューラルスタイルの転送は、さまざまなアプリケーションを可能にする柔軟性により、学術、産業、芸術のコミュニティから広く注目されています。既存のソリューションは、機能の分布を考慮せずにディープスタイル機能をディープコンテンツ機能に注意深く融合するか、グローバル統計が一致するようにスタイルに従ってディープコンテンツ機能を適応的に正規化します。効果的ではありますが、浅い特徴を未踏のままにし、特徴の統計を局所的に考慮せずに、それらは不快な局所的な歪みを伴う不自然な出力になりがちです。この問題を軽減するために、この論文では、ポイントごとに注意の正規化を適応的に実行する、Adaptive Attention Normalization(AdaAttN)という名前の新しい注意および正規化モジュールを提案します。具体的には、空間的注意スコアは、コンテンツとスタイル画像の浅い特徴と深い特徴の両方から学習されます。次に、スタイル特徴点をすべてのスタイル特徴点の注意加重出力の分布と見なすことにより、ポイントごとの重み付き統計が計算されます。最後に、コンテンツフィーチャは正規化され、計算されたポイントごとの加重スタイルフィーチャ統計と同じローカルフィーチャ統計を示します。さらに、ローカルの視覚的品質を向上させるために、AdaAttNに基づいて新しいローカル機能の損失が導き出されます。また、AdaAttNを拡張して、わずかな変更を加えたビデオスタイルの転送に対応できるようにします。実験は、私たちの方法が最先端の任意の画像/ビデオスタイルの転送を実現することを示しています。コードとモデルが利用可能です。
Fast arbitrary neural style transfer has attracted widespread attention from academic, industrial and art communities due to its flexibility in enabling various applications. Existing solutions either attentively fuse deep style feature into deep content feature without considering feature distributions, or adaptively normalize deep content feature according to the style such that their global statistics are matched. Although effective, leaving shallow feature unexplored and without locally considering feature statistics, they are prone to unnatural output with unpleasing local distortions. To alleviate this problem, in this paper, we propose a novel attention and normalization module, named Adaptive Attention Normalization (AdaAttN), to adaptively perform attentive normalization on per-point basis. Specifically, spatial attention score is learnt from both shallow and deep features of content and style images. Then per-point weighted statistics are calculated by regarding a style feature point as a distribution of attention-weighted output of all style feature points. Finally, the content feature is normalized so that they demonstrate the same local feature statistics as the calculated per-point weighted style feature statistics. Besides, a novel local feature loss is derived based on AdaAttN to enhance local visual quality. We also extend AdaAttN to be ready for video style transfer with slight modifications. Experiments demonstrate that our method achieves state-of-the-art arbitrary image/video style transfer. Codes and models are available.
updated: Sun Aug 08 2021 14:26:25 GMT+0000 (UTC)
published: Sun Aug 08 2021 14:26:25 GMT+0000 (UTC)
