従来の正規化方法は、アフィン変換に依存して任意の画像スタイルの転送を生成しますが、その中でパラメータは事前定義された方法で計算されます。このような手動で定義された性質により、最終的にスタイルとコンテンツの両方のエンコード用の高コストで共有されたエンコーダーになり、モバイル端末側などのリソースに制約のある環境でスタイル転送システムを展開するのが面倒になります。本稿では、動的インスタンス正規化(DIN)と呼ばれる、柔軟でより効率的な任意のスタイル転送を可能にする、新しい一般化された正規化モジュールを提案します。インスタンスの正規化と動的な畳み込みを含むDINは、スタイルイメージを学習可能な畳み込みパラメーターにエンコードし、その上でコンテンツイメージが様式化されます。共有された複雑なエンコーダを使用してコンテンツとスタイルをエンコードする従来の方法とは異なり、提案されたDINは洗練されたスタイルのエンコーダを導入しますが、高速推論のためのコンパクトで軽量のコンテンツエンコーダを備えています。実験結果は、提案されたアプローチが挑戦的なスタイルパターンで非常に有望な結果をもたらし、私たちの知る限り初めて、MobileNetベースの軽量アーキテクチャを使用して任意のスタイル転送を可能にし、計算コストの20以上の削減係数につながることを示しています既存のアプローチと比較して。さらに、提案されたDINは、最先端の畳み込み演算の柔軟なサポートを提供するため、非自然な画像の均一なストローク配置や自動空間ストローク制御などの新しい機能をトリガーします。
Prior normalization methods rely on affine transformations to produce arbitrary image style transfers, of which the parameters are computed in a pre-defined way. Such manually-defined nature eventually results in the high-cost and shared encoders for both style and content encoding, making style transfer systems cumbersome to be deployed in resource-constrained environments like on the mobile-terminal side. In this paper, we propose a new and generalized normalization module, termed as Dynamic Instance Normalization (DIN), that allows for flexible and more efficient arbitrary style transfers. Comprising an instance normalization and a dynamic convolution, DIN encodes a style image into learnable convolution parameters, upon which the content image is stylized. Unlike conventional methods that use shared complex encoders to encode content and style, the proposed DIN introduces a sophisticated style encoder, yet comes with a compact and lightweight content encoder for fast inference. Experimental results demonstrate that the proposed approach yields very encouraging results on challenging style patterns and, to our best knowledge, for the first time enables an arbitrary style transfer using MobileNet-based lightweight architecture, leading to a reduction factor of more than twenty in computational cost as compared to existing approaches. Furthermore, the proposed DIN provides flexible support for state-of-the-art convolutional operations, and thus triggers novel functionalities, such as uniform-stroke placement for non-natural images and automatic spatial-stroke control.