スタイル転送は、特定の画像コンテンツを特定のスタイルでレンダリングすることであり、コンピュータビジョンの基礎研究と産業用アプリケーションの両方で重要な役割を果たします。深層学習ベースのアプローチの成功を受けて、この問題は最近再起動されましたが、コンテンツの保持とスタイルの忠実なレンダリングとの間のトレードオフのため、依然として困難な作業です。実際、様式化された画像の品質を評価するには、コンテンツとスタイルのバランスがいかに重要であるかが重要です。この論文では、レンダリングされた画像のコンテンツとスタイルの寄与のバランスをとることを目的とした、エンドツーエンドの2ストリーム完全畳み込みネットワーク(FCN)を提案します。私たちが提案するネットワークは、エンコーダとデコーダの部分で構成されています。エンコーダー部分は、コンテンツにFCNを使用し、スタイルにFCNを使用します。2つのFCNには機能注入があり、セマンティックコンテンツを保持し、それぞれの忠実なスタイル表現を学習するように個別にトレーニングされます。次に、セマンティックコンテンツ機能とスタイル表現機能が適応的に連結され、スタイル転送された(様式化された)画像を生成するためにデコーダーに送られます。提案されたネットワークをトレーニングするために、損失ネットワーク、事前トレーニング済みのVGG-16を使用して、コンテンツの損失とスタイルの損失を計算します。これらは両方とも、機能の注入と機能の連結に効率的に使用されます。私たちの集中的な実験は、提案されたモデルが最新の方法よりもコンテンツとスタイルでよりバランスの取れた様式化された画像を生成することを示しています。さらに、提案されたネットワークは速度の効率を達成します。
Style transfer is to render given image contents in given styles, and it has an important role in both computer vision fundamental research and industrial applications. Following the success of deep learning based approaches, this problem has been re-launched recently, but still remains a difficult task because of trade-off between preserving contents and faithful rendering of styles. Indeed, how well-balanced content and style are is crucial in evaluating the quality of stylized images. In this paper, we propose an end-to-end two-stream Fully Convolutional Networks (FCNs) aiming at balancing the contributions of the content and the style in rendered images. Our proposed network consists of the encoder and decoder parts. The encoder part utilizes a FCN for content and a FCN for style where the two FCNs have feature injections and are independently trained to preserve the semantic content and to learn the faithful style representation in each. The semantic content feature and the style representation feature are then concatenated adaptively and fed into the decoder to generate style-transferred (stylized) images. In order to train our proposed network, we employ a loss network, the pre-trained VGG-16, to compute content loss and style loss, both of which are efficiently used for the feature injection as well as the feature concatenation. Our intensive experiments show that our proposed model generates more balanced stylized images in content and style than state-of-the-art methods. Moreover, our proposed network achieves efficiency in speed.