スタイル転送メソッドは、スタイル画像のようにコンテンツ画像をレンダリングした転送画像を生成します。スタイルの移行を改善する方法を理解しようとします。そのためには、定量的な評価手順が必要ですが、現在の評価は定性的であり、主にユーザーの調査を伴います。新しい定量的評価手順について説明します。私たちの手順は、2つの統計に依存しています。有効性(E)統計は、特定のスタイルがターゲットに転送された範囲を測定し、コヒーレンス(C)統計は、元の画像のコンテンツが保持される範囲を測定します。私たちの統計は、人間の好みに合わせて調整されています。E(またはC)の値が大きいターゲットは、スタイル(またはコンテンツ)の比較において、被験者によって確実に優先されます。これらの統計を使用して、多くのNeural Style Transfer(NST)メソッドの相対的なパフォーマンスを調査し、いくつかの興味深い特性を明らかにします。許容される方法は、パレートフロンティアにあります(つまり、Eを改善するとCが減少し、逆も同様です)。次の3つの方法が許容されます。ユニバーサルスタイルの転送では、非常に優れたCが生成されますが、Eは弱いです。 Gatysの損失に使用される最適化を変更すると、強いEと強いCのメソッドが生成されます。修正されたクロスレイヤー法は、Cの強いコストでEがわずかに優れています。ヒストグラム損失は、Gatysの方法のE統計を改善しますが、方法を許容しません。驚くべきことに、スタイルの重みはECスコアの向上に比較的効果がなく、転送のほとんどの変動はスタイル自体によって説明されます(つまり、スタイルを選択することで実験者が誤った方向に導かれる可能性がある)
Style transfer methods produce a transferred image which is a rendering of a content image in the manner of a style image. We seek to understand how to improve style transfer. To do so requires quantitative evaluation procedures, but the current evaluation is qualitative, mostly involving user studies. We describe a novel quantitative evaluation procedure. Our procedure relies on two statistics: the Effectiveness (E) statistic measures the extent that a given style has been transferred to the target, and the Coherence (C) statistic measures the extent to which the original image's content is preserved. Our statistics are calibrated to human preference: targets with larger values of E (resp C) will reliably be preferred by human subjects in comparisons of style (resp. content). We use these statistics to investigate the relative performance of a number of Neural Style Transfer(NST) methods, revealing several intriguing properties. Admissible methods lie on a Pareto frontier (i.e. improving E reduces C or vice versa). Three methods are admissible: Universal style transfer produces very good C but weak E; modifying the optimization used for Gatys' loss produces a method with strong E and strong C; and a modified cross-layer method has slightly better E at strong cost in C. While the histogram loss improves the E statistics of Gatys' method, it does not make the method admissible. Surprisingly, style weights have relatively little effect in improving EC scores, and most variability in the transfer is explained by the style itself (meaning experimenters can be misguided by selecting styles).