最近、画像から画像への変換が大きな注目を集めています。多くの中で、ターゲットのスタイル情報を含む模範画像に基づいたこれらのアプローチは、マルチモダリティを処理する能力と実際の使用への適用性のために、活発に研究されてきました。ただし、既存のメソッドには2つの本質的な問題があります。転送するものと場所です。まず、これらのメソッドは、ノイズの多い情報を含む標本全体からスタイルを抽出します。これは、翻訳モデルが標本の意図したスタイルを適切に抽出することを妨げます。つまり、イグザンプラから何を転送するかを慎重に決定する必要があります。次に、抽出されたスタイルが入力画像全体に適用されるため、無関係な画像領域に不必要な歪みが生じます。それに応じて、抽出したスタイルをどこに転送するかを決定する必要があります。この論文では、転送するスタイルを決定する標本からローカルマスクを抽出し、抽出したスタイルを転送する場所を決定する入力画像から別のローカルマスクを抽出する新しいアプローチを提案します。この論文の主な新規性は、(1)高速道路適応インスタンス正規化技術と(2)模範のスタイルを反映する際に優れたパフォーマンスを達成するエンドツーエンドの翻訳フレームワークにあります。提案されたアプローチの利点を確認するために、定量的および定性的な評価結果を示します。
Recently, image-to-image translation has obtained significant attention. Among many, those approaches based on an exemplar image that contains the target style information has been actively studied, due to its capability to handle multimodality as well as its applicability in practical use. However, two intrinsic problems exist in the existing methods: what and where to transfer. First, those methods extract style from an entire exemplar which includes noisy information, which impedes a translation model from properly extracting the intended style of the exemplar. That is, we need to carefully determine what to transfer from the exemplar. Second, the extracted style is applied to the entire input image, which causes unnecessary distortion in irrelevant image regions. In response, we need to decide where to transfer the extracted style. In this paper, we propose a novel approach that extracts out a local mask from the exemplar that determines what style to transfer, and another local mask from the input image that determines where to transfer the extracted style. The main novelty of this paper lies in (1) the highway adaptive instance normalization technique and (2) an end-to-end translation framework which achieves an outstanding performance in reflecting a style of an exemplar. We demonstrate the quantitative and qualitative evaluation results to confirm the advantages of our proposed approach.