多くの画像から画像(I2I)への変換の問題は、1つの入力がさまざまな対応物を持つ可能性のある多様性の性質にあります。以前の研究では、2つの視覚的ドメイン間で多対多のマッピングを構築できるマルチモーダルネットワークが提案されました。ただし、それらのほとんどはサンプリングされたノイズによって導かれます。他のいくつかは、参照画像を潜在ベクトルにエンコードします。これにより、参照画像のセマンティック情報が洗い流されます。この作業では、セマンティックに参照に基づいて出力を制御するソリューションを提供することを目指しています。参照画像と別のドメインの入力が与えられると、最初に2つの視覚コンテンツ間でセマンティックマッチングが実行され、補助画像が生成されます。その後、ディープネットワークがI2I変換に使用され、最終的な出力は入力と参照の両方に意味的に類似していることが期待されます。ただし、そのようなペアのデータは、教師ありの方法でその二重類似性を満たすことはできないため、トレーニング目的に役立つ自己教師付きフレームワークを構築します。非ローカルブロックとマルチタスクアーキテクチャを採用することで、出力の品質と多様性を改善しています。広範囲の定性的および定量的評価を通じて提案された方法を評価し、いくつかの最新モデルとの比較も提示しました。
Many image-to-image (I2I) translation problems are in nature of high diversity that a single input may have various counterparts. Prior works proposed the multi-modal network that can build a many-to-many mapping between two visual domains. However, most of them are guided by sampled noises. Some others encode the reference images into a latent vector, by which the semantic information of the reference image will be washed away. In this work, we aim to provide a solution to control the output based on references semantically. Given a reference image and an input in another domain, a semantic matching is first performed between the two visual contents and generates the auxiliary image, which is explicitly encouraged to preserve semantic characteristics of the reference. A deep network then is used for I2I translation and the final outputs are expected to be semantically similar to both the input and the reference; however, no such paired data can satisfy that dual-similarity in a supervised fashion, so we build up a self-supervised framework to serve the training purpose. We improve the quality and diversity of the outputs by employing non-local blocks and a multi-task architecture. We assess the proposed method through extensive qualitative and quantitative evaluations and also presented comparisons with several state-of-art models.