生成モデルと敵対的トレーニングの最近の進歩により、画像から画像(I2I)への翻訳が盛んになりました。現在のI2I変換アプローチでは、すべてペアになっている(教師あり)またはすべてペアになっていない(教師なし)の2つのドメインからのトレーニング画像が必要です。実際には、ペアのトレーニングデータを十分な量で取得することは、多くの場合非常に費用がかかり、面倒です。したがって、不正確なデータではなく、ペアになっていないデータを使用するソリューションが主に推奨されます。本稿では、セマンティック画像セグメンテーションへの応用により、教師ありと教師なしのI2I変換のギャップを埋めることを目指しています。 pix2pixとCycleGAN、最先端の独創的なI2I変換技術に基づいています。 (ごく少数)ペアのトレーニングサンプルを選択し、ランダム選択よりも教師付きおよび教師なしI2I変換設定の両方で大幅な改善を達成する方法を提案します。さらに、トレーニングプロセスに(選択した)ペアのサンプルとペアになっていないサンプルの両方を組み込むことにより、パフォーマンスを向上させます。私たちの実験は、ペアのトレーニングサンプルを1つだけ使用する非常に弱い教師付きI2I翻訳ソリューションが、教師なしCycleGANモデルよりもはるかに優れた定量的パフォーマンスを達成し、数千のペアでトレーニングされた教師付きpix2pixモデルに匹敵することを示しています。
Recent advances in generative models and adversarial training have led to a flourishing image-to-image (I2I) translation literature. The current I2I translation approaches require training images from the two domains that are either all paired (supervised) or all unpaired (unsupervised). In practice, obtaining paired training data in sufficient quantities is often very costly and cumbersome. Therefore solutions that employ unpaired data, while less accurate, are largely preferred. In this paper, we aim to bridge the gap between supervised and unsupervised I2I translation, with application to semantic image segmentation. We build upon pix2pix and CycleGAN, state-of-the-art seminal I2I translation techniques. We propose a method to select (very few) paired training samples and achieve significant improvements in both supervised and unsupervised I2I translation settings over random selection. Further, we boost the performance by incorporating both (selected) paired and unpaired samples in the training process. Our experiments show that an extremely weak supervised I2I translation solution using only one paired training sample can achieve a quantitative performance much better than the unsupervised CycleGAN model, and comparable to that of the supervised pix2pix model trained on thousands of pairs.