arXiv reaDer
高忠実度の画像から画像への変換のための画像の解きほぐしおよび非協調的な再エンタングルメント
Image Disentanglement and Uncooperative Re-Entanglement for High-Fidelity Image-to-Image Translation
  クロスドメインの画像から画像への変換は、2つの要件を満たす必要があります。(1)両方のドメインに共通する情報を保持する、(2)ターゲットドメインに現れるバリエーションをカバーする説得力のある画像を生成する。これは、特に監督として利用可能な翻訳例がない場合に困難です。敵対的サイクルの一貫性は、美しく創造的な結果をもたらすソリューションとして最近提案され、多くのフォローアップ作業をもたらしました。ただし、拡張現実アプリケーションでは、このような手法を使用して、実際のシーンの魅力的な翻訳をユーザーに提供することは容易ではありません。翻訳には高忠実度の制約がないためです。言い換えれば、現在のモデルは、保存する必要がある詳細を変更する傾向があります。顔のテクスチャを変更している間、顔の表情を予測できない方法で変更する可能性があります。この論文では、高忠実度の画像から画像への変換の問題を紹介し、それを解決する方法を提示します。私たちの主な洞察は、バックトランスレーターがフォワードトランスレーターのエラーを補正することを学習するため、低忠実度の翻訳は通常、サイクル一貫性のペナルティーを回避するということです。そのため、ネットワークの協調を妨げる最適化手法を導入します。入力データが実在する場合にのみ各ネットワークをトレーニングします。これに対して、従来の作業では、実際のデータと生成されたデータを組み合わせて各ネットワークをトレーニングします。実験結果は、我々の方法がドメインを分離する要因を正確に解きほぐし、従来の方法では見逃していた意味を保持した翻訳に収束することを示しています。
Cross-domain image-to-image translation should satisfy two requirements: (1) preserve the information that is common to both domains, and (2) generate convincing images covering variations that appear in the target domain. This is challenging, especially when there are no example translations available as supervision. Adversarial cycle consistency was recently proposed as a solution, with beautiful and creative results, yielding much follow-up work. However, augmented reality applications cannot readily use such techniques to provide users with compelling translations of real scenes, because the translations do not have high-fidelity constraints. In other words, current models are liable to change details that should be preserved: while re-texturing a face, they may alter the face's expression in an unpredictable way. In this paper, we introduce the problem of high-fidelity image-to-image translation, and present a method for solving it. Our main insight is that low-fidelity translations typically escape a cycle-consistency penalty, because the back-translator learns to compensate for the forward-translator's errors. We therefore introduce an optimization technique that prevents the networks from cooperating: simply train each network only when its input data is real. Prior works, in comparison, train each network with a mix of real and generated data. Experimental results show that our method accurately disentangles the factors that separate the domains, and converges to semantics-preserving translations that prior methods miss.
updated: Sun Oct 20 2019 02:07:51 GMT+0000 (UTC)
published: Fri Jan 11 2019 16:08:21 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト