arXiv reaDer
マルチモーダル画像合成のためのカスケードモジュラーネットワーク(CAM-Net)
Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis
GANなどの深い生成モデルは、近年、条件付き画像合成に目覚ましい進歩をもたらしました。モード崩壊の問題のため、同じ入力画像からさまざまなバージョンの出力画像を生成することが永続的な課題でした。入力画像ごとに1つのグラウンドトゥルース出力画像しか与えられないため、条件付き分布の1つのモードのみがモデル化されます。この論文では、マルチモーダル条件付き画像合成のこの問題に焦点を当て、最近提案された陰的最尤推定(IMLE)の手法に基づいています。以前のIMLEベースの方法では、タスクごとに異なるアーキテクチャが必要であり、そのため適用性が制限され、生成された画像の詳細が不足していました。幅広いタスクに適用できる統合アーキテクチャであるCAM-Netを提案します。さらに、説得力のある高周波の詳細を生成することができ、ベースラインと比較してフレシェ開始距離(FID)を最大45.3%削減します。
Deep generative models such as GANs have driven impressive advances in conditional image synthesis in recent years. A persistent challenge has been to generate diverse versions of output images from the same input image, due to the problem of mode collapse: because only one ground truth output image is given per input image, only one mode of the conditional distribution is modelled. In this paper, we focus on this problem of multimodal conditional image synthesis and build on the recently proposed technique of Implicit Maximum Likelihood Estimation (IMLE). Prior IMLE-based methods required different architectures for different tasks, which limit their applicability, and were lacking in fine details in the generated images. We propose CAM-Net, a unified architecture that can be applied to a broad range of tasks. Additionally, it is capable of generating convincing high frequency details, achieving a reduction of the Frechet Inception Distance (FID) by up to 45.3% compared to the baseline.
updated: Wed Jun 16 2021 17:58:13 GMT+0000 (UTC)
published: Wed Jun 16 2021 17:58:13 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト