arXiv reaDer
残差高速フーリエ変換とワッサースタイン距離による人間の画像合成の改善
Improving Human Image Synthesis with Residual Fast Fourier Transformation and Wasserstein Distance
メタバースの急速な発展に伴い、仮想人間が出現し、ポーズ転送などの人間の画像合成および編集技術が最近普及しています。既存の手法のほとんどはGANに依存しており、GANは、大きなバリアントやオクルージョンがあっても、優れた人間の画像を生成できます。しかし、私たちの最善の知識から、既存の最先端の方法にはまだ次の問題があります。1つは、一部の領域のレンダリングが不十分であるなど、合成画像のレンダリング効果が現実的でないことです。 2つ目は、GANのトレーニングが不安定で、モデルの崩壊など、収束が遅いことです。上記の2つの問題に基づいて、それらを解決するためのいくつかの方法を提案します。レンダリング効果を向上させるために、従来の残余ブロックの代わりに残余高速フーリエ変換ブロックを使用します。次に、スペクトル正規化とワッサースタイン距離を使用して、GANトレーニングの速度と安定性を向上させます。実験は、私たちが提供する方法が上記の問題を解決するのに効果的であることを示しており、LPIPSとPSNRで最先端のスコアを取得しています。
With the rapid development of the Metaverse, virtual humans have emerged, and human image synthesis and editing techniques, such as pose transfer, have recently become popular. Most of the existing techniques rely on GANs, which can generate good human images even with large variants and occlusions. But from our best knowledge, the existing state-of-the-art method still has the following problems: the first is that the rendering effect of the synthetic image is not realistic, such as poor rendering of some regions. And the second is that the training of GAN is unstable and slow to converge, such as model collapse. Based on the above two problems, we propose several methods to solve them. To improve the rendering effect, we use the Residual Fast Fourier Transform Block to replace the traditional Residual Block. Then, spectral normalization and Wasserstein distance are used to improve the speed and stability of GAN training. Experiments demonstrate that the methods we offer are effective at solving the problems listed above, and we get state-of-the-art scores in LPIPS and PSNR.
updated: Tue May 24 2022 12:15:33 GMT+0000 (UTC)
published: Tue May 24 2022 12:15:33 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト