arXiv reaDer
事前に訓練された深い階層型VAEによる多様な超解像
Diverse super-resolution with pretrained deep hiererarchical VAEs
画像の超解像は1対多の問題ですが、ほとんどの深層学習ベースの方法では、この問題に対する1つの解決策しか提供されません。この作品では、最先端の変分オートエンコーダー(VAE)であるVD-VAEを再利用することにより、多様な超解像の問題に取り組んでいます。 VD-VAEによって学習された階層的潜在表現は、階層の最上位の潜在グループにエンコードされた画像の低周波情報を、最下部の潜在グループによって決定された画像の高周波の詳細から自然に分離することがわかります。潜在的な階層。この観察から始めて、VD-VAE潜在空間の特定の構造を利用した超解像モデルを設計します。具体的には、低周波情報をエンコードするVD-VAE潜在空間のサブセットで低解像度画像をエンコードするようにエンコーダーをトレーニングし、このエンコーダーをVD-VAE生成モデルと組み合わせて、低解像度バージョンの多様な超解像バージョンをサンプリングします。解像度入力。アップサンプリング係数x4、x8、およびx16を使用して、顔の超解像に関する超解像問題の多様なソリューションを生成する方法の能力を示します。
Image super-resolution is a one-to-many problem, but most deep-learning based methods only provide one single solution to this problem. In this work, we tackle the problem of diverse super-resolution by reusing VD-VAE, a state-of-the art variational autoencoder (VAE). We find that the hierarchical latent representation learned by VD-VAE naturally separates the image low-frequency information, encoded in the latent groups at the top of the hierarchy, from the image high-frequency details, determined by the latent groups at the bottom of the latent hierarchy. Starting from this observation, we design a super-resolution model exploiting the specific structure of VD-VAE latent space. Specifically, we train an encoder to encode low-resolution images in the subset of VD-VAE latent space encoding the low-frequency information, and we combine this encoder with VD-VAE generative model to sample diverse super-resolved version of a low-resolution input. We demonstrate the ability of our method to generate diverse solutions to the super-resolution problem on face super-resolution with upsampling factors x4, x8, and x16.
updated: Thu Nov 03 2022 18:03:21 GMT+0000 (UTC)
published: Fri May 20 2022 17:57:41 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト