arXiv reaDer
シンプレックス オートエンコーダ
Simplex Autoencoders
プライバシーに関する懸念から、合成データの生成はますます重要になっています。この目的のためにオートエンコーダーベースのアプローチが広く使用されていますが、潜在空間からのサンプリングは困難な場合があります。混合モデルは、現在、これらの空間からサンプリングする最も効率的な方法です。この作業では、オートエンコーダーの潜在空間をシンプレックスとしてモデル化する新しいアプローチを提案し、混合モデルのコンポーネント数を決定するための新しいヒューリスティックを可能にします。このヒューリスティックは、クラスの数に依存せず、同等の結果を生成します。また、潜在空間のコンパクトさを利用して、確率質量関数に基づくサンプリング方法を導入します。合成データセットでアプローチを評価し、MNIST、CIFAR-10、および Celeba の 3 つのベンチマーク データセットでそのパフォーマンスを実証します。私たちのアプローチは、MNIST、CIFAR-10、および Celeba データセットでそれぞれ 4.29、13.55、および 11.90 の画像生成 FID を達成します。これらのデータセットでのこれまでの最高の AE FID 結果は、それぞれ 6.3、85.3、35.6 であり、これらの数値が大幅に改善されています (FID が低いほど良い)。ただし、関連するデータセットに対して AE は最適なアルゴリズムではなく、すべての FID レコードは現在 GAN によって保持されています。 CIFAR と Celeba で GAN よりもパフォーマンスが優れているわけではありませんが、MNIST データセットの現在の GAN が保持する記録よりも無視できない改善 (0.21) を絞り出すことができます。
Synthetic data generation is increasingly important due to privacy concerns. While Autoencoder-based approaches have been widely used for this purpose, sampling from their latent spaces can be challenging. Mixture models are currently the most efficient way to sample from these spaces. In this work, we propose a new approach that models the latent space of an Autoencoder as a simplex, allowing for a novel heuristic for determining the number of components in the mixture model. This heuristic is independent of the number of classes and produces comparable results. We also introduce a sampling method based on probability mass functions, taking advantage of the compactness of the latent space. We evaluate our approaches on a synthetic dataset and demonstrate their performance on three benchmark datasets: MNIST, CIFAR-10, and Celeba. Our approach achieves an image generation FID of 4.29, 13.55, and 11.90 on the MNIST, CIFAR-10, and Celeba datasets, respectively. The best AE FID results to date on those datasets are respectively 6.3, 85.3 and 35.6 we hence substantially improve those figures (the lower is the FID the better). However, AEs are not the best performing algorithms on the concerned datasets and all FID records are currently held by GANs. While we do not perform better than GANs on CIFAR and Celeba we do manage to squeeze-out a non-negligible improvement (of 0.21) over the current GAN-held record for the MNIST dataset.
updated: Mon Jan 16 2023 15:57:03 GMT+0000 (UTC)
published: Mon Jan 16 2023 15:57:03 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト