arXiv reaDer
SQ-VAE:自己アニーリングされた確率的量子化による離散表現の変分ベイズ
SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization
ベクトル量子化変分オートエンコーダー(VQ-VAE)の注目すべき問題の1つは、学習された離散表現がコードブックの全容量のごく一部しか使用しないことです。これはコードブックの崩壊としても知られています。慎重に設計されたヒューリスティックを含むVQ-VAEのトレーニングスキームがこの問題の根底にあると仮定します。この論文では、確率的に量子化された変分オートエンコーダ(SQ-VAE)と呼ばれる、新しい確率的量子化と量子化を介して標準VAEを拡張する新しいトレーニングスキームを提案します。 SQ-VAEでは、量子化はトレーニングの初期段階では確率的であるが、自己アニーリングと呼ばれる決定論的量子化に向かって徐々に収束する傾向が見られます。私たちの実験は、SQ-VAEが一般的なヒューリスティックを使用せずにコードブックの使用率を改善することを示しています。さらに、視覚および音声関連のタスクにおいて、SQ-VAEがVAEおよびVQ-VAEよりも優れていることを経験的に示しています。
One noted issue of vector-quantized variational autoencoder (VQ-VAE) is that the learned discrete representation uses only a fraction of the full capacity of the codebook, also known as codebook collapse. We hypothesize that the training scheme of VQ-VAE, which involves some carefully designed heuristics, underlies this issue. In this paper, we propose a new training scheme that extends the standard VAE via novel stochastic dequantization and quantization, called stochastically quantized variational autoencoder (SQ-VAE). In SQ-VAE, we observe a trend that the quantization is stochastic at the initial stage of the training but gradually converges toward a deterministic quantization, which we call self-annealing. Our experiments show that SQ-VAE improves codebook utilization without using common heuristics. Furthermore, we empirically show that SQ-VAE is superior to VAE and VQ-VAE in vision- and speech-related tasks.
updated: Mon May 16 2022 09:49:37 GMT+0000 (UTC)
published: Mon May 16 2022 09:49:37 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト