データの階層的な離散表現を学習する、HR-VQVAE と呼ばれる多層変分オートエンコーダー メソッドを提案します。新しい目的関数を利用することにより、HR-VQVAE の各レイヤーは、ベクトル量子化エンコーダーを介して前のレイヤーから残差の離散表現を学習します。さらに、各層の表現は、前の層の表現に階層的にリンクされています。画像の再構成と生成のタスクに関する方法を評価します。実験結果は、HR-VQVAE によって学習された離散表現により、デコーダーがベースライン方法、つまり VQVAE および VQVAE-2 よりも歪みの少ない高品質の画像を再構築できることを示しています。 HR-VQVAE は、最先端の生成モデルよりも優れた高品質で多様な画像を生成することもでき、学習した表現の効率をさらに検証できます。 HR-VQVAE の階層的な性質により、i) デコード検索時間が短縮され、この方法は高負荷タスクに特に適したものになり、ii) コードブックの崩壊の問題を招くことなくコードブックのサイズを大きくすることができます。
We propose a multi-layer variational autoencoder method, we call HR-VQVAE, that learns hierarchical discrete representations of the data. By utilizing a novel objective function, each layer in HR-VQVAE learns a discrete representation of the residual from previous layers through a vector quantized encoder. Furthermore, the representations at each layer are hierarchically linked to those at previous layers. We evaluate our method on the tasks of image reconstruction and generation. Experimental results demonstrate that the discrete representations learned by HR-VQVAE enable the decoder to reconstruct high-quality images with less distortion than the baseline methods, namely VQVAE and VQVAE-2. HR-VQVAE can also generate high-quality and diverse images that outperform state-of-the-art generative models, providing further verification of the efficiency of the learned representations. The hierarchical nature of HR-VQVAE i) reduces the decoding search time, making the method particularly suitable for high-load tasks and ii) allows to increase the codebook size without incurring the codebook collapse problem.