一般的な VQ-VAE モデルは、離散コードブックを学習して画像を再構成しますが、圧縮率が高くなるにつれて画像再構成の品質が急速に低下するという重大な問題に悩まされています。主な理由の 1 つは、圧縮率が高いほど、ピクセル空間の詳細を反映する高周波数スペクトルで視覚信号の損失が増えることです。このホワイト ペーパーでは、周波数補数モジュール (FCM) アーキテクチャを提案して、失われた周波数情報を取得し、再構成の品質を向上させます。 FCM は VQ-VAE 構造に簡単に組み込むことができ、新しいモデルを Frequency Augmented VAE (FA-VAE) と呼びます。さらに、動的スペクトル損失 (DSL) が導入され、最適な再構成のためにさまざまな周波数間で動的にバランスをとるように FCM を誘導します。 FA-VAE はテキストから画像への合成タスクにさらに拡張され、クロスアテンション自己回帰トランスフォーマー (CAT) が提案され、テキスト内のより正確なセマンティック属性が取得されます。さまざまな圧縮率を使用した広範な再構成実験がいくつかのベンチマーク データセットに対して行われ、その結果は、提案された FA-VAE が SOTA 法と比較して詳細をより忠実に復元できることを示しています。 CAT では、画像とテキストのセマンティック アラインメントが改善され、生成品質も向上しています。
The popular VQ-VAE models reconstruct images through learning a discrete codebook but suffer from a significant issue in the rapid quality degradation of image reconstruction as the compression rate rises. One major reason is that a higher compression rate induces more loss of visual signals on the higher frequency spectrum which reflect the details on pixel space. In this paper, a Frequency Complement Module (FCM) architecture is proposed to capture the missing frequency information for enhancing reconstruction quality. The FCM can be easily incorporated into the VQ-VAE structure, and we refer to the new model as Frequency Augmented VAE (FA-VAE). In addition, a Dynamic Spectrum Loss (DSL) is introduced to guide the FCMs to balance between various frequencies dynamically for optimal reconstruction. FA-VAE is further extended to the text-to-image synthesis task, and a Cross-attention Autoregressive Transformer (CAT) is proposed to obtain more precise semantic attributes in texts. Extensive reconstruction experiments with different compression rates are conducted on several benchmark datasets, and the results demonstrate that the proposed FA-VAE is able to restore more faithfully the details compared to SOTA methods. CAT also shows improved generation quality with better image-text semantic alignment.