深層学習の発展に伴い、研究者はリアルな画像を生成する生成モデルを開発してきました。このような生成モデルの 1 つである、Vector Quantized variational AutoEncoder 2 (VQ-VAE-2) を備えた PixelCNNs モデルは、他のモデルよりもさまざまな画像を生成できます。ただし、VQ-VAE-2 を使用した PixelCNN モデル (私はこれを PC-VQ2 と呼んでいます) は、他の深層学習モデルと同様に十分な量のトレーニング データを必要とします。その実際の用途は、十分なデータを収集することが難しくない分野に限定されることがよくあります。この問題を解決するために、研究者らは最近、限定されたラベルなしデータを使用して生成モデルを最初からトレーニングする、よりデータ効率の高い方法を提案しました。しかし、PC-VQ2 ではそのような方法は研究されていません。この研究は、PC-VQ2 と限定されたラベルなしデータを使用した画像の生成を考慮して、この方向への最初のステップを提供します。この研究では、限られたデータを使用して PC-VQ2 をトレーニングするためのトレーニング戦略を最初から提案し、段階的なデータ拡張を行います。この戦略では、データ拡張のパラメータの範囲が学習を通じて段階的に狭められます。定量的評価の結果、段階的なデータ拡張により、データが限られたモデルでも、十分なデータを持つモデルと比べて多様性の点で競争力があり、忠実度の点で優れた画像を生成できることがわかりました。この評価により、提案手法は限られたデータで PC-VQ2 を効率的に学習させ、多様で自然な画像を生成するのに有用であることが示唆されました。
With development of deep learning, researchers have developed generative models in generating realistic images. One of such generative models, a PixelCNNs model with Vector Quantized Variational AutoEncoder 2 (VQ-VAE-2), can generate more various images than other models. However, a PixelCNNs model with VQ-VAE-2, I call it PC-VQ2, requires sufficiently much training data like other deep learning models. Its practical applications are often limited in domains where collecting sufficient data is not difficult. To solve the problem, researchers have recently proposed more data-efficient methods for training generative models with limited unlabeled data from scratch. However, no such methods in PC-VQ2s have been researched. This study provides the first step in this direction, considering generation of images using PC-VQ2s and limited unlabeled data. In this study, I propose a training strategy for training a PC-VQ2 with limited data from scratch, phased data augmentation. In the strategy, ranges of parameters of data augmentation is narrowed in phases through learning. Quantitative evaluation shows that the phased data augmentation enables the model with limited data to generate images competitive with the one with sufficient data in diversity and outperforming it in fidelity. The evaluation suggests that the proposed method should be useful for training a PC-VQ2 with limited data efficiently to generate various and natural images.