ノイズ除去拡散確率モデル(DDPM)は、優れたサンプル生成品質とトレーニングの安定性を備えた強力な階層型潜在変数モデルです。これらのプロパティは、生成階層でのパラメーターの共有、およびパラメーターのない拡散ベースの推論手順に起因する可能性があります。この論文では、条件付きDDPMを活用した数ショット生成のフレームワークであるFew-Shot Diffusion Models(FSDM)を紹介します。 FSDMは、セットベースのVision Transformer(ViT)を使用して画像パッチ情報を集約することにより、特定のクラスからの画像の小さなセットを条件とする生成プロセスを適応させるようにトレーニングされています。テスト時に、モデルは、そのクラスからのわずか5つのサンプルを条件として、これまでに見られなかったクラスからサンプルを生成できます。 FSDMが数ショットの生成と新しいデータセットへの転送を実行できることを経験的に示しています。数ショットの学習のために複雑なビジョンデータセットでメソッドのバリアントをベンチマークし、無条件および条件付きDDPMベースラインと比較します。さらに、パッチベースの入力セット情報でモデルを調整することで、トレーニングの収束がどのように改善されるかを示します。
Denoising diffusion probabilistic models (DDPM) are powerful hierarchical latent variable models with remarkable sample generation quality and training stability. These properties can be attributed to parameter sharing in the generative hierarchy, as well as a parameter-free diffusion-based inference procedure. In this paper, we present Few-Shot Diffusion Models (FSDM), a framework for few-shot generation leveraging conditional DDPMs. FSDMs are trained to adapt the generative process conditioned on a small set of images from a given class by aggregating image patch information using a set-based Vision Transformer (ViT). At test time, the model is able to generate samples from previously unseen classes conditioned on as few as 5 samples from that class. We empirically show that FSDM can perform few-shot generation and transfer to new datasets. We benchmark variants of our method on complex vision datasets for few-shot learning and compare to unconditional and conditional DDPM baselines. Additionally, we show how conditioning the model on patch-based input set information improves training convergence.