拡散ベースのモデルは、最近の研究でより優れた多様性を維持しながら、高品質の視覚データを生成するメリットを示しています。ただし、このような観察は、データサンプルがラベルに関して均一に分散されるように適切に前処理されている、精選されたデータ分散でのみ正当化されます。実際には、ロングテールのデータ分布がより一般的であり、そのようなクラスの不均衡なデータに対して拡散モデルがどのように機能するかは不明のままです。この作業では、最初にこの問題を調査し、クラスの不均衡な分布を持つデータセットで拡散モデルをトレーニングすると、多様性と忠実度の両方が大幅に低下することを観察します。特にテールクラスでは、世代の多様性が大幅に失われ、深刻なモード崩壊の問題が観察されます。この問題に対処するために、データ分布がクラスバランスされていないという仮説から設定し、解決策として分布調整正則化器でトレーニングされた Class-Balancing Diffusion Models (CBDM) を提案します。実験は、CBDM によって生成された画像が、定量的および定性的な方法でより高い多様性と品質を示すことを示しています。私たちの方法は、CIFAR100 / CIFAR100LTデータセットで生成結果をベンチマークし、下流の認識タスクで優れたパフォーマンスを示しています。
Diffusion-based models have shown the merits of generating high-quality visual data while preserving better diversity in recent studies. However, such observation is only justified with curated data distribution, where the data samples are nicely pre-processed to be uniformly distributed in terms of their labels. In practice, a long-tailed data distribution appears more common and how diffusion models perform on such class-imbalanced data remains unknown. In this work, we first investigate this problem and observe significant degradation in both diversity and fidelity when the diffusion model is trained on datasets with class-imbalanced distributions. Especially in tail classes, the generations largely lose diversity and we observe severe mode-collapse issues. To tackle this problem, we set from the hypothesis that the data distribution is not class-balanced, and propose Class-Balancing Diffusion Models (CBDM) that are trained with a distribution adjustment regularizer as a solution. Experiments show that images generated by CBDM exhibit higher diversity and quality in both quantitative and qualitative ways. Our method benchmarked the generation results on CIFAR100/CIFAR100LT dataset and shows outstanding performance on the downstream recognition task.