条件付き拡散モデルを使用した画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介します。 4つの難しい画像から画像への変換タスク(カラー化、修復、トリミング解除、およびJPEG解凍)で、パレットは強力なGANおよび回帰ベースラインを上回り、新しい最先端技術を確立します。これは、タスク固有のハイパーパラメータの調整、アーキテクチャのカスタマイズ、または補助的な損失なしで実現され、望ましい程度の一般性と柔軟性を示しています。ノイズ除去拡散目標でL_2とL_1の損失を使用した場合のサンプルの多様性への影響を明らかにし、経験的なアーキテクチャの研究を通じて自己注意の重要性を示します。重要なのは、ImageNetに基づく統一された評価プロトコルを提唱し、FID、開始スコア、事前トレーニング済みResNet-50の分類精度、さまざまなベースラインの参照画像に対する知覚距離など、いくつかのサンプル品質スコアを報告することです。この標準化された評価プロトコルは、画像から画像へのトランスレーショナルリサーチを進める上で重要な役割を果たすことを期待しています。最後に、3つのタスク(カラー化、修復、JPEG解凍)でトレーニングされた単一のジェネラリストパレットモデルが、タスク固有のスペシャリストモデルと同等またはそれ以上のパフォーマンスを発揮することを示します。
We introduce Palette, a simple and general framework for image-to-image translation using conditional diffusion models. On four challenging image-to-image translation tasks (colorization, inpainting, uncropping, and JPEG decompression), Palette outperforms strong GAN and regression baselines, and establishes a new state of the art. This is accomplished without task-specific hyper-parameter tuning, architecture customization, or any auxiliary loss, demonstrating a desirable degree of generality and flexibility. We uncover the impact of using L_2 vs. L_1 loss in the denoising diffusion objective on sample diversity, and demonstrate the importance of self-attention through empirical architecture studies. Importantly, we advocate a unified evaluation protocol based on ImageNet, and report several sample quality scores including FID, Inception Score, Classification Accuracy of a pre-trained ResNet-50, and Perceptual Distance against reference images for various baselines. We expect this standardized evaluation protocol to play a critical role in advancing image-to-image translation research. Finally, we show that a single generalist Palette model trained on 3 tasks (colorization, inpainting, JPEG decompression) performs as well or better than task-specific specialist counterparts.