教師なし深層学習は、最近、高品質のサンプルを生成する可能性を示しています。画像のカラー化タスクを促進する大きな可能性を秘めていますが、機械学習の多様な仮説のためにパフォーマンスは制限されています。この研究は、問題に対処するためにウェーブレットドメインのスコアベースの生成モデルを活用する新しいスキームを提示します。提案されたモデルは、ウェーブレット変換によるマルチスケールおよびマルチチャネル表現を利用することにより、積み重ねられたウェーブレット係数成分から事前情報を学習し、粗い周波数スペクトルと詳細な周波数スペクトルの下での画像特性を共同で効果的に学習します。さらに、敵対的な最適化を伴わないこのような非常に柔軟な生成モデルは、ウェーブレットドメインの二重の一貫性条件、つまりデータの一貫性と構造の一貫性の下で、色付けタスクをより適切に実行できます。具体的には、トレーニングフェーズでは、ウェーブレット係数で構成されるマルチチャネルテンソルのセットが、スコアマッチングのノイズ除去によってネットワークをトレーニングするための入力として使用されます。テストフェーズでは、データと構造の一貫性を備えたアニーリングされたランジュバン動力学を介してサンプルが繰り返し生成されます。実験は、着色品質、特に着色のロバスト性と多様性に関して、提案されたモデルの顕著な改善を示しました。
Unsupervised deep learning has recently demonstrated the promise to produce high-quality samples. While it has tremendous potential to promote the image colorization task, the performance is limited owing to the manifold hypothesis in machine learning. This study presents a novel scheme that exploiting the score-based generative model in wavelet domain to address the issue. By taking advantage of the multi-scale and multi-channel representation via wavelet transform, the proposed model learns the priors from stacked wavelet coefficient components, thus learns the image characteristics under coarse and detail frequency spectrums jointly and effectively. Moreover, such a highly flexible generative model without adversarial optimization can execute colorization tasks better under dual consistency terms in wavelet domain, namely data-consistency and structure-consistency. Specifically, in the training phase, a set of multi-channel tensors consisting of wavelet coefficients are used as the input to train the network by denoising score matching. In the test phase, samples are iteratively generated via annealed Langevin dynamics with data and structure consistencies. Experiments demonstrated remarkable improvements of the proposed model on colorization quality, particularly on colorization robustness and diversity.