arXiv reaDer
拡散ベースの表現学習
Diffusion-Based Representation Learning
連続時間領域で確率微分方程式として表されるスコアベースの方法は、最近、非敵対的な生成モデルとして成功することが証明されています。このようなモデルのトレーニングは、マルチスケールのノイズ除去オートエンコーダと見なすことができるノイズ除去スコアマッチングに依存しています。ここでは、教師あり信号なしで表現学習を可能にするために、ノイズ除去スコアマッチングフレームワークを拡張します。 GANとVAEは、潜在コードをデータサンプルに直接変換することによって表現を学習します。対照的に、導入された拡散ベースの表現学習は、ノイズ除去スコアマッチング目標の新しい定式化に依存しているため、ノイズ除去に必要な情報をエンコードします。この違いにより、表現にエンコードされた詳細レベルを手動で制御する方法を説明します。同じアプローチを使用して、半教師あり画像分類の最先端モデルの改善を実現する無限次元潜在コードを学習することを提案します。副次的な貢献として、スコアベースのモデルでの敵対的トレーニングが、より小さなノイズスケールでの事前の新しい近似を使用して、サンプル品質を改善し、サンプリング速度を改善する方法を示します。
Score-based methods represented as stochastic differential equations on a continuous time domain have recently proven successful as a non-adversarial generative model. Training such models relies on denoising score matching, which can be seen as multi-scale denoising autoencoders. Here, we augment the denoising score-matching framework to enable representation learning without any supervised signal. GANs and VAEs learn representations by directly transforming latent codes to data samples. In contrast, the introduced diffusion based representation learning relies on a new formulation of the denoising score-matching objective and thus encodes information needed for denoising. We illustrate how this difference allows for manual control of the level of details encoded in the representation. Using the same approach, we propose to learn an infinite-dimensional latent code which achieves improvements of state-of-the-art models on semi-supervised image classification. As a side contribution, we show how adversarial training in score-based models can improve sample quality and improve sampling speed using a new approximation of the prior at smaller noise scales.
updated: Wed Sep 22 2021 19:57:29 GMT+0000 (UTC)
published: Sat May 29 2021 09:26:02 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト