連続時間領域上の確率微分方程式として表されるスコアベースの方法は、非敵対的生成モデルとして成功していることが最近証明されています。このようなモデルのトレーニングは、マルチスケール ノイズ除去オートエンコーダーと見なすことができるノイズ除去スコア マッチングに依存しています。ここでは、ノイズ除去スコアマッチングフレームワークを拡張して、教師あり信号なしで表現学習を可能にします。 GAN と VAE は、潜在コードをデータ サンプルに直接変換することで表現を学習します。対照的に、スコアベースの表現学習は、ノイズ除去スコアマッチング目標の新しい定式化に依存しているため、ノイズ除去に必要な情報をエンコードします。この違いにより、表現にエンコードされた詳細のレベルを手動で制御できる方法を示します。
Score-based methods represented as stochastic differential equations on a continuous time domain have recently proven successful as a non-adversarial generative model. Training such models relies on denoising score matching, which can be seen as multi-scale denoising autoencoders. Here, we augment the denoising score-matching framework to enable representation learning without any supervised signal. GANs and VAEs learn representations by directly transforming latent codes to data samples. In contrast, score-based representation learning relies on a new formulation of the denoising score-matching objective and thus encodes information needed for denoising. We show how this difference allows for manual control of the level of detail encoded in the representation.