Unsupervised Discovery, Control, and Disentanglement of Semantic Attributes with Applications to Anomaly Detection
私たちの仕事は、次の目標に取り組む教師なし生成手法に焦点を当てています:(a)画像の意味属性を制御する潜在因子を発見する教師なし生成表現の学習、(b)属性を制御するこの能力が潜在因子のもつれの問題にどのように正式に関連するかを研究する過去に混乱していた関連するが異なる概念を明確にし、(c)(a)で学習した表現を活用する異常検出方法を開発する。 (a)については、マルチスケール生成モデルと相互情報量(MI)の最大化の組み合わせを活用するネットワークアーキテクチャを提案します。 (b)については、2つの関連するが異なる概念を明確にする分析結果(補題1)を導き出します。MIの最大化の結果として生成される画像のセマンティック属性を制御する生成ネットワークの機能と、潜在空間を解きほぐす機能です。総相関最小化を介して取得された表現。より具体的には、セマンティック属性制御を最大化することで潜在因子の解きほぐしが促進されることを示します。補題1を使用し、損失関数にMIを採用すると、画像生成タスクの場合、提案されたアプローチが、他の最先端の方法と比較して、品質と解きほぐしのトレードスペースで測定された優れたパフォーマンスを示すことを経験的に示します。 Frechet Inception Distance(FID)を介して評価され、相互情報量のギャップを介して解きほぐされます。 (c)については、(a)で学習した表現を利用して異常検出用のいくつかのシステムを設計し、最先端の生成および識別アルゴリズムと比較した場合のパフォーマンス上の利点を示します。表現学習における上記の貢献は、AIのバイアスやプライバシーなど、コンピュータービジョンの他の重要な問題に対処する上で潜在的なアプリケーションを持っています。
Our work focuses on unsupervised and generative methods that address the following goals: (a) learning unsupervised generative representations that discover latent factors controlling image semantic attributes, (b) studying how this ability to control attributes formally relates to the issue of latent factor disentanglement, clarifying related but dissimilar concepts that had been confounded in the past, and (c) developing anomaly detection methods that leverage representations learned in (a). For (a), we propose a network architecture that exploits the combination of multiscale generative models with mutual information (MI) maximization. For (b), we derive an analytical result (Lemma 1) that brings clarity to two related but distinct concepts: the ability of generative networks to control semantic attributes of images they generate, resulting from MI maximization, and the ability to disentangle latent space representations, obtained via total correlation minimization. More specifically, we demonstrate that maximizing semantic attribute control encourages disentanglement of latent factors. Using Lemma 1 and adopting MI in our loss function, we then show empirically that, for image generation tasks, the proposed approach exhibits superior performance as measured in the quality and disentanglement trade space, when compared to other state of the art methods, with quality assessed via the Frechet Inception Distance (FID), and disentanglement via mutual information gap. For (c), we design several systems for anomaly detection exploiting representations learned in (a), and demonstrate their performance benefits when compared to state-of-the-art generative and discriminative algorithms. The above contributions in representation learning have potential applications in addressing other important problems in computer vision, such as bias and privacy in AI.
updated: Mon Jun 07 2021 15:50:10 GMT+0000 (UTC)
published: Tue Feb 25 2020 20:50:47 GMT+0000 (UTC)
