この作業は、実世界のデータセットの明示的な生成モデルを学習するための新しい計算フレームワークを提案します。特に、複数の独立した多次元線形部分空間で構成される特徴空間における、マルチクラス多次元データ分布と線形識別表現(LDR)の間の閉ループ転写を学習することを提案します。特に、求められる最適なエンコードとデコードのマッピングは、エンコーダーとデコーダーの間の2人用ミニマックスゲームの平衡点として定式化できると主張します。このゲームの自然な効用関数は、いわゆるレートリダクションです。これは、特徴空間内の部分空間のようなガウス分布の混合物間の距離の単純な情報理論的尺度です。私たちの定式化は、制御システムからの閉ループエラーフィードバックからインスピレーションを得て、データ空間または特徴空間のいずれかにおける任意の分布間の近似距離を評価して最小化することを回避します。この新しい定式化は、自動エンコードとGANの概念と利点を大幅に統合し、マルチクラスおよび多次元の実世界データの識別表現と生成表現の両方を学習する設定に自然に拡張します。多くのベンチマーク画像データセットでの広範な実験は、この新しい閉ループ定式化の途方もない可能性を示しています。公正な比較の下で、学習したデコーダーの視覚的品質とエンコーダーの分類パフォーマンスは競争力があり、GAN、VAE、または両方の組み合わせ。さまざまなクラスのそのように学習された特徴が、特徴空間内のほぼ独立した主部分空間に明示的にマッピングされていることに気づきました。各クラス内の多様な視覚的属性は、各部分空間内の独立した主成分によってモデル化されます。
This work proposes a new computational framework for learning an explicit generative model for real-world datasets. In particular we propose to learn a closed-loop transcription between a multi-class multi-dimensional data distribution and a linear discriminative representation (LDR) in the feature space that consists of multiple independent multi-dimensional linear subspaces. In particular, we argue that the optimal encoding and decoding mappings sought can be formulated as the equilibrium point of a two-player minimax game between the encoder and decoder. A natural utility function for this game is the so-called rate reduction, a simple information-theoretic measure for distances between mixtures of subspace-like Gaussians in the feature space. Our formulation draws inspiration from closed-loop error feedback from control systems and avoids expensive evaluating and minimizing approximated distances between arbitrary distributions in either the data space or the feature space. To a large extent, this new formulation unifies the concepts and benefits of Auto-Encoding and GAN and naturally extends them to the settings of learning a both discriminative and generative representation for multi-class and multi-dimensional real-world data. Our extensive experiments on many benchmark imagery datasets demonstrate tremendous potential of this new closed-loop formulation: under fair comparison, visual quality of the learned decoder and classification performance of the encoder is competitive and often better than existing methods based on GAN, VAE, or a combination of both. We notice that the so learned features of different classes are explicitly mapped onto approximately independent principal subspaces in the feature space; and diverse visual attributes within each class are modeled by the independent principal components within each subspace.