実社会のデータセットは、人種や性別などの主要な人口統計学的要因に関して偏っていることがよくあります。根本的な要因の潜在的な性質により、バイアスの検出と緩和は、教師なし機械学習にとって特に困難です。深い生成モデルのデータセットバイアスを克服するための弱く監視されたアルゴリズムを提示します。私たちのアプローチでは、監視信号として追加の小さなラベルなし参照データセットにアクセスする必要があるため、基礎となるバイアス要因に明示的なラベルを付ける必要がなくなります。この補足データセットを使用して、密度比手法によって既存のデータセットのバイアスを検出し、次の2つの目標を効率的に達成する生成モデルを学習します。1)学習用のバイアスデータセットと参照データセットの両方からのトレーニング例を使用してデータ効率。 2)テスト時に参照データセットに分布が近いデータ生成。経験的に、バイアスw.r.tを低減するアプローチの有効性を示します。生成的敵対的ネットワークを使用した同等の画像生成のベースラインに対して平均34.6%まで潜在要素。
Real-world datasets are often biased with respect to key demographic factors such as race and gender. Due to the latent nature of the underlying factors, detecting and mitigating bias is especially challenging for unsupervised machine learning. We present a weakly supervised algorithm for overcoming dataset bias for deep generative models. Our approach requires access to an additional small, unlabeled reference dataset as the supervision signal, thus sidestepping the need for explicit labels on the underlying bias factors. Using this supplementary dataset, we detect the bias in existing datasets via a density ratio technique and learn generative models which efficiently achieve the twin goals of: 1) data efficiency by using training examples from both biased and reference datasets for learning; and 2) data generation close in distribution to the reference dataset at test time. Empirically, we demonstrate the efficacy of our approach which reduces bias w.r.t. latent factors by an average of up to 34.6% over baselines for comparable image generation using generative adversarial networks.