Generative Adversarial Network(GAN)のような生成モデルのトレーニングは、ノイズの多いデータでは困難です。この問題に対処するために、クラスタリングに関する新しいカリキュラム学習アルゴリズムを提案します。カリキュラムの構築は、データポイントの基になるクラスターの中心性に基づいています。中心性の高いデータポイントは、トレーニング中に生成モデルに入力されることを優先します。アルゴリズムを大規模データにスケーラブルにするために、アクティブセットが考案されています。つまり、トレーニングのすべてのラウンドは、トレーニング済みデータのごく一部と中心性の低いインクリメンタルデータを含むアクティブサブセットでのみ進行します。さらに、生成モデルのクラスターカリキュラムの必要性を解釈するために、幾何学的分析が提示されています。猫と人間の顔のデータに関する実験により、アルゴリズムがノイズの多いデータの指定された品質指標に関して最適な生成モデル(ProGANなど)を学習できることが検証されます。興味深い発見は、最適なクラスターカリキュラムが、論文で定式化された幾何学的浸透プロセスの臨界点に密接に関連していることです。
Training generative models like Generative Adversarial Network (GAN) is challenging for noisy data. A novel curriculum learning algorithm pertaining to clustering is proposed to address this issue in this paper. The curriculum construction is based on the centrality of underlying clusters in data points. The data points of high centrality takes priority of being fed into generative models during training. To make our algorithm scalable to large-scale data, the active set is devised, in the sense that every round of training proceeds only on an active subset containing a small fraction of already trained data and the incremental data of lower centrality. Moreover, the geometric analysis is presented to interpret the necessity of cluster curriculum for generative models. The experiments on cat and human-face data validate that our algorithm is able to learn the optimal generative models (e.g. ProGAN) with respect to specified quality metrics for noisy data. An interesting finding is that the optimal cluster curriculum is closely related to the critical point of the geometric percolation process formulated in the paper.