クラスの不均衡なデータセットは、モデルが多数派クラスに偏るという問題を引き起こすことが知られています。このプロジェクトでは、2 つの研究課題を設定しました。 2) 特徴表現のオフライン クラスタリングは、クラスの不均衡なデータの事前トレーニングに役立ちますか?私たちの実験では、ベースライン モデル、つまり CIFAR-10 データベースの SimCLR と SimSiam をトレーニングするときに、クラスの不均衡の程度を調整することによって、前者の問題を調査します。後者の質問に答えるために、特徴クラスターの各サブセットで各エキスパート モデルをトレーニングします。次に、エキスパート モデルの知識を 1 つのモデルに抽出して、このモデルのパフォーマンスをベースラインと比較できるようにします。
Class-imbalanced datasets are known to cause the problem of model being biased towards the majority classes. In this project, we set up two research questions: 1) when is the class-imbalance problem more prevalent in self-supervised pre-training? and 2) can offline clustering of feature representations help pre-training on class-imbalanced data? Our experiments investigate the former question by adjusting the degree of class-imbalance when training the baseline models, namely SimCLR and SimSiam on CIFAR-10 database. To answer the latter question, we train each expert model on each subset of the feature clusters. We then distill the knowledge of expert models into a single model, so that we will be able to compare the performance of this model to our baselines.