既存の数ショット学習(FSL)メソッドは、大きなラベル付きデータセットを使用したトレーニングに依存しているため、ラベルなしの豊富なデータを活用できません。情報理論の観点から、効果的な教師なしFSL法を提案し、自己監視で表現を学習します。 InfoMaxの原則に従って、私たちのメソッドは、データの固有の構造をキャプチャすることにより、包括的な表現を学習します。具体的には、インスタンスの相互情報量(MI)とその表現を低バイアスのMI推定量で最大化して、自己教師あり事前トレーニングを実行します。見られるクラスの識別可能な特徴に焦点を当てた教師あり事前トレーニングではなく、自己監視モデルは見られるクラスへのバイアスが少なく、見えないクラスの一般化が向上します。監視付き事前トレーニングと自己監視付き事前トレーニングは、実際にはさまざまなMI目標を最大化していることを説明します。さまざまなトレーニング設定でのFSLパフォーマンスを分析するために、さらに広範な実験が行われます。驚くべきことに、結果は、自己監視された事前トレーニングが、適切な条件下で監視された事前トレーニングよりも優れている可能性があることを示しています。最新のFSLメソッドと比較して、私たちのアプローチは、基本クラスのラベルがなくても、広く使用されているFSLベンチマークで同等のパフォーマンスを実現します。
Existing few-shot learning (FSL) methods rely on training with a large labeled dataset, which prevents them from leveraging abundant unlabeled data. From an information-theoretic perspective, we propose an effective unsupervised FSL method, learning representations with self-supervision. Following the InfoMax principle, our method learns comprehensive representations by capturing the intrinsic structure of the data. Specifically, we maximize the mutual information (MI) of instances and their representations with a low-bias MI estimator to perform self-supervised pre-training. Rather than supervised pre-training focusing on the discriminable features of the seen classes, our self-supervised model has less bias toward the seen classes, resulting in better generalization for unseen classes. We explain that supervised pre-training and self-supervised pre-training are actually maximizing different MI objectives. Extensive experiments are further conducted to analyze their FSL performance with various training settings. Surprisingly, the results show that self-supervised pre-training can outperform supervised pre-training under the appropriate conditions. Compared with state-of-the-art FSL methods, our approach achieves comparable performance on widely used FSL benchmarks without any labels of the base classes.