少数のショットの学習は、テスト時にほんの一握りのサンプルで新しいカテゴリに迅速に適応することを目的としています。これは主にメタ学習のアイデアで取り組んできました。ただし、メタ学習アプローチは基本的に、さまざまな数ショットのタスクにわたって学習するため、一般化されたモデルを導出するために、きめ細かい監視を伴う大規模なトレーニングデータが必要であり、それによって法外な注釈コストが発生します。このホワイトペーパーでは、数ショット分類パラダイムをより困難なシナリオ、つまり、モデルがトレーニング中に粗いラベルのみを観察し、テスト中にきめ細かい分類を実行することが期待される、粒度を超えた数ショット分類に向けて進めます。きめ細かいラベリングには通常、ドメイン固有の強力な専門知識が必要になるため、このタスクによりアノテーションのコストが大幅に削減されます。粒度間のギャップを埋めるために、画像埋め込みの類似性に従って、各粗いクラスを疑似細かいクラスに貪欲にクラスタリングすることにより、細かいデータ分布を概算します。次に、インスタンスごとと粗いクラスごとの両方で視覚的および意味的識別を共同で最適化するメタエンベッダーを提案し、この粗いものから細かいものへの疑似ラベリングプロセスに適した特徴空間を取得します。 3つの代表的なデータセットに対するアプローチの有効性と堅牢性を実証するために、広範な実験とアブレーション研究が実施されています。
Few-shot learning aims at rapidly adapting to novel categories with only a handful of samples at test time, which has been predominantly tackled with the idea of meta-learning. However, meta-learning approaches essentially learn across a variety of few-shot tasks and thus still require large-scale training data with fine-grained supervision to derive a generalized model, thereby involving prohibitive annotation cost. In this paper, we advance the few-shot classification paradigm towards a more challenging scenario, i.e., cross-granularity few-shot classification, where the model observes only coarse labels during training while is expected to perform fine-grained classification during testing. This task largely relieves the annotation cost since fine-grained labeling usually requires strong domain-specific expertise. To bridge the cross-granularity gap, we approximate the fine-grained data distribution by greedy clustering of each coarse-class into pseudo-fine-classes according to the similarity of image embeddings. We then propose a meta-embedder that jointly optimizes the visual- and semantic-discrimination, in both instance-wise and coarse class-wise, to obtain a good feature space for this coarse-to-fine pseudo-labeling process. Extensive experiments and ablation studies are conducted to demonstrate the effectiveness and robustness of our approach on three representative datasets.