少数ショット学習(FSL)は、少数のトレーニング例からこれまでに見られなかった画像のカテゴリを認識することを学習するタスクです。利用可能な例では、検討対象のカテゴリに最も特徴的な視覚的特徴を明確に判断するには不十分な場合があるため、これは困難な作業です。この問題を軽減するために、画像クラスの名前を追加で考慮する方法を提案します。クラス名の使用は以前の作業ですでに検討されていますが、私たちのアプローチは2つの重要な側面で異なります。まず、以前の作業は単語の埋め込みから視覚的なプロトタイプを直接予測することを目的としていましたが、視覚的なプロトタイプとテキストベースのプロトタイプを別々に扱うことで、より良い結果が得られることがわかりました。次に、BERT言語モデルを使用してクラス名の埋め込みを学習するための簡単な戦略を提案します。これは、前の作業で使用されたGloVeベクトルよりも大幅に優れていることがわかりました。さらに、言語間の単語埋め込みを整列させるためのモデルに触発された、これらのベクトルの高次元性に対処するための戦略を提案します。 miniImageNet、CUB、tieredImageNetで実験を行い、私たちのアプローチがメトリックベースのFSLの最先端を一貫して改善することを示しています。
Few-shot learning (FSL) is the task of learning to recognize previously unseen categories of images from a small number of training examples. This is a challenging task, as the available examples may not be enough to unambiguously determine which visual features are most characteristic of the considered categories. To alleviate this issue, we propose a method that additionally takes into account the names of the image classes. While the use of class names has already been explored in previous work, our approach differs in two key aspects. First, while previous work has aimed to directly predict visual prototypes from word embeddings, we found that better results can be obtained by treating visual and text-based prototypes separately. Second, we propose a simple strategy for learning class name embeddings using the BERT language model, which we found to substantially outperform the GloVe vectors that were used in previous work. We furthermore propose a strategy for dealing with the high dimensionality of these vectors, inspired by models for aligning cross-lingual word embeddings. We provide experiments on miniImageNet, CUB and tieredImageNet, showing that our approach consistently improves the state-of-the-art in metric-based FSL.