限られたデータで学習することは、視覚認識の重要な課題です。多くの少数ショット学習メソッドは、見られたクラスからインスタンス埋め込み関数を学習することによってこの課題に対処し、限定されたラベルを持つ目に見えないクラスからのインスタンスに関数を適用します。この転移学習のスタイルは、タスクに依存しません。埋め込み関数は、見えないクラスに関して識別的に最適に学習されず、クラス間の識別がターゲットタスクにつながります。このホワイトペーパーでは、インスタンスの埋め込みをセットからセットへの関数を使用してターゲット分類タスクに適合させ、タスク固有の識別可能な埋め込みを生成する新しいアプローチを提案します。このようなセット間関数のさまざまなインスタンス化を経験的に調査し、トランスフォーマーが最も効果的であることを確認しました。トランスフォーマーは、目的のモデルの主要な特性を自然に満たすためです。このモデルをFEAT(トランスフォーマー付きの少数ショット埋め込み適応)として表し、標準的な少数ショット分類ベンチマークと、クロスドメイン、トランスダクティブ、一般化された4つの拡張少数ショット学習設定で検証します。少数ショット学習、およびローショット学習。ベースラインモデルと以前の方法に対する一貫した改善をアーカイブし、2つのベンチマークで新しい最先端の結果を確立しました。
Learning with limited data is a key challenge for visual recognition. Many few-shot learning methods address this challenge by learning an instance embedding function from seen classes and apply the function to instances from unseen classes with limited labels. This style of transfer learning is task-agnostic: the embedding function is not learned optimally discriminative with respect to the unseen classes, where discerning among them leads to the target task. In this paper, we propose a novel approach to adapt the instance embeddings to the target classification task with a set-to-set function, yielding embeddings that are task-specific and are discriminative. We empirically investigated various instantiations of such set-to-set functions and observed the Transformer is most effective -- as it naturally satisfies key properties of our desired model. We denote this model as FEAT (few-shot embedding adaptation w/ Transformer) and validate it on both the standard few-shot classification benchmark and four extended few-shot learning settings with essential use cases, i.e., cross-domain, transductive, generalized few-shot learning, and low-shot learning. It archived consistent improvements over baseline models as well as previous methods and established the new state-of-the-art results on two benchmarks.