人間の学習は、豊富なセマンティクスとして表示されることが多いマルチモーダル入力から恩恵を受けます(たとえば、オブジェクトについて学習している間のオブジェクトの属性の説明)。これにより、非常に限られた視覚的な例から一般化可能な概念を学ぶことができます。ただし、現在の数ショット学習(FSL)メソッドは、数値クラスラベルを使用して、学習した概念に関する豊富な意味を提供しないオブジェクトクラスを示します。この作業では、最小限の注釈コストで取得できる「クラスレベル」の言語記述を使用することで、FSLのパフォーマンスを向上できることを示します。サポートセットとクエリが与えられた場合、私たちの主なアイデアは、ボトルネックの視覚的機能(ハイブリッドプロトタイプ)を作成し、それを使用してトレーニング中の補助タスクとしてクラスの言語記述を生成することです。 2つのモダリティ間の複雑な関係をエンコードできる視覚的およびセマンティックトークンを関連付けるために、Transformerベースのフォワードおよびバックワードエンコードメカニズムを開発します。プロトタイプにクラス記述に関するセマンティック情報を保持させることは、視覚的特徴の正則化として機能し、推論時の新しいクラスへの一般化を改善します。さらに、この戦略は、学習された表現に人間の優先順位を課し、モデルが視覚的および意味論的概念に忠実に関連していることを保証し、それによってモデルの解釈可能性を向上させます。 4つのデータセットとアブレーション研究に関する私たちの実験は、FSLの豊富なセマンティクスを効果的にモデル化することの利点を示しています。
Human learning benefits from multi-modal inputs that often appear as rich semantics (e.g., description of an object's attributes while learning about it). This enables us to learn generalizable concepts from very limited visual examples. However, current few-shot learning (FSL) methods use numerical class labels to denote object classes which do not provide rich semantic meanings about the learned concepts. In this work, we show that by using 'class-level' language descriptions, that can be acquired with minimal annotation cost, we can improve the FSL performance. Given a support set and queries, our main idea is to create a bottleneck visual feature (hybrid prototype) which is then used to generate language descriptions of the classes as an auxiliary task during training. We develop a Transformer based forward and backward encoding mechanism to relate visual and semantic tokens that can encode intricate relationships between the two modalities. Forcing the prototypes to retain semantic information about class description acts as a regularizer on the visual features, improving their generalization to novel classes at inference. Furthermore, this strategy imposes a human prior on the learned representations, ensuring that the model is faithfully relating visual and semantic concepts, thereby improving model interpretability. Our experiments on four datasets and ablation studies show the benefit of effectively modeling rich semantics for FSL.