ゼロショット学習(ZSL)のためのシンプルでありながら効果的なエピソードベースのトレーニングフレームワークを紹介します。学習システムでは、対応するクラスセマンティクスのみが与えられた未認識のクラスを認識する必要があります。トレーニング中、モデルはエピソードのコレクション内でトレーニングされ、各エピソードはゼロショット分類タスクをシミュレートするように設計されています。複数のエピソードをトレーニングすることにより、モデルは模倣の目に見えないクラスの予測に関するアンサンブルの経験を徐々に蓄積します。これは、実際の目に見えないクラスで一般化されます。このトレーニングフレームワークに基づいて、クラスのセマンティックプロトタイプを条件とする視覚的なプロトタイプを合成する新しい生成モデルを提案します。提案されたモデルは、視覚的なプロトタイプの生成とクラスのセマンティックな推論の両方を、差別的な情報を取得するためのパラメーター経済的なマルチモーダルクロスエントロピー損失と対になっている敵対的なフレームワークに定式化することにより、視覚的意味の相互作用を調整します。従来のZSLタスクと一般化されたZSLタスクの両方で4つのデータセットを広範囲に実験した結果、モデルが最先端のアプローチを大幅に上回っています。
We introduce a simple yet effective episode-based training framework for zero-shot learning (ZSL), where the learning system requires to recognize unseen classes given only the corresponding class semantics. During training, the model is trained within a collection of episodes, each of which is designed to simulate a zero-shot classification task. Through training multiple episodes, the model progressively accumulates ensemble experiences on predicting the mimetic unseen classes, which will generalize well on the real unseen classes. Based on this training framework, we propose a novel generative model that synthesizes visual prototypes conditioned on the class semantic prototypes. The proposed model aligns the visual-semantic interactions by formulating both the visual prototype generation and the class semantic inference into an adversarial framework paired with a parameter-economic Multi-modal Cross-Entropy Loss to capture the discriminative information. Extensive experiments on four datasets under both traditional ZSL and generalized ZSL tasks show that our model outperforms the state-of-the-art approaches by large margins.