Zero-Shot Learning (ZSL) は、分類機能を目に見えるクラスから目に見えないクラスに移すことを目的としています。最近の方法では、一般化と専門化が ZSL で優れたパフォーマンスを達成するための 2 つの重要な能力であることが証明されています。ただし、能力の 1 つだけに焦点を当てると、モデルが一般的すぎて分類能力が低下するか、特殊すぎて見えないクラスに一般化できないモデルになる可能性があります。このホワイト ペーパーでは、BGSNet と呼ばれるエンドツーエンド ネットワークを提案します。これは、インスタンスとデータセット レベルで一般化と特殊化の機能を装備し、バランスを取ります。具体的には、BGSNet は 2 つのブランチで構成されています。一般化された知識を学習するためにエピソードメタ学習を適用する Generalization Network (GNet) と、複数の注意深い抽出器を採用して識別機能を抽出し、インスタンス レベルのバランスを達成する Balanced Specialization Network (BSNet) です。 .新しい自己調整ダイバーシティ損失は、冗長性を減らしてダイバーシティを強化して BSNet を最適化するように設計されています。さらに、微分可能なデータセット レベルのバランスを提案し、線形アニーリング スケジュールで重みを更新して、ネットワーク プルーニングをシミュレートし、データセット レベルのバランスが達成された BSNet の最適な構造を取得します。 4 つのベンチマーク データセットでの実験により、モデルの有効性が実証されました。十分なコンポーネントのアブレーションは、一般化と専門化の能力を統合し、バランスを取る必要性を証明しています。
Zero-Shot Learning (ZSL) aims to transfer classification capability from seen to unseen classes. Recent methods have proved that generalization and specialization are two essential abilities to achieve good performance in ZSL. However, focusing on only one of the abilities may result in models that are either too general with degraded classification ability or too specialized to generalize to unseen classes. In this paper, we propose an end-to-end network, termed as BGSNet, which equips and balances generalization and specialization abilities at the instance and dataset level. Specifically, BGSNet consists of two branches: the Generalization Network (GNet), which applies episodic meta-learning to learn generalized knowledge, and the Balanced Specialization Network (BSNet), which adopts multiple attentive extractors to extract discriminative features and achieve instance-level balance. A novel self-adjusted diversity loss is designed to optimize BSNet with redundancy reduced and diversity boosted. We further propose a differentiable dataset-level balance and update the weights in a linear annealing schedule to simulate network pruning and thus obtain the optimal structure for BSNet with dataset-level balance achieved. Experiments on four benchmark datasets demonstrate our model's effectiveness. Sufficient component ablations prove the necessity of integrating and balancing generalization and specialization abilities.