CANZSL: Cycle-Consistent Adversarial Networks for Zero-Shot Learning from Natural Language
  ゼロショット学習(ZSL)の生成的敵対的アプローチを使用する既存の方法は、制約が非常に小さい単一の生成ネットワークにより、クラスセマンティクスから現実的な視覚的特徴を生成することを目的としています。その結果、以前のメソッドは、生成された視覚的特徴が対応するセマンティクスを忠実に反映できることを保証できません。この問題に対処するには、ゼロショット学習(CANZSL)のためのサイクル一貫性のある敵対ネットワークという新しい方法を提案します。視覚的特徴ジェネレータは、セマンティクスから現実的な視覚的特徴を合成し、その後、意味的特徴ジェネレータによって視覚的特徴を対応する意味的空間に逆変換して逆変換することを推奨します。さらに、この論文では、以前の研究で広く使用されているクリーンなセマンティクスではなく、元のセマンティクスが無関係な単語を含む自然言語からのものである場合、より挑戦的で実用的なZSL問題を検討します。具体的には、マルチモーダルで一貫性のある双方向の生成的敵対ネットワークが、自然言語のノイズを活用することにより、見えないインスタンスを処理するように訓練されています。 1つのテキスト記述から複数の視覚機能への順方向1対多マッピングは、視覚空間から意味空間への逆多対1マッピングと結合されます。したがって、合成されたセマンティック表現とグラウンドトゥルース間のマルチモーダルサイクル一貫性損失を学習し、生成されたセマンティックフィーチャを強制してセマンティック空間の実際の分布に近づけることができます。私たちの方法が自然言語ベースのゼロショット学習タスクで常に最先端のアプローチよりも優れていることを示すために、広範な実験が行われています。
Existing methods using generative adversarial approaches for Zero-Shot Learning (ZSL) aim to generate realistic visual features from class semantics by a single generative network, which is highly under-constrained. As a result, the previous methods cannot guarantee that the generated visual features can truthfully reflect the corresponding semantics. To address this issue, we propose a novel method named Cycle-consistent Adversarial Networks for Zero-Shot Learning (CANZSL). It encourages a visual feature generator to synthesize realistic visual features from semantics, and then inversely translate back synthesized the visual feature to corresponding semantic space by a semantic feature generator. Furthermore, in this paper a more challenging and practical ZSL problem is considered where the original semantics are from natural language with irrelevant words instead of clean semantics that are widely used in previous work. Specifically, a multi-modal consistent bidirectional generative adversarial network is trained to handle unseen instances by leveraging noise in the natural language. A forward one-to-many mapping from one text description to multiple visual features is coupled with an inverse many-to-one mapping from the visual space to the semantic space. Thus, a multi-modal cycle-consistency loss between the synthesized semantic representations and the ground truth can be learned and leveraged to enforce the generated semantic features to approximate to the real distribution in semantic space. Extensive experiments are conducted to demonstrate that our method consistently outperforms state-of-the-art approaches on natural language-based zero-shot learning tasks.
updated: Sat Sep 21 2019 13:19:15 GMT+0000 (UTC)
published: Sat Sep 21 2019 13:19:15 GMT+0000 (UTC)
