ゼロショット学習(ZSL)は、意味の説明を介して見られたクラスとの関係を利用することにより、目に見えないクラスから画像を区別することを目的としています。最近のいくつかの論文では、特徴的な抽出可能な特徴を得るために特徴抽出器を微調整するとともに、ローカライズされた特徴の重要性を示しています。ただし、これらの方法では、視覚空間で明示的なローカリゼーションを実行するために、複雑な注意または部品検出モジュールが必要です。対照的に、この論文では、ローカリゼーションが暗黙的であるシンプルだが効果的なパイプラインを使用して、セマンティック/属性空間でローカライズ表現を提案します。属性表現に焦点を当てると、この方法がCUBおよびSUNデータセットで最先端のパフォーマンスを取得し、AWA2データセットで競争力のある結果を達成し、視覚空間での明示的なローカリゼーションにより、一般的により複雑なメソッドよりも優れていることを示します。私たちの方法は簡単に実装でき、ゼロショット学習の新しいベースラインとして使用できます。さらに、ローカライズされた表現は、属性固有のヒートマップとして非常に解釈可能です。
Zero-shot learning (ZSL) aims to discriminate images from unseen classes by exploiting relations to seen classes via their semantic descriptions. Some recent papers have shown the importance of localized features together with fine-tuning the feature extractor to obtain discriminative and transferable features. However, these methods require complex attention or part detection modules to perform explicit localization in the visual space. In contrast, in this paper we propose localizing representations in the semantic/attribute space, with a simple but effective pipeline where localization is implicit. Focusing on attribute representations, we show that our method obtains state-of-the-art performance on CUB and SUN datasets, and also achieves competitive results on AWA2 dataset, outperforming generally more complex methods with explicit localization in the visual space. Our method can be implemented easily, which can be used as a new baseline for zero shot-learning. In addition, our localized representations are highly interpretable as attribute-specific heatmaps.