arXiv reaDer
分離された特徴生成による変換ゼロショット学習
Transductive Zero-Shot Learning by Decoupled Feature Generation
この論文では、トレーニング中にラベル付けされた視覚データが利用できないカテゴリを認識する問題であるゼロショット学習(ZSL)について説明します。目に見えないクラスからのラベルのない視覚データが利用できるトランスダクティブ設定に焦点を当てます。 ZSLの最先端のパラダイムは、通常、生成的敵対的ネットワークを利用して、セマンティック属性から視覚的特徴を合成します。これらのアプローチの主な制限は、1)現実的な視覚的特徴の生成、および2)セマンティック属性の視覚的手がかりへの変換という2つの問題に直面する単一のモデルを採用することであると考えます。別の方法として、このようなタスクを分離し、個別に解決することを提案します。特に、視覚データの分布の複雑さのみをキャプチャするように無条件ジェネレーターをトレーニングし、その後、クラス埋め込みのセマンティックコンテンツでデータ分布の事前知識を強化するための条件付きジェネレーターとペアにします。関連する最先端技術に対する優位性を実証しながら、提案されたデカップリングアプローチの効果を分析するための詳細なアブレーション研究を提示します。
In this paper, we address zero-shot learning (ZSL), the problem of recognizing categories for which no labeled visual data are available during training. We focus on the transductive setting, in which unlabelled visual data from unseen classes is available. State-of-the-art paradigms in ZSL typically exploit generative adversarial networks to synthesize visual features from semantic attributes. We posit that the main limitation of these approaches is to adopt a single model to face two problems: 1) generating realistic visual features, and 2) translating semantic attributes into visual cues. Differently, we propose to decouple such tasks, solving them separately. In particular, we train an unconditional generator to solely capture the complexity of the distribution of visual data and we subsequently pair it with a conditional generator devoted to enrich the prior knowledge of the data distribution with the semantic content of the class embeddings. We present a detailed ablation study to dissect the effect of our proposed decoupling approach, while demonstrating its superiority over the related state-of-the-art.
updated: Tue Sep 14 2021 13:19:08 GMT+0000 (UTC)
published: Fri Feb 05 2021 16:17:52 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト