arXiv reaDer
ゼロショット学習のための意味論から視覚への混乱を解きほぐす
Disentangling Semantic-to-visual Confusion for Zero-shot Learning
生成モデルを使用してセマンティック分布から視覚的特徴を合成することは、近年のZSL画像分類に対する最も一般的なソリューションの1つです。トリプレットロス(TL)は、識別表現を自動的に検索することにより、セマンティクスから現実的な視覚分布を生成するために広く使用されています。ただし、従来のTLは、ZSLで見えないクラスが利用できないため、信頼できる見えないもつれのない表現を検索できません。この欠点を軽減するために、この作業では、マルチモーダル情報を利用して解きほぐされた表現空間を検索するマルチモーダルトリプレットロス(MMTL)を提案します。そのため、すべてのクラスが相互作用できるため、検索された空間で解きほぐされたクラス表現を学習するのに役立ちます。さらに、トレーニング、特徴合成、および最終認識段階で解きほぐされた表現を活用することに焦点を当てた、解きほぐしクラス表現生成的敵対的ネットワーク(DCR-GAN)と呼ばれる新しいモデルを開発します。解きほぐされた表現の恩恵を受けて、DCR-GANは、見えている特徴と見えていない特徴の両方にわたって、より現実的な分布に適合させることができます。広範な実験により、提案されたモデルは、4つのベンチマークデータセットで最先端のパフォーマンスよりも優れたパフォーマンスを実現できることが示されています。私たちのコードはhttps://github.com/FouriYe/DCRGAN-TMMで入手できます。
Using generative models to synthesize visual features from semantic distribution is one of the most popular solutions to ZSL image classification in recent years. The triplet loss (TL) is popularly used to generate realistic visual distributions from semantics by automatically searching discriminative representations. However, the traditional TL cannot search reliable unseen disentangled representations due to the unavailability of unseen classes in ZSL. To alleviate this drawback, we propose in this work a multi-modal triplet loss (MMTL) which utilizes multimodal information to search a disentangled representation space. As such, all classes can interplay which can benefit learning disentangled class representations in the searched space. Furthermore, we develop a novel model called Disentangling Class Representation Generative Adversarial Network (DCR-GAN) focusing on exploiting the disentangled representations in training, feature synthesis, and final recognition stages. Benefiting from the disentangled representations, DCR-GAN could fit a more realistic distribution over both seen and unseen features. Extensive experiments show that our proposed model can lead to superior performance to the state-of-the-arts on four benchmark datasets. Our code is available at https://github.com/FouriYe/DCRGAN-TMM.
updated: Wed Jun 16 2021 08:04:11 GMT+0000 (UTC)
published: Wed Jun 16 2021 08:04:11 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト