細粒度のクロスモーダル表現を学習する問題に対処します。視覚とテキストの共同空間におけるインスタンスベースのディープメトリック学習アプローチを提案します。このペーパーの重要な新奇性は、イメージごとのセマンティック監視を使用すると、クラスのみの監視を使用する場合よりもゼロショットパフォーマンスが大幅に向上することを示しています。その上で、一般化されたゼロショット学習設定での非常に一般的な問題を解決するメトリックリスケーリングアプローチの確率論的正当化を提供します。つまり、目に見えないクラスのテスト画像をトレーニング中に見られるクラスの1つとして分類します。 2つのきめ細かいゼロショット学習データセット(CUBとFLOWERS)に対するアプローチを評価します。一般化されたゼロショット分類タスクで、CLARELは両方のデータセットで既存のアプローチを一貫して上回っています。
We address the problem of learning fine-grained cross-modal representations. We propose an instance-based deep metric learning approach in joint visual and textual space. The key novelty of this paper is that it shows that using per-image semantic supervision leads to substantial improvement in zero-shot performance over using class-only supervision. On top of that, we provide a probabilistic justification for a metric rescaling approach that solves a very common problem in the generalized zero-shot learning setting, i.e., classifying test images from unseen classes as one of the classes seen during training. We evaluate our approach on two fine-grained zero-shot learning datasets: CUB and FLOWERS. We find that on the generalized zero-shot classification task CLAREL consistently outperforms the existing approaches on both datasets.