多くの実際のタスクでは、複数の類似性条件(たとえば、色、カテゴリ、または形状の類似性)に沿って画像を比較するモデルが必要です。既存の方法は、条件に応じた埋め込みを学習することにより、これらの複雑な類似性関係についてしばしば推論します。このような埋め込みは、モデルが類似性の異なる概念を学習するのに役立ちますが、テスト時に明示的なラベルが必要になるため、見えないカテゴリに一般化する機能も制限されます。この欠陥に対処するために、異なる類似性条件の表現と、明示的な監督なしに潜在変数としての貢献を共同で学習するアプローチを提案します。 Polyvore-Outfits、Maryland-Polyvore、UT-Zappos50kの3つのデータセットにわたる包括的な実験により、アプローチの有効性が実証されています。 、空欄記入、服装適合性予測およびトリプレット予測タスクについて。最後に、私たちのモデルが、視覚的に関連のないさまざまなセマンティックサブスペースを学習することで、見えないカテゴリにうまく一般化できることを示します。
Many real-world tasks require models to compare images along multiple similarity conditions (e.g. similarity in color, category or shape). Existing methods often reason about these complex similarity relationships by learning condition-aware embeddings. While such embeddings aid models in learning different notions of similarity, they also limit their capability to generalize to unseen categories since they require explicit labels at test time. To address this deficiency, we propose an approach that jointly learns representations for the different similarity conditions and their contributions as a latent variable without explicit supervision. Comprehensive experiments across three datasets, Polyvore-Outfits, Maryland-Polyvore and UT-Zappos50k, demonstrate the effectiveness of our approach: our model outperforms the state-of-the-art methods, even those that are strongly supervised with pre-defined similarity conditions, on fill-in-the-blank, outfit compatibility prediction and triplet prediction tasks. Finally, we show that our model learns different visually-relevant semantic sub-spaces that allow it to generalize well to unseen categories.