画像内の豊富なセマンティクスは、他の画像とのあいまいな関係をもたらします。つまり、2つの画像は、ある条件では類似しているが、別の条件では異なる可能性があります。 「航空機」のようなトリプレットが「電車」よりも「鳥」に似ている場合、弱教師あり条件類似性学習(WS-CSL)は、「飛ぶことができる」などの明示的な条件ラベルなしで意味条件に一致する複数の埋め込みを学習します。ただし、トリプレットの類似関係は、条件を提供することを除いて不確実です。たとえば、条件付きラベルが「is Vehicle」に変わると、前の比較は無効になります。この目的のために、学習した埋め込みを最適条件に割り当てた後、比較の正確さを予測することにより、新しい評価基準を導入します。これは、WS-CSLが監視対象モデルとして潜在意味をカバーできる量を測定します。さらに、インスタンス-インスタンスおよびトリプレット-条件の関係を「分解して融合」する方法で特徴付ける、距離誘導セマンティック条件検証ネットワーク(DiscoverNet)を提案します。学習した埋め込みがすべてのセマンティクスをカバーするようにするために、DiscoverNetは、トリプレットと条件の間の対応に対して、セットモジュールまたは追加の正則化を利用します。 DiscoverNetは、UT-Zappos-50kやCeleb-Aなどのベンチマークでさまざまな基準で最先端のパフォーマンスを実現します。
Rich semantics inside an image result in its ambiguous relationship with others, i.e., two images could be similar in one condition but dissimilar in another. Given triplets like "aircraft" is similar to "bird" than "train", Weakly Supervised Conditional Similarity Learning (WS-CSL) learns multiple embeddings to match semantic conditions without explicit condition labels such as "can fly". However, similarity relationships in a triplet are uncertain except providing a condition. For example, the previous comparison becomes invalid once the conditional label changes to "is vehicle". To this end, we introduce a novel evaluation criterion by predicting the comparison's correctness after assigning the learned embeddings to their optimal conditions, which measures how much WS-CSL could cover latent semantics as the supervised model. Furthermore, we propose the Distance Induced Semantic COndition VERification Network (DiscoverNet), which characterizes the instance-instance and triplets-condition relations in a "decompose-and-fuse" manner. To make the learned embeddings cover all semantics, DiscoverNet utilizes a set module or an additional regularizer over the correspondence between a triplet and a condition. DiscoverNet achieves state-of-the-art performance on benchmarks like UT-Zappos-50k and Celeb-A w.r.t. different criteria.