視覚的セマンティック埋め込みの場合、既存のメソッドは通常、クエリと候補の関連性を双極的に処理します。関連性または無関係であり、すべての「無関係な」候補は、埋め込みスペースの等しいマージンによってクエリから均一にプッシュされます。クエリへのさまざまな近接性。この慣行は、比較的差別的な情報を無視し、特に一致する候補が必ずしも存在しない可能性があるロングテールクエリシナリオで、検索結果での最適以下のランキングおよびより悪いユーザーエクスペリエンスにつながる可能性があります。この論文では、クエリと複数の候補の間の関連度をモデル化する連続変数を導入し、関連度の高い候補が関連度の低い候補よりもクエリの近くにマッピングされるコヒーレントな埋め込みスペースを学習することを提案します。特に、新しいラダー損失は、トリプレット損失不等式をより一般的な不等式チェーンに拡張することにより提案され、それぞれの関連度に応じて可変プッシュアウェイマージンを実装します。さらに、適切なコヒーレントスコアメトリックを提案して、これらの「無関係な」候補を含むランキング結果をより適切に測定します。複数のデータセットでの広範な実験により、既存の最先端の方法よりも大幅に改善された提案方法の有効性が検証されます。
For visual-semantic embedding, the existing methods normally treat the relevance between queries and candidates in a bipolar way -- relevant or irrelevant, and all "irrelevant" candidates are uniformly pushed away from the query by an equal margin in the embedding space, regardless of their various proximity to the query. This practice disregards relatively discriminative information and could lead to suboptimal ranking in the retrieval results and poorer user experience, especially in the long-tail query scenario where a matching candidate may not necessarily exist. In this paper, we introduce a continuous variable to model the relevance degree between queries and multiple candidates, and propose to learn a coherent embedding space, where candidates with higher relevance degrees are mapped closer to the query than those with lower relevance degrees. In particular, the new ladder loss is proposed by extending the triplet loss inequality to a more general inequality chain, which implements variable push-away margins according to respective relevance degrees. In addition, a proper Coherent Score metric is proposed to better measure the ranking results including those "irrelevant" candidates. Extensive experiments on multiple datasets validate the efficacy of our proposed method, which achieves significant improvement over existing state-of-the-art methods.