HUSE: Hierarchical Universal Semantic Embeddings
 画像やテキストに対応するクロスモーダル表現学習への関心が最近高まっています。主な課題は、モダリティに関係なく、類似のセマンティック概念に対応する埋め込みが、異なるセマンティック概念に対応する埋め込みよりも互いに近くにある共有の潜在空間に画像とテキストをマッピングすることにあります。ランキング損失は、このような共有潜在スペースを作成するために一般的に使用されますが、クラス間の関係に制約を課すことはなく、結果として近隣のクラスターは完全に無関係になります。視覚的セマンティック埋め込みのドメインでの作業は、まず外部の知識に基づいてセマンティック埋め込みスペースを構築し、この固定されたセマンティック埋め込みスペースに画像埋め込みを投影することにより、この問題に対処します。これらの作業は画像ドメインのみに限定されており、埋め込みを固定スペースに制限すると、学習にさらに負担がかかります。本論文では、意味情報を用いたクロスモーダル表現を学習するための新しい方法であるHUSEを提案します。 HUSEは、2つのユニバーサル埋め込み間の距離が、セマンティック埋め込み空間内の対応するクラス埋め込み間の距離に似ている共有潜在空間を学習します。 HUSEは、共有分類レイヤーを持つ分類目標も使用して、画像とテキストの埋め込みが同じ共有潜在スペースにあることを確認します。 UPMC Food-101の実験は、検索、階層的精度、分類結果に関して、本手法が従来の最先端技術よりも優れていることを示しています。
There is a recent surge of interest in cross-modal representation learning corresponding to images and text. The main challenge lies in mapping images and text to a shared latent space where the embeddings corresponding to a similar semantic concept lie closer to each other than the embeddings corresponding to different semantic concepts, irrespective of the modality. Ranking losses are commonly used to create such shared latent space -- however, they do not impose any constraints on inter-class relationships resulting in neighboring clusters to be completely unrelated. The works in the domain of visual semantic embeddings address this problem by first constructing a semantic embedding space based on some external knowledge and projecting image embeddings onto this fixed semantic embedding space. These works are confined only to image domain and constraining the embeddings to a fixed space adds additional burden on learning. This paper proposes a novel method, HUSE, to learn cross-modal representation with semantic information. HUSE learns a shared latent space where the distance between any two universal embeddings is similar to the distance between their corresponding class embeddings in the semantic embedding space. HUSE also uses a classification objective with a shared classification layer to make sure that the image and text embeddings are in the same shared latent space. Experiments on UPMC Food-101 show our method outperforms previous state-of-the-art on retrieval, hierarchical precision and classification results.
updated: Thu Nov 14 2019 07:45:32 GMT+0000 (UTC)
published: Thu Nov 14 2019 07:45:32 GMT+0000 (UTC)
