複数のモダリティの共同埋め込みを学習する際の重要な課題の1つ。画像とテキストの、データセット全体で一般化する一貫したクロスモーダルセマンティクスを確保することです。潜在表現のガウス正則化を組み合わせることでこれに対処することを提案します。 Wassersteinオートエンコーダー(WAE)を構築して各ドメインの入力をエンコードし、2つのドメインで共有されるガウス事前分布に類似するように潜在的な埋め込みを強制し、エンコードされた画像とテキストのセマンティック表現の互換性を確保します。セマンティックアライメントは、一致する画像とテキストのペアからの監視によって実現されます。半教師付き表現の利点を示すために、クロスモーダル検索とフレーズローカリゼーションに適用します。潜在空間のセマンティック連続性により、最先端の精度を達成するだけでなく、データセット全体の一般化を大幅に改善します。
One of the key challenges in learning joint embeddings of multiple modalities, e.g. of images and text, is to ensure coherent cross-modal semantics that generalize across datasets. We propose to address this through joint Gaussian regularization of the latent representations. Building on Wasserstein autoencoders (WAEs) to encode the input in each domain, we enforce the latent embeddings to be similar to a Gaussian prior that is shared across the two domains, ensuring compatible continuity of the encoded semantic representations of images and texts. Semantic alignment is achieved through supervision from matching image-text pairs. To show the benefits of our semi-supervised representation, we apply it to cross-modal retrieval and phrase localization. We not only achieve state-of-the-art accuracy, but significantly better generalization across datasets, owing to the semantic continuity of the latent space.