マルチモーダル埋め込みは、クロスモーダルな理解、データマイニング、および翻訳のための重要な研究トピックです。多くの研究は、与えられたエンティティから表現を抽出し、それらを共有埋め込みスペースに配置しようと試みてきました。ただし、異なるモダリティのエンティティは異なる抽象化レベルとモダリティ固有の情報を示すため、関連するエンティティを互いに近くに埋め込むことは不十分です。本研究では、ターゲット指向変形ネットワーク(TOD-Net)を提案します。これは、特定の条件下で埋め込み空間を新しい空間に連続的に変形し、エンティティ間の類似性を調整する新しいモジュールです。クロスモーダルな注意に基づく方法とは異なり、TOD-Netは、既存の埋め込みシステムで学習した埋め込みスペースに適用される後処理であり、検索のパフォーマンスを向上させます。特に、最先端のモデルと組み合わせると、TOD-NetはMSCOCOデータセットに関連付けられた最先端のクロスモーダル検索モデルを取得します。定性分析により、TOD-Netは既存のモデルよりも高いレベルの多様性を処理することで、エンティティ固有の概念をうまく強調し、多様なターゲットを取得することが明らかになりました。
Multimodal embedding is a crucial research topic for cross-modal understanding, data mining, and translation. Many studies have attempted to extract representations from given entities and align them in a shared embedding space. However, because entities in different modalities exhibit different abstraction levels and modality-specific information, it is insufficient to embed related entities close to each other. In this study, we propose the Target-Oriented Deformation Network (TOD-Net), a novel module that continuously deforms the embedding space into a new space under a given condition, thereby adjusting similarities between entities. Unlike methods based on cross-modal attention, TOD-Net is a post-process applied to the embedding space learned by existing embedding systems and improves their performances of retrieval. In particular, when combined with cutting-edge models, TOD-Net gains the state-of-the-art cross-modal retrieval model associated with the MSCOCO dataset. Qualitative analysis reveals that TOD-Net successfully emphasizes entity-specific concepts and retrieves diverse targets via handling higher levels of diversity than existing models.