クロスモーダル検索の主な課題は、画像やテキストなど、異なるモダリティで表されるオブジェクト間の類似性を見つけることです。ただし、各モダリティの埋め込みは、関連のない特徴空間に由来するため、悪名高い「不均一性のギャップ」が発生します。現在、多くのクロスモーダルシステムは、自己注意でギャップを埋めようとしています。ただし、自己注意は、その2次の複雑さで広く批判されており、多くの実際のアプリケーションを妨げています。これに応えて、レコメンダーシステムの分野から最近導入された効率的な多様体密度推定器(EMDE)に触発された神経密度推定器であるT-EMDEを提案します。 EMDEはスケッチ(マルチモーダル操作に特に適した表現)で動作します。ただし、EMDEは微分不可能であり、事前に計算された静的埋め込みを取り込みます。 T-EMDEでは、完全なエンドツーエンドのトレーニングを可能にするトレーニング可能なバージョンのEMDEを導入しています。自己注意とは対照的に、私たちのソリューションの複雑さは、トークン/セグメントの数に比例します。そのため、T-EMDEは、セルフアテンションモジュールのドロップイン代替品であり、クロスモーダル設定での速度とメトリックパフォーマンスの両方に有益な影響を及ぼします。各グローバルテキスト/画像表現は、基礎となるモダリティに関係なく同じ多様体構造を表す標準化されたスケッチヒストグラムで表現されるため、モダリティ間の通信が容易になります。 T-EMDEを2つの最近のクロスモーダルSOTAモデルに導入し、複数のデータセットで新しい最先端の結果を達成し、モデルのレイテンシーを最大20%削減することで、T-EMDEを評価します。
The key challenge in cross-modal retrieval is to find similarities between objects represented with different modalities, such as image and text. However, each modality embeddings stem from non-related feature spaces, which causes the notorious 'heterogeneity gap'. Currently, many cross-modal systems try to bridge the gap with self-attention. However, self-attention has been widely criticized for its quadratic complexity, which prevents many real-life applications. In response to this, we propose T-EMDE - a neural density estimator inspired by the recently introduced Efficient Manifold Density Estimator (EMDE) from the area of recommender systems. EMDE operates on sketches - representations especially suitable for multimodal operations. However, EMDE is non-differentiable and ingests precomputed, static embeddings. With T-EMDE we introduce a trainable version of EMDE which allows full end-to-end training. In contrast to self-attention, the complexity of our solution is linear to the number of tokens/segments. As such, T-EMDE is a drop-in replacement for the self-attention module, with beneficial influence on both speed and metric performance in cross-modal settings. It facilitates communication between modalities, as each global text/image representation is expressed with a standardized sketch histogram which represents the same manifold structures irrespective of the underlying modality. We evaluate T-EMDE by introducing it into two recent cross-modal SOTA models and achieving new state-of-the-art results on multiple datasets and decreasing model latency by up to 20%.