arXiv reaDer
マルチモーダルエンティティアライメントにおける、不確実かつ曖昧な視覚モダリティの再考
Rethinking Uncertainly Missing and Ambiguous Visual Modality in Multi-Modal Entity Alignment
エンティティ アライメント (EA) の重要な拡張として、マルチモーダル エンティティ アライメント (MMEA) は、関連する視覚情報を活用することで、異種のナレッジ グラフ (KG) 間で同一のエンティティを識別することを目的としています。しかし、既存の MMEA アプローチは主にマルチモーダル エンティティ特徴の融合パラダイムに焦点を当てており、視覚画像の欠落や本質的な曖昧さという蔓延する現象によってもたらされる課題を無視しています。この論文では、私たちが提案するデータセット MMEA-UMVM で最新の MMEA モデルをベンチマークし、視覚モダリティの不完全性のさらなる分析を示します。アライメント KG の種類はバイリンガルとモノリンガルをカバーし、評価には標準 (非反復) および反復トレーニング パラダイムを使用します。モデルのパフォーマンス。私たちの調査によると、モダリティの不完全性に直面すると、モデルはモダリティ ノイズの過剰適合に陥り、モダリティが欠落している割合が高くなるとパフォーマンスの変動または低下を示します。これは、追加のマルチモーダル データを含めると EA に悪影響を及ぼす可能性があることを証明しています。これらの課題に対処するために、私たちは UMAEA を導入します。UMAEA は、不確実かつ曖昧な視覚モダリティに対処するために設計された、堅牢なマルチモーダル エンティティ アラインメント アプローチです。 97 のベンチマーク分割すべてで SOTA パフォーマンスを一貫して達成し、限られたパラメータと時間消費で既存のベースラインを大幅に上回り、同時に他のモデルで特定された制限を効果的に軽減します。コードとベンチマーク データは https://github.com/zjukg/UMAEA で入手できます。
As a crucial extension of entity alignment (EA), multi-modal entity alignment (MMEA) aims to identify identical entities across disparate knowledge graphs (KGs) by exploiting associated visual information. However, existing MMEA approaches primarily concentrate on the fusion paradigm of multi-modal entity features, while neglecting the challenges presented by the pervasive phenomenon of missing and intrinsic ambiguity of visual images. In this paper, we present a further analysis of visual modality incompleteness, benchmarking latest MMEA models on our proposed dataset MMEA-UMVM, where the types of alignment KGs covering bilingual and monolingual, with standard (non-iterative) and iterative training paradigms to evaluate the model performance. Our research indicates that, in the face of modality incompleteness, models succumb to overfitting the modality noise, and exhibit performance oscillations or declines at high rates of missing modality. This proves that the inclusion of additional multi-modal data can sometimes adversely affect EA. To address these challenges, we introduce UMAEA , a robust multi-modal entity alignment approach designed to tackle uncertainly missing and ambiguous visual modalities. It consistently achieves SOTA performance across all 97 benchmark splits, significantly surpassing existing baselines with limited parameters and time consumption, while effectively alleviating the identified limitations of other models. Our code and benchmark data are available at https://github.com/zjukg/UMAEA.
updated: Sun Jul 30 2023 12:16:49 GMT+0000 (UTC)
published: Sun Jul 30 2023 12:16:49 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト