マルチモーダル固有表現抽出(MNERおよびMRE)は、情報抽出における基本的かつ重要なブランチです。ただし、MNERおよびMREの既存のアプローチでは、通常、無関係なオブジェクト画像がテキストに組み込まれている場合にエラー感度が低下します。これらの問題に対処するために、より効果的で堅牢なパフォーマンスを実現することを目的として、視覚的に強化されたエンティティと関係の抽出のための新しい階層型視覚プレフィックス融合NeTwork(HVPNeT)を提案します。具体的には、視覚的表現をプラグイン可能な視覚的プレフィックスと見なして、エラーの影響を受けない予測決定のためのテキスト表現をガイドします。さらに、融合の視覚的接頭辞として階層的なマルチスケールの視覚的特徴を実現するための動的ゲート集約戦略を提案します。 3つのベンチマークデータセットでの広範な実験は、私たちの方法の有効性を実証し、最先端のパフォーマンスを達成します。コードはhttps://github.com/zjunlp/HVPNeTで入手できます。
Multimodal named entity recognition and relation extraction (MNER and MRE) is a fundamental and crucial branch in information extraction. However, existing approaches for MNER and MRE usually suffer from error sensitivity when irrelevant object images incorporated in texts. To deal with these issues, we propose a novel Hierarchical Visual Prefix fusion NeTwork (HVPNeT) for visual-enhanced entity and relation extraction, aiming to achieve more effective and robust performance. Specifically, we regard visual representation as pluggable visual prefix to guide the textual representation for error insensitive forecasting decision. We further propose a dynamic gated aggregation strategy to achieve hierarchical multi-scaled visual features as visual prefix for fusion. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our method, and achieve state-of-the-art performance. Code is available in https://github.com/zjunlp/HVPNeT.