arXiv reaDer
CFSum: マルチモーダル要約のための粗いものから細かいものまでの貢献ネットワーク
CFSum: A Coarse-to-Fine Contribution Network for Multimodal Summarization
マルチモーダル要約は通常、視覚的モダリティの寄与が不明確であるという問題に悩まされます。既存のマルチモーダル要約アプローチは、視覚的モダリティが有用である適応条件を無視しながら、異なるモダリティの融合方法の設計に重点を置いています。したがって、要約のための画像のさまざまな寄与を考慮するために、マルチモーダル要約のための新しい Coarse-to-Fine Contribution Network (CFSum) を提案します。まず、無駄な画像の干渉を排除するために、無駄な画像を破棄するプレフィルタモジュールを提案します。第二に、有用な画像を正確に利用するために、単語レベルとフレーズレベルの 2 つのレベルの視覚補完モジュールを提案します。具体的には、画像の寄与が計算され、テキストと視覚の両方のモダリティの注意を導くために採用されます。実験結果は、CFSum が標準ベンチマークの複数の強力なベースラインを大幅に上回るパフォーマンスを示していることを示しています。さらに、分析では、有用な画像が、画像内で暗黙的に表現される非視覚的な単語の生成にも役立つことが検証されました。
Multimodal summarization usually suffers from the problem that the contribution of the visual modality is unclear. Existing multimodal summarization approaches focus on designing the fusion methods of different modalities, while ignoring the adaptive conditions under which visual modalities are useful. Therefore, we propose a novel Coarse-to-Fine contribution network for multimodal Summarization (CFSum) to consider different contributions of images for summarization. First, to eliminate the interference of useless images, we propose a pre-filter module to abandon useless images. Second, to make accurate use of useful images, we propose two levels of visual complement modules, word level and phrase level. Specifically, image contributions are calculated and are adopted to guide the attention of both textual and visual modalities. Experimental results have shown that CFSum significantly outperforms multiple strong baselines on the standard benchmark. Furthermore, the analysis verifies that useful images can even help generate non-visual words which are implicitly represented in the image.
updated: Thu Jul 06 2023 01:46:00 GMT+0000 (UTC)
published: Thu Jul 06 2023 01:46:00 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト