マルチモーダル要約の目標は、さまざまなモダリティから最も重要な情報を抽出して出力要約を形成することです。単峰性要約とは異なり、マルチモーダル要約タスクは、クロスモーダル情報を明示的に活用して、より信頼性の高い高品質の要約を生成します。しかし、既存の方法は、異なるモダリティ間の時間的対応を活用できず、異なるサンプル間の固有の相関を無視しています。この問題に対処するために、マルチモーダル入力を効果的に調整して対応できる統合マルチモーダル トランスフォーマー ベースのモデルである Align and Attend Multimodal Summarization (A2Summ) を導入します。さらに、サンプル間相関とサンプル内の相関の両方をモデル化するための 2 つの新しい対照的な損失を提案します。 2 つの標準的なビデオ要約データセット (TVSum と SumMe) と 2 つのマルチモーダル要約データセット (Daily Mail と CNN) に対する広範な実験により、A2Summ の優位性が実証され、すべてのデータセットで最先端のパフォーマンスが達成されました。さらに、大規模なマルチモーダル要約データセット BLiSS を収集しました。これには、ライブストリーム ビデオと、注釈付きの要約を含む転写されたテキストが含まれています。私たちのコードとデータセットは、~https://boheumd.github.io/A2Summ/ で公開されています。
The goal of multimodal summarization is to extract the most important information from different modalities to form output summaries. Unlike the unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to leverage the temporal correspondence between different modalities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at ~https://boheumd.github.io/A2Summ/.