マルチモーダル出力を使用したマルチメディア要約は、実際のアプリケーションで重要な役割を果たすことができます。つまり、ニュース記事のカバー画像とタイトルを自動的に生成したり、オンラインビデオの紹介を提供したりできます。この作業では、ビデオとテキストの両方の要約を生成するために視覚ドメインと言語ドメインを相互作用させることにより、マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案します。私たちのMHMSメソッドには、それぞれビデオとテキストのセグメンテーションおよび要約モジュールが含まれています。クロスドメインの相互作用を活用して代表的なキーフレームとテキストの要約を生成する、最適な輸送距離を備えたクロスドメインアライメントの目標を策定します。最近の3つのマルチモーダルデータセットでMHMSを評価し、高品質のマルチモーダル要約を作成する際の方法の有効性を実証しました。
Multimedia summarization with multimodal output can play an essential role in real-world applications, i.e., automatically generating cover images and titles for news articles or providing introductions to online videos. In this work, we propose a multimodal hierarchical multimedia summarization (MHMS) framework by interacting visual and language domains to generate both video and textual summaries. Our MHMS method contains video and textual segmentation and summarization module, respectively. It formulates a cross-domain alignment objective with optimal transport distance which leverages cross-domain interaction to generate the representative keyframe and textual summary. We evaluated MHMS on three recent multimodal datasets and demonstrated the effectiveness of our method in producing high-quality multimodal summaries.