arXiv reaDer
マルチモーダルイベントグラフ:マルチモーダル世界のイベント中心の理解に向けて
Multimodal Event Graphs: Towards Event Centric Understanding of Multimodal World
マルチメディアコンテンツで記述または表示されるイベントが互いにどのように関連しているかを理解することは、現実世界のメディアについて推論できる堅牢な人工知能システムを開発するための重要な要素です。テキスト、画像、およびビデオドメインでのイベントの理解に多くの研究が費やされてきましたが、ドメイン間でイベントが経験する複雑な関係を調査したものはありません。たとえば、ニュース記事では「抗議」イベントについて説明し、ビデオでは「逮捕」イベントを示している場合があります。視覚的な「逮捕」イベントがより広範な「抗議」イベントのサブイベントであることを認識することは、以前の研究では調査されていない挑戦的でありながら重要な問題です。本論文では、そのようなクロスモーダルイベント関係を認識するためのマルチモーダルイベントイベント関係の新しいタスクを提案します。 10万件のビデオニュース記事のペアで構成される大規模なデータセットと、高密度に注釈が付けられたデータのベンチマークを提供します。また、外部知識ベース(KB)からの常識知識を統合して、豊富なマルチモーダルイベント階層を予測する、弱教師ありマルチモーダル手法を提案します。実験によると、私たちのモデルは、提案されたベンチマークで多くの競合ベースラインを上回っています。また、モデルのパフォーマンスの詳細な分析を実行し、将来の研究の方向性を提案します。
Understanding how events described or shown in multimedia content relate to one another is a critical component to developing robust artificially intelligent systems which can reason about real-world media. While much research has been devoted to event understanding in the text, image, and video domains, none have explored the complex relations that events experience across domains. For example, a news article may describe a `protest' event while a video shows an `arrest' event. Recognizing that the visual `arrest' event is a subevent of the broader `protest' event is a challenging, yet important problem that prior work has not explored. In this paper, we propose the novel task of MultiModal Event Event Relations to recognize such cross-modal event relations. We contribute a large-scale dataset consisting of 100k video-news article pairs, as well as a benchmark of densely annotated data. We also propose a weakly supervised multimodal method which integrates commonsense knowledge from an external knowledge base (KB) to predict rich multimodal event hierarchies. Experiments show that our model outperforms a number of competitive baselines on our proposed benchmark. We also perform a detailed analysis of our model's performance and suggest directions for future research.
updated: Tue Jun 14 2022 23:24:15 GMT+0000 (UTC)
published: Tue Jun 14 2022 23:24:15 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト