AIの最近の進歩にもかかわらず、ストーリーの理解は未解決で十分に調査されていない問題のままです。人気の映画やテレビシリーズの5,193のビデオ要約を含む、ビデオ言語のストーリーデータセットであるSynopses of Movie Narratives(SyMoN)を収集、前処理、および公開します。 SyMoNは、人間のクリエイターによって作成された人間の視聴者向けの自然なストーリーテリングビデオをキャプチャし、同様のビデオ言語のストーリーデータセットよりもストーリーカバレッジが高く、精神状態の参照が頻繁にあります。ほとんどの既存のビデオテキストデータセットとは異なり、SyMoNは、報告バイアスと精神状態の説明が普及しているため、視覚的モダリティとテキストモダリティの間に大きなセマンティックギャップがあります。私たちは、ビデオテキスト検索と映画要約ビデオのゼロショットアラインメントに関するベンチマークを確立します。 SyMoNを使用して、マルチモーダルストーリー理解の進歩のための基礎を築くことを望んでいます。
Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives(SyMoN), containing 5,193 video summaries of popular movies and TV series. SyMoN captures naturalistic storytelling videos for human audience made by human creators, and has higher story coverage and more frequent mental-state references than similar video-language story datasets. Differing from most existing video-text datasets, SyMoN features large semantic gaps between the visual and the textual modalities due to the prevalence of reporting bias and mental state descriptions. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding.