ビデオ分析の驚くべき進歩に触発されて、研究チームはより大きな野望である映画の理解に向かって歩んでいます。ただし、従来のデータセットのアクティビティビデオと比較すると、映画は大きく異なります。一般に、映画ははるかに長く、より豊かな時間構造で構成されています。さらに重要なことに、キャラクター間の相互作用は、基礎となるストーリーを表現する上で中心的な役割を果たします。この方向に沿った取り組みを促進するために、327映画のMovie Synopses Associations(MSA)と呼ばれるデータセットを構築します。これは、各映画の概要と、概要の段落と映画セグメント間の注釈付きの関連付けを提供します。このデータセットに加えて、映画のセグメントとあらすじの段落間のマッチングを実行するフレームワークを開発します。このフレームワークは、イベントダイナミクスやキャラクターインタラクションなど、映画のさまざまな側面を統合し、グラフベースの定式化に基づいて、解析された段落と一致させることができます。私たちの研究は、提案されたフレームワークが従来の特徴ベースの方法よりもマッチング精度を著しく改善することを示しています。また、映画の理解における物語構造とキャラクターの相互作用の重要性を明らかにします。
Inspired by the remarkable advances in video analytics, research teams are stepping towards a greater ambition -- movie understanding. However, compared to those activity videos in conventional datasets, movies are significantly different. Generally, movies are much longer and consist of much richer temporal structures. More importantly, the interactions among characters play a central role in expressing the underlying story. To facilitate the efforts along this direction, we construct a dataset called Movie Synopses Associations (MSA) over 327 movies, which provides a synopsis for each movie, together with annotated associations between synopsis paragraphs and movie segments. On top of this dataset, we develop a framework to perform matching between movie segments and synopsis paragraphs. This framework integrates different aspects of a movie, including event dynamics and character interactions, and allows them to be matched with parsed paragraphs, based on a graph-based formulation. Our study shows that the proposed framework remarkably improves the matching accuracy over conventional feature-based methods. It also reveals the importance of narrative structures and character interactions in movie understanding.