Discourse Parsing in Videos: A Multi-modal Appraoch
テキストレベルの談話解析は、テキスト内の2つの文が互いにどのように関連しているかを明らかにすることを目的としています。ビデオのシーン間の談話関係を理解する必要がある視覚談話解析のタスクを提案します。ここでは、シーンという用語を使用して、ビデオをより適切に要約できるビデオフレームのサブセットを指します。ビデオから談話の手がかりを学習するためのデータセットを収集するには、ビデオフレームの大きなプールからシーンを手動で識別し、それらの間の談話関係に注釈を付ける必要があります。これは明らかに時間と費用がかかり、退屈な作業です。この作業では、シーンを明示的に識別して注釈を付ける必要なしに、ビデオから談話の手がかりを識別するアプローチを提案します。また、私たちのアプローチを評価するために、310本のビデオと対応する談話の手がかりを含む新しいデータセットを提示します。 VisualDialogやVisualStorytellingなどの多分野AIの問題の多くは、視覚的な談話の手がかりを使用することで大きなメリットが得られると考えています。
Text-level discourse parsing aims to unmask how two sentences in the text are related to each other. We propose the task of Visual Discourse Parsing, which requires understanding discourse relations among scenes in a video. Here we use the term scene to refer to a subset of video frames that can better summarize the video. In order to collect a dataset for learning discourse cues from videos, one needs to manually identify the scenes from a large pool of video frames and then annotate the discourse relations between them. This is clearly a time consuming, expensive and tedious task. In this work, we propose an approach to identify discourse cues from the videos without the need to explicitly identify and annotate the scenes. We also present a novel dataset containing 310 videos and the corresponding discourse cues to evaluate our approach. We believe that many of the multi-discipline AI problems such as Visual Dialog and Visual Storytelling would greatly benefit from the use of visual discourse cues.
updated: Sat Jan 22 2022 18:46:14 GMT+0000 (UTC)
published: Wed Mar 06 2019 09:09:47 GMT+0000 (UTC)
