arXiv reaDer
ビデオ質問応答の対話の隠された宝について
On the hidden treasure of dialog in video question answering
映画やテレビ番組などのビデオのストーリーを生データから高レベルで理解することは非常に困難です。最新のビデオ質問応答(VideoQA)システムは、多くの場合、プロットの概要、スクリプト、ビデオの説明、ナレッジベースなどの追加の人工ソースを使用します。この作品では、そのような外部ソースなしで全体の物語を理解するための新しいアプローチを提示します。その秘密はダイアログにあります。これまでの作業とは異なり、最近の方法でビデオを扱うのと同じように、ダイアログをノイズの多いソースとして扱い、ダイアログの要約によってテキストの説明に変換します。各モダリティの入力はトランスフォーマーによって個別にエンコードされ、単純な融合方法はすべてのモダリティを組み合わせ、長い入力でのローカリゼーションにソフトな時間的注意を使用します。私たちのモデルは、質問固有の人間の注釈や人間が作成したプロットの要約を使用せずに、KnowITVQAデータセットの最新技術を大幅に上回っています。これは、これまでエピソード全体を見たことがない人間の評価者よりも優れています。コードはhttps://engindeniz.github.io/dialogsummary-videoqaで入手できます。
High-level understanding of stories in video such as movies and TV shows from raw data is extremely challenging. Modern video question answering (VideoQA) systems often use additional human-made sources like plot synopses, scripts, video descriptions or knowledge bases. In this work, we present a new approach to understand the whole story without such external sources. The secret lies in the dialog: unlike any prior work, we treat dialog as a noisy source to be converted into text description via dialog summarization, much like recent methods treat video. The input of each modality is encoded by transformers independently, and a simple fusion method combines all modalities, using soft temporal attention for localization over long inputs. Our model outperforms the state of the art on the KnowIT VQA dataset by a large margin, without using question-specific human annotation or human-made plot summaries. It even outperforms human evaluators who have never watched any whole episode before. Code is available at https://engindeniz.github.io/dialogsummary-videoqa
updated: Thu Aug 19 2021 12:13:27 GMT+0000 (UTC)
published: Fri Mar 26 2021 15:17:01 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト