arXiv reaDer
TVQA +:ビデオの質問応答のための時空間グラウンディング
TVQA+: Spatio-Temporal Grounding for Video Question Answering
 時空間ビデオ質問応答のタスクを提示します。これには、関連する瞬間を同時に取得し、参照されている視覚的概念(人とオブジェクト)を検出して、ビデオに関する自然言語の質問に答えるインテリジェントシステムが必要です。まず、TVQAデータセットに310.8Kの境界ボックスを追加し、描かれたオブジェクトを質問と回答の視覚的概念にリンクします。この拡張バージョンをTVQA +と呼びます。次に、Grounded Evidence(STAGE)を備えた時空間アンサーを提案します。これは、ビデオに関する質問に答えるために空間的および時間的ドメインの両方で証拠を根拠とする統合フレームワークです。包括的な実験と分析により、フレームワークの有効性と、TVQA +データセットの豊富な注釈が質問応答タスクにどのように貢献できるかが示されます。さらに、この共同タスクを実行することにより、私たちのモデルは洞察に満ちた解釈可能な時空間的注意の視覚化を生み出すことができます。データセットとコードは、http://tvqa.cs.unc.edu、https://github.com/jayleicn/TVQAplusで公開されています。
We present the task of Spatio-Temporal Video Question Answering, which requires intelligent systems to simultaneously retrieve relevant moments and detect referenced visual concepts (people and objects) to answer natural language questions about videos. We first augment the TVQA dataset with 310.8K bounding boxes, linking depicted objects to visual concepts in questions and answers. We name this augmented version as TVQA+. We then propose Spatio-Temporal Answerer with Grounded Evidence (STAGE), a unified framework that grounds evidence in both spatial and temporal domains to answer questions about videos. Comprehensive experiments and analyses demonstrate the effectiveness of our framework and how the rich annotations in our TVQA+ dataset can contribute to the question answering task. Moreover, by performing this joint task, our model is able to produce insightful and interpretable spatio-temporal attention visualizations. Dataset and code are publicly available at: http: //tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus
updated: Mon May 11 2020 19:43:42 GMT+0000 (UTC)
published: Thu Apr 25 2019 20:37:26 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト