ビデオ質問応答(VideoQA)は、与えられたビデオに従って自然言語の質問に答えることを目的としています。共同ビジョンと言語理解における最近の研究動向により、ますます注目を集めています。それでも、ImageQAと比較すると、VideoQAはほとんど調査されておらず、進行が遅いです。さまざまなアルゴリズムが継続的に提案され、さまざまなVideoQAデータセットで成功を収めていますが、それらを分類するための有意義な調査が不足しており、その進歩を著しく妨げています。したがって、このペーパーでは、データセット、アルゴリズム、および固有の課題に焦点を当てて、VideoQAに明確な分類法と包括的な分析を提供します。次に、ファクトイドQAを超えて、ビデオコンテンツの認識に向けてQAを推論するという研究傾向を指摘し、最後に、将来の調査に向けたいくつかの有望な方向性を結論付けます。
Video Question Answering (VideoQA) aims to answer natural language questions according to the given videos. It has earned increasing attention with recent research trends in joint vision and language understanding. Yet, compared with ImageQA, VideoQA is largely underexplored and progresses slowly. Although different algorithms have continually been proposed and shown success on different VideoQA datasets, we find that there lacks a meaningful survey to categorize them, which seriously impedes its advancements. This paper thus provides a clear taxonomy and comprehensive analyses to VideoQA, focusing on the datasets, algorithms, and unique challenges. We then point out the research trend of studying beyond factoid QA to inference QA towards the cognition of video contents, Finally, we conclude some promising directions for future exploration.