arXiv reaDer
セマンティックロールを介したフレーズによるビデオ質問応答
Video Question Answering with Phrases via Semantic Roles
ビデオ質問応答(VidQA)の評価指標は、単一の単語の回答、または固定されたフレーズのセットからのフレーズの選択に制限されています。これらのメトリックは、VidQAモデルのアプリケーションシナリオを制限します。この作業では、ビデオの説明から派生したセマンティックロールを活用して特定のフレーズをマスクし、VidQAをフレーズの入力タスクとして提示するVidQAPを紹介します。回答フレーズの評価を可能にするために、空の文字列と比較した予測回答の相対的な改善を計算します。 VidQAデータセットの言語バイアスの影響を減らすために、同じ質問に対して異なる回答を持つビデオを取得します。調査を容易にするために、ActivityNet-SRL-QAとCharades-SRL-QAを構築し、3つのビジョン言語モデルを拡張してベンチマークを行います。さらに、将来の作業を導くために、広範な分析と奪格研究を実行します。
Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles derived from video descriptions to mask out certain phrases, to introduce VidQAP which poses VidQA as a fill-in-the-phrase task. To enable evaluation of answer phrases, we compute the relative improvement of the predicted answer compared to an empty string. To reduce the influence of language bias in VidQA datasets, we retrieve a video having a different answer for the same question. To facilitate research, we construct ActivityNet-SRL-QA and Charades-SRL-QA and benchmark them by extending three vision-language models. We further perform extensive analysis and ablative studies to guide future work.
updated: Thu Apr 08 2021 13:27:43 GMT+0000 (UTC)
published: Thu Apr 08 2021 13:27:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト