arXiv reaDer
オープンエンドのビデオ質問応答のためのTransformerベースの言語モデルへのビデオメタデータのマウント
Mounting Video Metadata on Transformer-based Language Model for Open-ended Video Question Answering
ビデオの質問応答は、最近、マルチモーダルビデオ研究者から多くの注目を集めています。ほとんどのビデオ質問応答データセットは、通常、多肢選択形式です。しかし、多肢選択問題のモデルは答えを推測しません。むしろ、正解を選択するために解答候補を比較します。さらに、他のタスクへの拡張が困難になります。このホワイトペーパーでは、既存の多肢選択式のビデオ質問応答に、自由形式のビデオ質問応答に変更することで挑戦します。自由形式の質問応答に取り組むために、事前にトレーニングされたGPT2モデルを使用します。モデルは、ビデオ入力と字幕で微調整されています。アブレーションスタディは、既存のDramaQAデータセットを自由形式の質問応答に変更することで実行され、ビデオメタデータを使用してパフォーマンスを向上できることを示しています。
Video question answering has recently received a lot of attention from multimodal video researchers. Most video question answering datasets are usually in the form of multiple-choice. But, the model for the multiple-choice task does not infer the answer. Rather it compares the answer candidates for picking the correct answer. Furthermore, it makes it difficult to extend to other tasks. In this paper, we challenge the existing multiple-choice video question answering by changing it to open-ended video question answering. To tackle open-ended question answering, we use the pretrained GPT2 model. The model is fine-tuned with video inputs and subtitles. An ablation study is performed by changing the existing DramaQA dataset to an open-ended question answering, and it shows that performance can be improved using video metadata.
updated: Wed Aug 11 2021 11:11:43 GMT+0000 (UTC)
published: Wed Aug 11 2021 11:11:43 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト