arXiv reaDer
クロスモーダル自己注意ネットワーク学習によるビデオ質問生成
Video Question Generation via Cross-Modal Self-Attention Networks Learning
 新しいタスク、ビデオ質問生成(ビデオQG)を紹介します。ビデオQGモデルは、ビデオクリップとそれに対応するダイアログが与えられると、質問を自動的に生成します。ビデオQGには、文章の理解、時間的関係、視覚と言語の相互作用、意味のある質問をする能力など、さまざまなスキルが必要です。これに対処するために、マルチモーダルで多様な機能を集約するために、新しいセマンティックリッチクロスモーダルセルフアテンション(SRCMSA)ネットワークを提案します。より正確に言うと、オブジェクトレベルの情報を統合することでビデオフレームのセマンティクスを強化し、ビデオ質問生成タスクのクロスモーダルな注意を共同で検討します。エキサイティングなことに、提案されたモデルは、TVQAデータセットのBLEU-4スコアのベースラインを7.58から14.48に著しく改善します。とりわけ、困難なビデオ入力を理解するための新たな道を切り開いており、多様性の観点から詳細な分析を提供しており、今後の調査への道を開きます。
We introduce a novel task, Video Question Generation (Video QG). A Video QG model automatically generates questions given a video clip and its corresponding dialogues. Video QG requires a range of skills -- sentence comprehension, temporal relation, the interplay between vision and language, and the ability to ask meaningful questions. To address this, we propose a novel semantic rich cross-modal self-attention (SRCMSA) network to aggregate the multi-modal and diverse features. To be more precise, we enhance the video frames semantic by integrating the object-level information, and we jointly consider the cross-modal attention for the video question generation task. Excitingly, our proposed model remarkably improves the baseline from 7.58 to 14.48 in the BLEU-4 score on the TVQA dataset. Most of all, we arguably pave a novel path toward understanding the challenging video input and we provide detailed analysis in terms of diversity, which ushers the avenues for future investigations.
updated: Sun Feb 16 2020 21:11:03 GMT+0000 (UTC)
published: Fri Jul 05 2019 23:47:04 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト