arXiv reaDer
視覚的質問生成のためのマルチモーダル微分ネットワーク
Multimodal Differential Network for Visual Question Generation
  画像から自然な質問を生成することは、視覚的および言語モダリティを使用してマルチモーダル表現を学習することを必要とするセマンティックタスクです。画像には、質問、つまり場所、キャプション、タグの生成に関連する複数のビジュアルコンテキストと言語コンテキストを含めることができます。このペーパーでは、関連するコンテキストを取得するための標本の使用を提案します。マルチモーダル微分ネットワークを使用して、自然で魅力的な質問を作成することでこれを取得します。生成された質問は、人間の研究によって検証された自然の質問との顕著な類似性を示しています。さらに、提案されたアプローチは、定量的メトリック(BLEU、METEOR、ROUGE、およびCIDEr)の最新のベンチマークを大幅に改善することを確認します。
Generating natural questions from an image is a semantic task that requires using visual and language modality to learn multimodal representations. Images can have multiple visual and language contexts that are relevant for generating questions namely places, captions, and tags. In this paper, we propose the use of exemplars for obtaining the relevant context. We obtain this by using a Multimodal Differential Network to produce natural and engaging questions. The generated questions show a remarkable similarity to the natural questions as validated by a human study. Further, we observe that the proposed approach substantially improves over state-of-the-art benchmarks on the quantitative metrics (BLEU, METEOR, ROUGE, and CIDEr).
updated: Thu Oct 17 2019 10:23:19 GMT+0000 (UTC)
published: Sun Aug 12 2018 18:56:56 GMT+0000 (UTC)
参考文献 (このサイトで利用可能なもの) / References (only if available on this site)
被参照文献 (このサイトで利用可能なものを新しい順に) / Citations (only if available on this site, in order of most recent)
Amazon.co.jpアソシエイト