Adversarial Multimodal Network for Movie Question Answering
 複数のモダリティからの情報を使用した視覚的な質問応答は、近年ますます注目を集めています。ただし、視覚的コンテンツと自然言語の統計特性はまったく異なるため、非常に困難な作業です。この作業では、質問応答のビデオストーリーをよりよく理解するために、Adversarial Multimodal Network(AMN)と呼ばれる方法を提示します。生成的敵対ネットワークに触発されたAMNでは、ビデオクリップおよび対応するテキスト(字幕や質問など)のより一貫した部分空間を見つけることにより、マルチモーダルな特徴表現を学習することを提案します。さらに、学習されたマルチモーダル表現で元のビデオクリップの視覚的合図の自己相関を維持するために、いわゆる一貫性制約を強制する自己注意メカニズムを導入します。 MovieQAデータセットに関する広範な実験により、私たちが提案したAMNが他の公開された最先端の方法よりも有効であることが示されています。
Visual question answering by using information from multiple modalities has attracted more and more attention in recent years. However, it is a very challenging task, as the visual content and natural language have quite different statistical properties. In this work, we present a method called Adversarial Multimodal Network (AMN) to better understand video stories for question answering. In AMN, as inspired by generative adversarial networks, we propose to learn multimodal feature representations by finding a more coherent subspace for video clips and the corresponding texts (e.g., subtitles and questions). Moreover, we introduce a self-attention mechanism to enforce the so-called consistency constraints in order to preserve the self-correlation of visual cues of the original video clips in the learned multimodal representations. Extensive experiments on the MovieQA dataset show the effectiveness of our proposed AMN over other published state-of-the-art methods.
updated: Thu Mar 12 2020 07:13:55 GMT+0000 (UTC)
published: Mon Jun 24 2019 10:44:48 GMT+0000 (UTC)
